?

Log in

No account? Create an account
nyaload

Журнал Пушыстого

Журнал Пушыстого

Previous Entry Share Next Entry
Чем дальше в лес, тем толще тоньше
nyaload
_winnie
Сегодня осознал удивительное и новое для меня: добавление нового параметра для предсказания в линейную модель - может поменять смысл старых параметров на _противоположный_.


Например, хотим для красных и зеленых объектов предсказать их цвет, если известны только их координаты x, y. Если известен только x, то работает логика "чем больше x, тем скорее всего объект красный". Если же известны и x, и y, то смысл параметра x меняется наоборот: "чем больше x, тем скорее всего объект НЕ красный". НУ КАК ТАК

Tags: ,

  • 1
Парадокс Симпсона. Но в таком вырожденном виде он ещё поразительнее.

Re: Парадокс Симпсона.

Спасибо за ссылку!
Благодаря ей набрёл на другую статью, фраза в которой поравала:
Парадокс является кажущимся, потому что многие люди удивлены тем, что такое может происходить. Знакомство с этими примерами должно сделать явление очевидным.

Re: Парадокс Симпсона.

Там ещё смешные неполиткорректные шутки =)

чё-то я ни фига не понял - на второй картинк чем больше "x", тем скорее всего объект красный. Всё по-прежнему.

Я тоже не сразу понял. В посту не очень точно сформулировано.

У нас есть две выборки с точками из R. Нашли оптимальный разделитель (x > 0). Теперь появилась вторая размерность, мы подумали и улучшили разделитель (-x - y > 0). Парадокс в том, что после улучшения разделителя, зависимость от x поменяла знак.

спасибо за попытку разъяснить
ни в коем случае не спорю, просто пытаюсь докопаться

не понимаю всё равно
разделить разделителем - вероятность того что элемент красный возрастает с x всё равно?

нет, не растет. Зафиксируйте y=0, например, и посмотрите, что происходит с увеличением x.

а, при фиксированном y

Она не поменяла знак. Она поменяла границу. Надо просто преобразовать второе выражение в более человеческую запись. Получится isRed = (x > -y). Вся тайна пропадает. Хотя нет, я напутал со знаками, получится isRed = (x < -y). Но тоже таинственность уменьшается.


Edited at 2015-08-15 03:40 pm (UTC)

Я думаю, таинственность уменьшится, если не считать знак чем-то исключительным. Никто же не будет переживать, если после новых данных функция изменится с x > 0 на x > 37.

Все-таки когда знаешь смысл свойств, и видишь бред "при прочих равных, чем больше температура, тем холоднее", возникает желание разобраться, что там происходит.

Edited at 2015-08-15 08:17 pm (UTC)

Ну, если лед тает при 37 градусах Цельсия, тоже можно задуматься.

Edited at 2015-08-15 08:31 pm (UTC)

Но тут все же с x > 0 на x < 37.

В каком-то смысле знак является исключительным. Просто, когда мы фиксируем y=0, мы наблюдаем некоторую проекцию, срез. Тот факт, что тенденции на срезе не такие как тенденции в целом, в общем-то, не так уж и удивителен. Ведь никого же не удивляет, что при голосовании за какого-то политика находятся группы людей, которые его совершенно не поддерживают?

> мы наблюдаем некоторую проекцию, срез
И так - на всех срезах вообще. Вот побольше точек, посильнее размазаных по диагонали - http://dobrokot.ru/pics/i2015-08-17__01-30-57_65kb.png

По-моему, не на всех, а только на тех, которые образуют правильный угол с границей. Если начать проводить линию выше прямой и ристовать ее слева направо (но так, чтобы она пересекла голубю границу), то на этой линии с увеличением x, вероятность увидить красную точку увеличивается с x.

это же супер-распространенное явление
не так давно люди из гугла говорили, что победы в олимпиадах по программированию _отрицательно_ скоррелировано с качеством работы в гугле.

при этом конечно, если мы будем смотреть все население, то победа в олимпиаде по программированию - очень сильно положительно скоррелировано с любой разумной метрикой качества работы. Но если мы будем смотреть на корреляцию условно на то, что человек прошел интервью в гугле, то она меняет знак.

Более глубокая мораль всего этого - что линейные ( а точнее легко интерпретируемые) методы predictive modelling - рулят. Потому что как только у вас black box типа нейросети, то все эти эффекты становятся абсолютно невидимыми и легко наломать дров.

> "чем больше x, тем скорее всего объект красный"
В двух случаях это два разных утверждения, имеющие разный контекст. В первом случае ты смотришь на выборку, во втором — на ту область, в которую попадаешь.

X-y > 0 тоже прекрасно подходит, с той же точностью, что и х > 0

Если быть точным, то изменится. Проецируем мы на разные прямые.

Чувак, вот серьезно, тебе не надоело заходить _мельком_ в математогеометрию, и начиная в очередной раз сравнивать мягкое с теплым - искренне удивляться тому, что дескать почему же Солнце заходит на западе, а встает — аж на противоположннном краю нашей истинно-плоской Земли — аж на востоке? :) Зашел бы уж туда на несколько месяцев, но серьезно, а не мимоходом — может и удивлений бв странных меньше бы стало. :)

  • 1