Andrey Gulin (_foreseer) wrote,
Andrey Gulin
_foreseer

Я должен быть предельно трезв, чтобы в графе поставить крест

Денис Сергеевич _denplusplus_ сообщает нам какими были бы результаты выборов в КС оппозиции, если бы голоса "МММ-щиков" не были отброшены. У меня возникает вопрос а сколько именно там "МММ-щиков" и что будет, если выпилить их всех, а также как именно проголосовали "МММ-щики". Да и народ интересуется опытом яндекса в этой области. Для выделения "МММ-щиков" я воспользовался тем фактом, что им рекомендовали голосовать определённым образом. Голоса тех, кто зачем-то послушался совета стали похожи друг на друга. Используя только эту информацию уже можно выделить группу людей, голосовавших невероятно похожим друг на друга образом. Глядя на распределение числа одинаковых голосов у случайной пары голосовавших легко заметить неестественный пик в хвосте. Предположим, что совпадение больше 35 позиций у двух человек неслучайно и означает, что это голосовал либо один и тот же человек 2 раза или какая-то группа людей по чьему-то совету. Сделаем граф из голосующих, каждый человек это узел в графе. Добавим ребро между узлами, если пересечение между голосами больше 35 (маловероятное событие для голосования двух несвязанных людей). Посмотрим на связные компоненты в таком графе (оптимизация - для поиска связных компонент с высокой точностью достаточно посамплить пары узлов, а не перебирать все пары узлов и не считать 100k^2 пересечений наборов голосов). Выясняется, что в данных есть одна связная компонента на ~16600 человек (превед, МММ-щики) и пара десятков копонент из 2-4 человек (некоторые семьи голосовали вместе?). Если увеличить пересечение для добавления ребра в граф до консервативных 38 голосов, то большая компонента уменьшается до 15500 человек, т.е. незначительно уменьшается, а не исчезает или разбивается на много маленьких, как должно было бы быть в равномерных данных.

Результаты для границы в 35 совпадений (с 16600 человек, записанных в "МММ-щики"). Как проголосовали "МММ-щики" см. тут. Как распределятся голоса без МММ-щиков см. тут. Отличий в общегражданском списке нет. Левые силы -Николаев -Палчаев +Волкова +Санников. Либеральные и националистические силы без изменений.

Update leonwolf пишет, что я даю "самую точную" оценку. Конечно же это не так и оценка приблизительная и довольно сильно зависит от числа совпадений. Я выбрал 35 без особых обоснований на то и потом что результат меняется не сильно, но он меняется, поэтому говорит о точности даже во втором знаке не приходится. Всё таки понятие "МММ-щик" размытое. От числа совпадений размер групп зависит вот так. Интересно, что есть ещё одна большая группа, которая появляется на 24 совпадениях и исчезает после 30. При отсечке в 24 совпадения "независимые голоса" выглядят так, "МММ-щики" так, непонятная мне группа такая. Результаты непонятной группы плюс-минус совпадают с "независимыми", чего не скажешь о группе "МММ-щиков".

Update2 Женя Крохалев предлагает http://rutsh.blogspot.com/2012/10/blog-post_24.html более точный способ отделения MMM-щиков через mixture model (их оказывается ~17800). А plakhov предлагает http://plakhov.livejournal.com/194252.html способ подсчёта который позволяет и без выпиливания каких-либо голосов получать репрезентативный совет
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic
  • 11 comments