?

Log in

No account? Create an account
nyaload

Журнал Пушыстого

Журнал Пушыстого

Previous Entry Share Next Entry
Отношение двух случайных целочисленных величин.
nyaload
_winnie
Должен признать, что пики на графиках не являются безоговорочным признаком фальсификаций (здесь обсуждаю только пики, и факт их наличия, а не их размер или преступления с подделкой протоколов).

Если взять отношение двух ЦЕЛОЧИСЛЕННЫХ случайных величин, то на на простых дробях с небольшим знаменателем (напр. 1/2, 1/3, 1/4,1/5,...) образуются пики сами собой.

Так что пики могут взяться не только из-за искусственной подгонки результатов, а просто в силу того, что на 4 делится больше чисел, чем на 39 или 41.

Простой пример, дискретное распределение отношения двух случайных целых чисел i/j, i от 1 до 300, j от 0 до i (код для желающих)
Получается вот такой фрактал:

Заметьте, пики не только на 3/4 = 75%, но и на таких менее "круглых" числах как 1/7, 2/7, 6/7.
Когда мы на такой фрактал накладываем целочисленную решетку, мы получаем на ней пики там где находятся делители размера решётки (50%, 25%, 20%, 5%, 2%).

Попытка промоделировать выборы. Количество проголосовавших на участке берётся из файла с данными голосования (можно взять похожее log-normal, пики будут такие же). Биноминальная случайная величина B(n,p) для процента голосов за партию с p характерным для конкретного региона, выбирается как нормальная с центром в 40% +- sigma=20%.) Биноминальная лучше чем нормальная подходит для описания распределения на конкретном участке на концах интервала 0-100%. Если взять нормальную, то за Яблоко иногда будет отрицательное количество голосов, а за КПРФ иногда больше 100% (код, требует файл с данными об участках).

Через шаг в 1%:


Вот такой вот сюрприз от теории вероятностей и теории чисел, что не всегда можно приближать на гистограммах дискретные случайные величины - непрерывными. А очень часто измеренные случайные величины - именно дискретные (например, время пинга в миллисекундах).
Tags:


  • 1
Хех, сам только-что хотел такое же промоделировать.

Для каждого конкретного размера участка распределения голосов будет биномиальным, P(k)=Cnk pk qn-k (q=1-p). В пределе k≫1 (для Яблока это не выполняется), n-k≫1 это даёт нормальную с центром pn и сигмой √p̅q̅n̅ (в относительных единицах явки — p и √p̅q̅/√n̅). Т.е. сигма зависит от размера участка. В сумме гауссианы с одинаковым центром и разной ширины сложатся в нечто похожее на гауссиану с тем же центром (около 0 и 100% приближение становится неверным).

Как видно на модели, хоть заусеницы и есть, им далеко до наблюдаемых на практике. Непросто будет подобрать модель, дающую такие же выбросы.

Ещё бы нарисовать двумерное распределение (размер участка — голоса) для реальных данных и модельных и посмотреть насчёт горизонтальных полос.

там довольно напряженно моделировать, поскольку распределение голосов за сами-знаете-какую партию довольно... гм, интересное, и я только недавно смог подобрать хоть какую-то благоразумную модель -- и то после того, как сделал двуразмерную гистограмму.

я постараюсь завтра напечатать результаты.

я уж сдалал все давно, да вы не посмотрели

извините, забегался.
уже посмотрел.
вы молодец.

  • 1