?

Log in

No account? Create an account
nyaload

Журнал Пушыстого

Журнал Пушыстого

Previous Entry Share Next Entry
Отношение двух случайных целочисленных величин.
nyaload
_winnie
Должен признать, что пики на графиках не являются безоговорочным признаком фальсификаций (здесь обсуждаю только пики, и факт их наличия, а не их размер или преступления с подделкой протоколов).

Если взять отношение двух ЦЕЛОЧИСЛЕННЫХ случайных величин, то на на простых дробях с небольшим знаменателем (напр. 1/2, 1/3, 1/4,1/5,...) образуются пики сами собой.

Так что пики могут взяться не только из-за искусственной подгонки результатов, а просто в силу того, что на 4 делится больше чисел, чем на 39 или 41.

Простой пример, дискретное распределение отношения двух случайных целых чисел i/j, i от 1 до 300, j от 0 до i (код для желающих)
Получается вот такой фрактал:

Заметьте, пики не только на 3/4 = 75%, но и на таких менее "круглых" числах как 1/7, 2/7, 6/7.
Когда мы на такой фрактал накладываем целочисленную решетку, мы получаем на ней пики там где находятся делители размера решётки (50%, 25%, 20%, 5%, 2%).

Попытка промоделировать выборы. Количество проголосовавших на участке берётся из файла с данными голосования (можно взять похожее log-normal, пики будут такие же). Биноминальная случайная величина B(n,p) для процента голосов за партию с p характерным для конкретного региона, выбирается как нормальная с центром в 40% +- sigma=20%.) Биноминальная лучше чем нормальная подходит для описания распределения на конкретном участке на концах интервала 0-100%. Если взять нормальную, то за Яблоко иногда будет отрицательное количество голосов, а за КПРФ иногда больше 100% (код, требует файл с данными об участках).

Через шаг в 1%:


Вот такой вот сюрприз от теории вероятностей и теории чисел, что не всегда можно приближать на гистограммах дискретные случайные величины - непрерывными. А очень часто измеренные случайные величины - именно дискретные (например, время пинга в миллисекундах).
Tags:


  • 1
я не очень понял, откуда у тебя отношение двух случайных величин? это количество голосов за партию/количество пришедших людей? это не независимые величины.
можно сделать куда более простое моделирование:
- разбиваем людей на участки (фиксировано, а не случайно. для простоты все участки одного размера)
- на каждом участке случайная явка, распределение нормальное.
- каждый человек выбирает партию случайно и случайно приходит или не приходит.
при достаточно большом числе человек на участок и количестве участков получаются чистые колокола:


если числа небольшие, то видно "зубы", но они не "на красивых процентах", а где попало:


кстати, если явка зависит от выбора партии, например, голосующий за партию большинства приходит множителем 0.75, картинки остаются такими же, просто колокол съезжает:


если интересно, код здесь: https://sites.google.com/site/n9621569140/stuff/voting.py

В твоём моделировании гауссианы очень узенькие и высокие. Поэтому на графике пики или в области где гауссиана почти ноль по сравнению с максимумом, или же у гауссианы крутой склон. А пики и сами по себе небольшие, но всё-таки и на твоих графиках можно их увидеть:

На реальных графиках пики мне кажутся гораздо более крупными, но все-таки надо заметить что по крайней мере частично у них есть "естественное" происхождение.

http://dobrokot.ru/pics/i2011-12-12__15-55-12_40kb.png




действительно, если сильно приблизить, то видны пики:

только у меня большинство вышло не на красивых числах. больше похоже просто на шум -- размер пиков десятые доли процента от высоты большого пика. на выборных графиках размеры совсем не те.

кстати, вчера понял, что перемудрил с явкой. если не выбирать случайное значение для участка, а написать просто
t = r.randint(0, 99) < TURNOUT
получаются те же картинки, только еще более гладкие (больше выборка просто). там от пиков уже почти ничего не остается:


  • 1