?

Log in

No account? Create an account
nyaload

Журнал Пушыстого

Журнал Пушыстого

Previous Entry Share Next Entry
Отношение двух случайных целочисленных величин.
nyaload
_winnie
Должен признать, что пики на графиках не являются безоговорочным признаком фальсификаций (здесь обсуждаю только пики, и факт их наличия, а не их размер или преступления с подделкой протоколов).

Если взять отношение двух ЦЕЛОЧИСЛЕННЫХ случайных величин, то на на простых дробях с небольшим знаменателем (напр. 1/2, 1/3, 1/4,1/5,...) образуются пики сами собой.

Так что пики могут взяться не только из-за искусственной подгонки результатов, а просто в силу того, что на 4 делится больше чисел, чем на 39 или 41.

Простой пример, дискретное распределение отношения двух случайных целых чисел i/j, i от 1 до 300, j от 0 до i (код для желающих)
Получается вот такой фрактал:

Заметьте, пики не только на 3/4 = 75%, но и на таких менее "круглых" числах как 1/7, 2/7, 6/7.
Когда мы на такой фрактал накладываем целочисленную решетку, мы получаем на ней пики там где находятся делители размера решётки (50%, 25%, 20%, 5%, 2%).

Попытка промоделировать выборы. Количество проголосовавших на участке берётся из файла с данными голосования (можно взять похожее log-normal, пики будут такие же). Биноминальная случайная величина B(n,p) для процента голосов за партию с p характерным для конкретного региона, выбирается как нормальная с центром в 40% +- sigma=20%.) Биноминальная лучше чем нормальная подходит для описания распределения на конкретном участке на концах интервала 0-100%. Если взять нормальную, то за Яблоко иногда будет отрицательное количество голосов, а за КПРФ иногда больше 100% (код, требует файл с данными об участках).

Через шаг в 1%:


Вот такой вот сюрприз от теории вероятностей и теории чисел, что не всегда можно приближать на гистограммах дискретные случайные величины - непрерывными. А очень часто измеренные случайные величины - именно дискретные (например, время пинга в миллисекундах).
Tags:


  • 1

Re: Эту версию успешно проверили

Ну, дело не в маленьких участках. А в том, что все числа делятся на 1, половина чисел делится на два, треть чисел делится на три, ...
Поэтому в точке 1.0 будет столбик высотой в N пикселей, в точке 0.5 будет столбик N/2 пикселей, в точке 1/3 и 2/3 столбик высотой в N/3 пикселей ...
Если из кода, который рисует распределение отношения двух дискретных величин все i, которые меньше 50, то получаем такой же фрактал:

import pylab

stat = {}

for i in xrange(1, 300):
    if i<50:
        continue
    for j in xrange(i+1):
        proc = float(j) / i
        stat[proc] = stat.get(proc,0) + 1

a = '1/3 2/3 1/2 3/4 3/7  2/7 1/7 6/7'.split()
b = [eval(x.replace('/', '.0/')) for x in a]

pylab.xticks(b, a)

pylab.yticks([0])
pylab.grid()

xs, ys = map(list, zip(*sorted(stat.items()))) #list of pairs to pair of lists

pylab.vlines(xs, [0], ys, 'g')

pylab.show()





Re: Эту версию успешно проверили

Но такой метод не дает специальные пики всех значениях, кратных 5 вместо делителей размера решетки, плюс для больших участков (>100 человек) пики из-за квантования при бине в полпроцента меньше, чем в вашем примере.

Re: Эту версию успешно проверили

Ваш вариант в подробностях:
http://kobak.livejournal.com/102646.html?style=mine#cutid1
Гипотеза не подтвердилась

Похожую картинку

(с большим элементом случайности) нарисовал Петя Митричев, у него тоже есть некоторые пики на рациональных числах.

Но в общем-то это мало похоже на данные с выборов. См. также забавные данные по Стерлитамаку, это уже совсем цирк kireev.livejournal.com/703723.html

Re: Эту версию успешно проверили

по-моему, комментарий связан не столько с пиками (они как раз должны быть больше), сколько с гауссовостью остального распределения.

  • 1