?

Log in

No account? Create an account
nyaload

Журнал Пушыстого

Журнал Пушыстого

Previous Entry Share Next Entry
Оценка качества и количества ошибок
nyaload
_winnie
Пусть два корректора ищут опечатки в большой книге.
Предположим, первый нашёл i ошибок, а второй j, при этом они нашли общих k ошибок.
И предположим, что первый корректор находит ошибку с вероятностью p, а второй - с вероятностью q.

Оказывается, можно исходя из информации только о количестве найденных ошибок - узнать сколько их ещё осталось.

Пусть всего ошибок m, тогда
i ≈ p⋅m
j ≈ q⋅m
k ≈ p⋅q⋅m (предполагая независимость нахождения ошибок двумя корректорами).

и m ≈ j⋅i/k.
Tags:


  • 1
i=j=k=10;
p=q=1;
m ≈ 10*10/10 = 10;

Логика в этом есть, но что-то с ней не то, как мне кажется.

Т.е. не очень понятно, сколько же их еще осталось.

обнаружено 10 ошибок, всего из 10, значит осталось 0.

Я протормозил: почему-то решил, что текст проверяется не весь... Теперь ясно.

всего 10 ошибок, их все нашли

Интересно в этой формуле получается, если i,j ≠ k.

В данном случае всё хорошо, даже равенства точные. Если есть убер-корректоры обнаруживающие 100% ошибок, то они находят по 10 совпадающих ошибок, которые исчерпывают все ошибки которые есть.

Труднее всего найти постоянных во времени корректоров, у которых p и q не плывут во времени, пространстве и содержании текстов. И, таки да, для их колибровки потребуется хоть один убер-корректор.

Зачем? Ничего не нужно. В итоговой формуле p и q вообще не используются.

И то правда. Красиво. А я - заработался.

В итоговой не используются, но использутся при выводе.
Легко привести контр-пример для формулы:
пусть в книге 10 ошибок которые обнаруживаются с вероятностью 1, и 1000 ошибок которые обнаруживаются с вероятностью 0.01. Пусть оба корректора нашли 10 общих ошибок из тех, которые с вероятностью 1 и каждый нашёл 10 своих личных ошибок из 1000 которые с вероятностью 1% (каждый нашёл по 20 ошибок, 10 общих). Тогда формула даёт очень неправильную оценку 20*20/10 = 40 ошибок.

Формула даёт масштабный сбой, если в исходном тексте ошибок нет :)

Поскольку тут целые числа, они должны быть достаточно далеко от нуля, а то если i,j или k равно 3 вместо 2 - то ответ будет отличатся в полтора раза, хотя 3 от 2 при случайном нахождении ошибок не говорит о большой разнице качества, так как может быть число случайным.

Ага, похоже именно оно :)

  • 1