p-value, альфа и ошибка первого рода: как не перепутать Это — @stats_for_science

4.6Kпросмотров

87.5%от подписчиков

26 января 2026 г.

provocationScore: 5.0K

p-value, альфа и ошибка первого рода: как не перепутать Это будет простой теоретический разбор ключевых понятий в статистике. Для разогрева я спрятала под спойлер определения, попробуйте их распределить самостоятельно и ответить, как они связаны между собой. alpha – верхняя граница вероятности ошибки первого рода. p-value – вероятность найти такие же или еще более экстремальные значения тестовой статистики при условии верности нулевой гипотезы. ошибка первого рода – отвергли нулевую гипотезу, когда она была верна (например, нашли отличия, там где их на самом деле нет). А как они связаны между собой? 1. Мы сравниваем p-value с альфой, чтобы отвергнуть или не отвергнуть нулевую гипотезу. 2. При проведении множества независимых тестов с верностью нулевой гипотезы ожидаемая доля ошибок первого рода не превышает заданную альфу. Например, если мы проводим 100 A/A-тестов с α = 0.05, то в среднем примерно в 5 тестах мы отвергнем H₀ (то есть сделаем ошибку первого рода). Важно: в конкретном тесте мы никогда не знаем, совершили ли ошибку первого рода (это уже случилось или нет). Но когда мы фиксируем альфу заранее, мы контролируем долгосрочную частоту таких ошибок — при большом числе повторений она будет близка к α (но есть нюансы, подробнее ниже). 3. Следствие: чем меньше альфа, тем реже будет ошибка первого рода. Однако при этом увеличится ошибка второго рода, всегда приходится балансировать между двумя типами ошибок. Нюанс: в реальной жизни альфа не всегда совпадает с фактической вероятностью ошибки первого рода (ошибка бывает больше). Когда это происходит и как этого избежать? 🟡Множественные сравнения При тестировании множества гипотез (несколько групп, метрик) возрастает вероятность совершить хотя бы одну ошибку первого рода. Если не делать поправку, то мы уже не контролируем альфа на заданном уровне. Решение: использовать поправки на множественные сравнения (Бонферрони, Холм, FDR) в зависимости от задачи. Более подробно можно почитать здесь. 🟡Подглядывание в A/B тесты Если мы многократно проверяем результаты A/B теста и останавливаем эксперимент при первом p-value < 0.05, это эквивалентно множественным проверкам гипотез и приводит к завышению ошибки первого рода. Решение: использовать методы sequential testing. 🟡Не выполнены предпосылки теста Например, используем t-тест Стьюдента (не Велча) для выборок с разной дисперсией и разного объема, в результате мы можем сильно завысить уровень ошибки первого рода, подробнее здесь. Решение: использовать тест Велча. Другие примеры, когда ошибка первого рода возрастает в случае несоблюдения предпосылок теста, предлагаю накидать в комментарии. Подсказка: это может быть связано с одной из любимых тем на этом канале) Пишите в комментариях, не путаете ли вы термины, и сталкивались ли с ситуациями, когда ошибка первого рода превышала альфу. #stats #stat_hard #analytics

Другие посты @stats_for_science