2.1Kпросмотров
4 августа 2025 г.
Score: 2.3K
Математика последовательных подходов TL;DR
Три последовательных критерия — SPRT, GST и mSPRT — используют разную математику. В этом посте — краткий обзор формул, допущений, сильных и слабых сторон каждого критерия. Почему обсуждается?
Последовательные подходы основаны на разных математических принципах — от мартингальной теории до центральной предельной теоремы. Понимание используемой математики помогает лучше видеть ограничения и преимущества методов, а также адаптировать последовательный анализ под конкретную задачу. Подход Вальда (SPRT)
Критерий
1. На n-м шаге вычисляем λ(x(n)) = log(p(x(n) | H(1)) / p(x(n) | H(0))).
2. Считаем λ(x(1:n)) = λ(x(1:n-1)) + λ(x(n)).
3. Если λ(x(1:n)) выходит за границы [A, B], останавливаем эксперимент, иначе продолжаем.
Эта процедура завершается выходом за одну из границ. Чтобы выразить вероятности ошибок, используется теорема об остановке мартингала, построенного по λ. Достоинства
– Останавливает тест и при H(0), и при H(1).
– Минимизирует среднюю длительность эксперимента и при H(0), и при H(1).
– Гарантирует контроль вероятности ошибки без асимптотических допущений.
– Применим к конверсионным метрикам, в том числе к сравнению конверсий двух выборок. Недостатки
– Требует точного задания распределений при H(0) и H(1).
– При остановке λ почти всегда оказывается около границы, но не на ней, что искажает реальные вероятности ошибок по сравнению с заданными.
– Может завышать длительность эксперимента при «промежуточной» гипотезе между H(0) и H(1).
– Консервативен при поступлении групп наблюдений. Групповой последовательный анализ (GST)
Критерий
1. Для j-й группы данных вычисляем статистику Z(j) по первым N(j) наблюдениям.
2. Считаем долю t(j) = N(j) / N.
3. Если Z(j) > z(t(j)) → принимаем H(1); иначе — продолжаем.
4. Если дошли до N и не приняли H(1) → принимаем H(0).
Эта процедура останавливается либо выходом за границу, либо принудительной остановкой эксперимента. Чтобы выразить вероятности ошибок, используется многомерная ЦПТ для вектора Z-статистик, соответствующих группам наблюдений. Достоинства
– Ускоряет проведение теста при H(1).
– Условия применимости как у Z-теста.
– Есть гибкость в настройке границ.
– Поддерживает подачу данных группами. Недостатки
– Не ускоряет проведение теста при H(0).
– Требует достаточного числа наблюдений для применимости ЦПТ.
– Требует заранее заданного общего объёма выборки N.
– Требует настройки α-spending функции. mSPRT
Критерий
1. На n-м шаге считаем байесовское отношение правдоподобий O(x(n)).
2. Вычисляем O(x(1:n)) = O(x(1:n-1))·O(x(n)).
3. Если O(x(1:n)) > 1 / α → принимаем H(1); иначе — продолжаем.
4. Если дошли до N и не приняли H(1) → принимаем H(0).
Эта процедура останавливается либо выходом за границу, либо принудительной остановкой эксперимента. Чтобы выразить вероятности ошибок, используется неравенство Вилле для максимума мартингала. Достоинства
– Ускоряет проведение теста при H(1).
– Статистика критерия и граница считаются по простым формулам.
– Гарантирует контроль вероятности ошибки без асимптотических допущений. Недостатки
– Не ускоряет проведение теста при H(0).
– Требует точного задания распределения при H(0).
– Основан на неравенстве Дуба, которое даёт консервативную границу и снижает мощность.
– Консервативен при поступлении групп наблюдений. Что использовать
SPRT
Хорошо подходит для бинарных целевых метрик. GST
Подходит для целевых метрик, но лучше — для метрик здоровья или проверки SRM. mSPRT
Хорошо подходит для метрик здоровья или проверки SRM. Библиография
Основная статья:
Choosing a Sequential Testing Framework — Comparisons and Discussions
Книга:
Tartakovsky A., Nikiforov I., Basseville M. Sequential analysis: Hypothesis Testing and Changepoint Detection. – CRC Press, 2014.
mSPRT: Lindon M. et al. Anytime-valid Inference in Linear Models and Regression-adjusted Inference //Harvard Business School. – 2024.