Математика последовательных подходов TL;DR Три последователь — @mathforimpact

2.1Kпросмотров

4 августа 2025 г.

Score: 2.3K

Математика последовательных подходов TL;DR Три последовательных критерия — SPRT, GST и mSPRT — используют разную математику. В этом посте — краткий обзор формул, допущений, сильных и слабых сторон каждого критерия. Почему обсуждается? Последовательные подходы основаны на разных математических принципах — от мартингальной теории до центральной предельной теоремы. Понимание используемой математики помогает лучше видеть ограничения и преимущества методов, а также адаптировать последовательный анализ под конкретную задачу. Подход Вальда (SPRT) Критерий 1. На n-м шаге вычисляем λ(x(n)) = log(p(x(n) | H(1)) / p(x(n) | H(0))). 2. Считаем λ(x(1:n)) = λ(x(1:n-1)) + λ(x(n)). 3. Если λ(x(1:n)) выходит за границы [A, B], останавливаем эксперимент, иначе продолжаем. Эта процедура завершается выходом за одну из границ. Чтобы выразить вероятности ошибок, используется теорема об остановке мартингала, построенного по λ. Достоинства – Останавливает тест и при H(0), и при H(1). – Минимизирует среднюю длительность эксперимента и при H(0), и при H(1). – Гарантирует контроль вероятности ошибки без асимптотических допущений. – Применим к конверсионным метрикам, в том числе к сравнению конверсий двух выборок. Недостатки – Требует точного задания распределений при H(0) и H(1). – При остановке λ почти всегда оказывается около границы, но не на ней, что искажает реальные вероятности ошибок по сравнению с заданными. – Может завышать длительность эксперимента при «промежуточной» гипотезе между H(0) и H(1). – Консервативен при поступлении групп наблюдений. Групповой последовательный анализ (GST) Критерий 1. Для j-й группы данных вычисляем статистику Z(j) по первым N(j) наблюдениям. 2. Считаем долю t(j) = N(j) / N. 3. Если Z(j) > z(t(j)) → принимаем H(1); иначе — продолжаем. 4. Если дошли до N и не приняли H(1) → принимаем H(0). Эта процедура останавливается либо выходом за границу, либо принудительной остановкой эксперимента. Чтобы выразить вероятности ошибок, используется многомерная ЦПТ для вектора Z-статистик, соответствующих группам наблюдений. Достоинства – Ускоряет проведение теста при H(1). – Условия применимости как у Z-теста. – Есть гибкость в настройке границ. – Поддерживает подачу данных группами. Недостатки – Не ускоряет проведение теста при H(0). – Требует достаточного числа наблюдений для применимости ЦПТ. – Требует заранее заданного общего объёма выборки N. – Требует настройки α-spending функции. mSPRT Критерий 1. На n-м шаге считаем байесовское отношение правдоподобий O(x(n)). 2. Вычисляем O(x(1:n)) = O(x(1:n-1))·O(x(n)). 3. Если O(x(1:n)) > 1 / α → принимаем H(1); иначе — продолжаем. 4. Если дошли до N и не приняли H(1) → принимаем H(0). Эта процедура останавливается либо выходом за границу, либо принудительной остановкой эксперимента. Чтобы выразить вероятности ошибок, используется неравенство Вилле для максимума мартингала. Достоинства – Ускоряет проведение теста при H(1). – Статистика критерия и граница считаются по простым формулам. – Гарантирует контроль вероятности ошибки без асимптотических допущений. Недостатки – Не ускоряет проведение теста при H(0). – Требует точного задания распределения при H(0). – Основан на неравенстве Дуба, которое даёт консервативную границу и снижает мощность. – Консервативен при поступлении групп наблюдений. Что использовать SPRT Хорошо подходит для бинарных целевых метрик. GST Подходит для целевых метрик, но лучше — для метрик здоровья или проверки SRM. mSPRT Хорошо подходит для метрик здоровья или проверки SRM. Библиография Основная статья: Choosing a Sequential Testing Framework — Comparisons and Discussions Книга: Tartakovsky A., Nikiforov I., Basseville M. Sequential analysis: Hypothesis Testing and Changepoint Detection. – CRC Press, 2014. mSPRT: Lindon M. et al. Anytime-valid Inference in Linear Models and Regression-adjusted Inference //Harvard Business School. – 2024.

Другие посты @mathforimpact