A/B тестирование большого числа моделей TL;DR Позволяет эффе — @mathforimpact

1.9Kпросмотров

20 ноября 2025 г.

📷 ФотоScore: 2.1K

A/B тестирование большого числа моделей TL;DR Позволяет эффективно проводить эксперименты с большим числом персонализаций и существенно снижать размеры выборок. Почему обсуждается? Когда мы тестируем несколько вариантов моделей, размер выборок быстро растёт. Однако решения моделей на большой доле клиентов могут совпадать. Рассматриваемый подход похож на валидацию моделей без A/B и позволяет значительно снизить затраты на проведение экспериментов. Проблема Нужно минимизировать размер выборки и повысить чувствительность при одновременном тестировании большого числа моделей. Предположения Для каждого клиента известны: – X - набор признаков, – T - какой из вариантов воздействия был оказан, T из {0, …, K}. Определён набор стратегий персонализации h[i], i из {1, …, L}, где каждая по признакам клиента x назначает воздействие hi = t из {0, …, K}. Решение Сплит в A/B тесте Формируем K+1 однородных выборок G(0), …, G(K) по N клиентов. Отбираем клиентов S(t) из G(t), у которых h[i] = t хотя бы для одного i из {1, …, L}. Так делаем для каждого t из {0, …, K}. Выборки клиентов S(0), …, S(K) отправляем в тест. Остальные клиенты в тесте не участвуют. Сбор выборки для одной стратегии Фиксируем i-ю стратегию, для которой строим выборку. Отбираем клиентов Si из S(t), у которых h[i] = t. Так делаем для каждого t из {0, …, K}. Выборка S[i] из Si, …, Si является выборкой, как если бы мы проводили A/B тест для стратегии h[i]. Она будет состоять примерно из N клиентов. Сравнение двух стратегий Фиксируем i-ю и j-ю стратегии, которые мы хотим сравнить. Определяем выборки S[i] и S[j]. Считаем число клиентов N[i, j], которые находятся в пересечении S[i] и S[j]. Считаем разность метрик d[i, j] на выборках S[i] и S[j] без клиентов, по которым эти выборки пересекаются. Разность метрик на группах равна D[i, j] = d[i, j] * (1 - N[i, j] / N). Достоинства Существенно сокращает размер выборок при похожих стратегиях. Повышается чувствительность критериев при удалении выборок с совпадающим воздействием. Можно сравнивать любые стратегии - ML-модели, эвристики, константные стратегии (например, контроль). Ограничения AS IS работает эффективно в случае малого L, причём L < K. Алгоритм можно адаптировать к случаю малого K, но если L и K большие, алгоритм работать не будет. AS IS работает только в случае равных размеров групп, но можно адаптировать к случаю неравных. AS IS работает для оффлайн сплита. Однако можно поменять алгоритм сплита и обобщить его на онлайн сплит. Не масштабируется на последовательные стратегии, где вариант персонализации меняется со временем. Библиография Харламов В. Uplift-модель, которая поняла бизнес // Матемаркетинг. – 2025. P.S. В одном из наших крупнейших тестов с 7 стратегиями этот подход позволил сократить размер выборок в 3 раза. И это только одна из идей, которые мы используем для повышения эффективности A/B тестов персонализаций! Об этом и других методах расскажу завтра на Матемаркетинге - приходите, если вы на конференции.

Другие посты @mathforimpact