Оценка качества персонализации TL;DR Позволяет оценить эффек — @mathforimpact

1.7Kпросмотров

6 октября 2025 г.

Score: 1.9K

Оценка качества персонализации TL;DR Позволяет оценить эффективность персонализации без проведения нового эксперимента. Особенно полезен, если вариантов воздействий немного. Почему обсуждается? При разработке персонализации важно заранее понимать, принесёт ли она прирост целевых метрик и не создаст ли нежелательных эффектов. Рассматриваемый подход позволяет оценить ожидаемую пользу и риски персонализации на оффлайн-данных, без запуска дополнительного эксперимента. Проблема Нужно оценить значение метрики при использовании персонализации на данных, собранных до её внедрения. Предположения Для каждого клиента известны: – X - набор признаков, – T - какой из вариантов воздействия был оказан, T из {0, …, K}, – Y - каков был результат (метрика). Предполагается, что данные получены из эксперимента: вероятность выбора воздействия P(T = t | X) = p(t) не зависит от X. Решение Пусть h — стратегия персонализации, которая по признакам клиента x назначает воздействие h(x) = t. 1. Для каждого клиента i вычисляем Z(i; h) = Y(i) / p(T(i)), если h(X(i)) = T(i); иначе Z(i; h) = 0. 2. Оценку эффективности стратегии Z(h) определяем как среднее Z(i; h) по всем клиентам. Величина Z(h) является несмещённой оценкой среднего значения метрики Y при использовании стратегии h. Для этой оценки можно построить доверительный интервал и проверить гипотезу стандартным Z-тестом. Достоинства – Оценка универсальна: стратегия h может быть получена из uplift модели, эвристик или набора простых правил. – Качество оценки не зависит от точности ML модели, из которой получена стратегия. – В качестве Y можно выбрать не только целевую метрику, но и любую другую. Например, для оценки побочных эффектов стратегии или рисков её применения. Ограничения – Если K достаточно велико, дисперсия оценки будет велика. – Подход требует однородности выборок при разных T, иначе оценка будет смещённой. – Если стратегия h получена из uplift модели, то оценка должна быть построена на отложенной выборке. Иначе переобучение может повлиять на несмещённость оценки. Библиография Основная статья: Zhao Y., Fang X., Simchi-Levi D. Uplift modeling with multiple treatments and general response types // Proceedings of the 2017 SIAM International Conference on Data Mining. – 2017. – С. 588-596. P.S. Идея подхода изначально принадлежит @lashinin - он предложил её для оценки качества моделей на хакатоне по uplift-моделированию. У Олега отличный канал Персонализация неизбежна - про рекомендательные системы и персонализацию, включая uplift-модели. О том, что получилось по итогам хакатона, расскажу в следующем посте!

Другие посты @mathforimpact