1.7Kпросмотров
21 сентября 2025 г.
Score: 1.9K
Uplift моделирование: Causal Random Forest TL;DR
Позволяет персонализировать принятие решений, предсказывая эффект от каждого воздействия на клиента. Особенно полезен, если вариантов немного. Почему обсуждается?
Модели, основанные на S-learner подходе, могут слабо различать варианты воздействий на клиента. Рассматриваемый подход позволяет сильнее сфокусироваться на различиях между вариантами воздействий. Проблема
Нужно персонализировать выбор воздействия для максимизации целевой метрики. Предположения
Для каждого клиента известны:
– X - набор признаков,
– T - какой из вариантов воздействия был оказан, T из {0, …, K},
– Y - каков был результат (метрика).
При этом все варианты воздействий хотя бы иногда встречаются для любых признаков. То есть P(T = t | X) > 0 при всех X и t из {0, …, K}. Решение
Для каждого t из {1, …, K} проводим обучение:
1. Собираем обучающую выборку (X(i), T(i), Y(i)) только для тех i, когда T(i) = 0 или T(i) = t.
2. Строим модель случайного леса f(X(i); t), где каждое решающее дерево предсказывает разницу метрики Y(i) между вариантами T(i) = t и T(i) = 0. Применение:
1. Для клиента определяем вектор признаков x.
2. Вычисляем предсказания d(t) = f(x; t) для всех t из {1, …, K}.
3. Если m = max(d(1), …, d(K)) > 0, то выбираем h(x) из {1, …, K} таким, чтобы d(h(x)) = m. Иначе h(x) = 0.
4. Назначаем клиенту воздействие h(x). Полученная стратегия h - это результат uplift-модели. Достоинства
– При достаточном качестве модели выбор воздействия будет приближаться к оптимальному.
– В случае A/B-теста можно выделить подгруппы, где uplift-модель рекомендует разные воздействия, и проверить, что для одних людей лучше контроль, а для других - тест.
– Архитектура модели специально ориентирована на выявление различий в метриках, вызванных различиями в воздействиях. Ограничения
– Если K достаточно велико, модели будут работать неэффективно.
– Подход не учитывает изменения в отклике клиента на повторные воздействия, поэтому стратегия uplift модели при многократном применении может быть не оптимальна.
– Для uplift модели важна консистентность данных по времени. Если t = 0 применялся на полгода раньше, чем t = 1, модель может спутать эффект времени с эффектом воздействия. Библиография
Основная статья:
Athey S., Imbens G. Recursive partitioning for heterogeneous causal effects //Proceedings of the National Academy of Sciences. – 2016. – Т. 113. – №. 27. – С. 7353-7360.
Реализация на Python: CausalML: Meta-learners and Uplift Trees.