302просмотров
4 марта 2026 г.
📷 ФотоScore: 332
Парадокс Симпсона: ловушка, которую обязан знать каждый аналитик ⚡️ Представьте такую ситуацию: вы исследуете данные, в которых есть 2 группы объектов, в каждой из которых прослеживается одна и та же тенденция. Но когда вы объединяете данные, направление зависимости меняется на противоположное. Поначалу может показаться, что в данных ошибка, но на самом деле это один из известных статистических парадоксов — парадокс Симпсона. Парадокс становится возможен, когда каждый объект имеет какой-то существенный признак, и внутри групп распределение по этому признаку неравномерное. Рассмотрим парадокс на примере 🏀 Пусть некий баскетболист в сезоне 24/25 имел такую статистику бросков: Двухочковые: 80 попаданий из 100 бросков => точность = 80% Трехочковые: 10 попаданий из 100 бросков => точность = 10% А в сезоне 25/26 у него такая статистика: Двухочковые: 41 попадание из 50 бросков => точность = 82% Трехочковые: 200 попаданий из 500 бросков => точность = 40% 82% > 80% и 40% > 10%. Хочется сделать вывод, что точность баскетболиста улучшилась. Но посмотрим на суммарный процент попаданий: В сезоне 24/25: 90/200 = 0,45 В сезоне 25/26: 241/550 = 0,438 Как ни странно, точность снизилась. Почему так произошло? 🤔
Все дело в том, что соотношение бросков между двухочковыми и трехочковыми не сохранилось. Пример с интернет-магазином 🛒 В прошлом году интернет-магазин имел: • Десктоп: 1000 посетителей, конверсия 10% (средний чек 50₽) • Мобилка: 1000 посетителей, конверсия 5% (средний чек 200₽) Общая конверсия 7,5%, выручка 15 000₽. В текущем году конверсия упала на каждом типе устройства: • Десктоп: 2000 посетителей, конверсия 9% (чек 50₽) • Мобилка: 500 посетителей, конверсия 4% (чек 200₽) Общая конверсия выросла до 8% (из-за увеличения доли десктопов с высокой конверсией), но выручка упала до 13 000₽ (так как основной трафик теперь идёт через десктоп с низким чеком). Бонус: здесь разобрал A/B-тест на данных отелей. Конверсия растёт по регионам, но падает в сумме — классический парадокс Симпсона. Можно зайти и покрутить данные. Почему этот парадокс важен для аналитиков 📢 • Нельзя доверять только агрегированным данным, нужно анализировать страты. • Особенно критично при оценке эффективности (рекламные кампании, лечение и т.п.). • Про парадокс любят спрашивать на собеседованиях – стоит понимать суть и уметь построить пример. Как не попасть в ловушку 🎣 • Всегда смотреть на данные в разрезе важных признаков (пол, возраст, регион, тип устройства). • Использовать стратификацию перед анализом. • Помнить про скоринг склонностей (PSM – про него тоже когда-нибудь расскажу), если группы несбалансированны. А вы сталкивались с парадоксом Симпсона в своей практике?
Делитесь в комментариях! 💬 Ставьте: 🔥 если было полезно ❤️ если интересны разборы популярных вопросов с собеседований 🤩 если интересны посты про статистику #аналитические_методы #статистика
#собеседования