4.3Kпросмотров
9 февраля 2026 г.
Score: 4.7K
С понедельником! Начинается новый спринт, очень хочется, чтобы он пошел по плану, а не как на прошлой неделе 🦋 В одном из постов я уже говорила о том, что в моих планах было подводить итоги проекта, запущенного еще в прошлом квартале, ну точнее в декабре, а там мне очень пригодится такое понятие, как корреляция, поэтому напомню себе и вам о том, что это вообще такое. 📉Корреляция - это статистическая взаимосвязь между двумя или более случайными величинами, при которой изменение одной величины сопровождается закономерным изменением другой.
А так же это самая популярная и самая опасная метрика в аналитике. Корреляция показывает, насколько две переменные "двигаются" вместе. Коэффициент корреляции может быть от -1 до 1: 1 — идеально синхронные движения; 0 — каждый двигается сам по себе; -1 — идеально синхронные движения, но в разные стороны (одна растёт, другая падает). Пример:
-- Считаем в ClickHouse:
SELECT corr(time_on_site, revenue) as r
FROM user_sessions;
-- 0,8! Ого! Сильная связь! 🚨3 главных обмана корреляции
Обман №1: "Двигаются вместе" ≠ "Одна влияет на другую"
Классика: продажи мороженого и утопления сильно коррелируют.
Причина? Лето. Не мороженое топит людей. Обман №2: Сильная корреляция ≠ Важная связь
Корреляция имени длины 7 букв и зарплаты может быть 0,2 (и даже значимой!). Но это бесполезно для бизнеса. Обман №3: Нет корреляции ≠ Нет связи
Температура и потребление энергии: Летом: жарко → кондиционеры → много энергии Зимой: холодно → обогреватели → много энергии
Корреляция? Близка к нулю! Связь? Огромная! 🪧Как не попасться в ловушку ❣️Правило 1: Всегда спрашивайте: "А что общее у этих переменных?"
Рост продаж зонтов и рост продаж такси = дождь, а не магия. ❣️Правило 2: Сначала график, потом цифры
# Один выброс убивает всю корреляцию
plt.scatter(x, y)
plt.show() # Увидите выбросы, кривые зависимости ❣️Правило 3: Проверяйте разные типы корреляций
Пирсон — для нормальных данных и линейных связей
Спирмен — для любых монотонных связей (ранговая)
Кендалл — когда много одинаковых значений 📊 Реальные примеры обмана
Пример 1: В ресторане заметили: чем больше салатов заказывают, тем выше средний чек.
Решение: Начали предлагать салат всем.
Результат: Средний чек упал.
Правда: Дорогие клиенты сами выбирали салат, а не салат делал их дорогими. Пример 2: Чем дольше страница грузится, тем выше конверсия.
Парадокс? Нет: это платёжные страницы — они всегда грузятся дольше и конверсия там выше. Пример 3: Планета охлаждается, когда пиратов становится больше Корреляция(количество_пиратов, температура_планеты) = -0,95
«Пираты охлаждают планету! Надо возродить пиратство для борьбы с потеплением!»
Реальность: Обе переменные просто меняются со временем. Пиратов стало меньше, температура выросла. Время — скрытая третья переменная. Когда корреляция полезна?
➖Для гипотез: "Есть корреляция 0,6 - давайте исследовать глубже";
➖Для фильтрации: Ищем связанные метрики для моделей;
➖Для мониторинга: Внезапное падение корреляции = что-то сломалось. 💎 Главный вывод
Корреляция — это всего лишь начало расследования, а не результат.
Увидели сильную корреляцию? Задайте вопросы:
Что может быть общей причиной?
Не влияет ли время на обе переменные?
Нет ли выбросов, которые всё портят?
Может ли связь быть обратной? Помните, в мире есть корреляция между:
🔴Количеством фильмов Николса Кейджа и утоплениями в бассейнах
🔴Потреблением сыра и смертями от запутывания в простынях
🔴Размером ноги и знаниями математики у детей 🗓Какие у вас планы на эту неделю/спринт/жизнь? #аналитика #статистика #спринт