🌸Таня и Данные📊
@tanyaVSdannye1.5K подп.
4.3Kпросмотров
9 февраля 2026 г.
Score: 4.7K
С понедельником! Начинается новый спринт, очень хочется, чтобы он пошел по плану, а не как на прошлой неделе 🦋 В одном из постов я уже говорила о том, что в моих планах было подводить итоги проекта, запущенного еще в прошлом квартале, ну точнее в декабре, а там мне очень пригодится такое понятие, как корреляция, поэтому напомню себе и вам о том, что это вообще такое. 📉Корреляция - это статистическая взаимосвязь между двумя или более случайными величинами, при которой изменение одной величины сопровождается закономерным изменением другой. А так же это самая популярная и самая опасная метрика в аналитике. Корреляция показывает, насколько две переменные "двигаются" вместе. Коэффициент корреляции может быть от -1 до 1: 1 — идеально синхронные движения; 0 — каждый двигается сам по себе; -1 — идеально синхронные движения, но в разные стороны (одна растёт, другая падает). Пример: -- Считаем в ClickHouse: SELECT corr(time_on_site, revenue) as r FROM user_sessions; -- 0,8! Ого! Сильная связь! 🚨3 главных обмана корреляции Обман №1: "Двигаются вместе" ≠ "Одна влияет на другую" Классика: продажи мороженого и утопления сильно коррелируют. Причина? Лето. Не мороженое топит людей. Обман №2: Сильная корреляция ≠ Важная связь Корреляция имени длины 7 букв и зарплаты может быть 0,2 (и даже значимой!). Но это бесполезно для бизнеса. Обман №3: Нет корреляции ≠ Нет связи Температура и потребление энергии: Летом: жарко → кондиционеры → много энергии Зимой: холодно → обогреватели → много энергии Корреляция? Близка к нулю! Связь? Огромная! 🪧Как не попасться в ловушку ❣️Правило 1: Всегда спрашивайте: "А что общее у этих переменных?" Рост продаж зонтов и рост продаж такси = дождь, а не магия. ❣️Правило 2: Сначала график, потом цифры # Один выброс убивает всю корреляцию plt.scatter(x, y) plt.show() # Увидите выбросы, кривые зависимости ❣️Правило 3: Проверяйте разные типы корреляций Пирсон — для нормальных данных и линейных связей Спирмен — для любых монотонных связей (ранговая) Кендалл — когда много одинаковых значений 📊 Реальные примеры обмана Пример 1: В ресторане заметили: чем больше салатов заказывают, тем выше средний чек. Решение: Начали предлагать салат всем. Результат: Средний чек упал. Правда: Дорогие клиенты сами выбирали салат, а не салат делал их дорогими. Пример 2: Чем дольше страница грузится, тем выше конверсия. Парадокс? Нет: это платёжные страницы — они всегда грузятся дольше и конверсия там выше. Пример 3: Планета охлаждается, когда пиратов становится больше Корреляция(количество_пиратов, температура_планеты) = -0,95 «Пираты охлаждают планету! Надо возродить пиратство для борьбы с потеплением!» Реальность: Обе переменные просто меняются со временем. Пиратов стало меньше, температура выросла. Время — скрытая третья переменная. Когда корреляция полезна? ➖Для гипотез: "Есть корреляция 0,6 - давайте исследовать глубже"; ➖Для фильтрации: Ищем связанные метрики для моделей; ➖Для мониторинга: Внезапное падение корреляции = что-то сломалось. 💎 Главный вывод Корреляция — это всего лишь начало расследования, а не результат. Увидели сильную корреляцию? Задайте вопросы: Что может быть общей причиной? Не влияет ли время на обе переменные? Нет ли выбросов, которые всё портят? Может ли связь быть обратной? Помните, в мире есть корреляция между: 🔴Количеством фильмов Николса Кейджа и утоплениями в бассейнах 🔴Потреблением сыра и смертями от запутывания в простынях 🔴Размером ноги и знаниями математики у детей 🗓Какие у вас планы на эту неделю/спринт/жизнь? #аналитика #статистика #спринт
4.3K
просмотров
3569
символов
Да
эмодзи
Нет
медиа

Другие посты @tanyaVSdannye

Все посты канала →
С понедельником! Начинается новый спринт, очень хочется, что — @tanyaVSdannye | PostSniper