391просмотров
1 июня 2025 г.
questionScore: 430
🟢 Post mortem (лат. «после смерти»): что делать, если упал твой продукт? Post mortem - это разбор инцидента или сбоя, который уже произошёл. Цель - понять причины, оценить последствия и извлечь уроки, чтобы такого больше не повторилось. Собрал шаблон post mortem, для гипотетического инцидента - сбоя сервиса доставки еды😄
___ 📝 Post Mortem Инцидента №042 — «Голодный Апокалипсис» 📅 Дата и время:
30 мая 2025, 18:03 – 20:17 (пиковое время ужинов) 📍 Обнаружено:
Жалоба клиента в Твиттере: «Я заказал суши, а мне пришли 4 ложки борща» 🧯 Описание инцидента:
В течение 2+ часов все заказы сервиса подменялись блюдами из случайных заведений.
Веганы получали шашлык, аллергики — орехи, тагильчане — раф на минадальном. 📉 Влияние:
~3 200 заказов с неправильными блюдами
3100 возвратов
- 1 млн на промокоды-изменения
1 расставание
1 пользователь теперь пишет об этом стендап 🔍 Root Cause:
Разработчик перепутал restaurant_id с random.choice(available_restaurants), тестируя приоритизацию новых партнёров.
Hotfix попал в прод без ревью. ⏱️ Timeline:
17:58 — развернут hotfix
18:03 — первые жалобы
18:30 — пик доставки, начинается Twitter-шторм
19:02 — отключен автоалгоритм выбора ресторана
19:45 — ручное переключение на стабильный билд
20:17 — восстановлена корректная маршрутизация заказов ✅ Что сработало:
Оповещение поддержки + юмор в соцсетях помогли сгладить негатив.
Команда SRE быстро локализовала баг. ❌ Что не сработало:
— Нет ревью для hotfix
— Мониторинг не отследил аномалии в заказах (никто не ждал метрики «веган → шашлык») 📚 Уроки:
— Даже hotfix должен проходить ревью
— Добавить автоматическую проверку «предпочтение клиента vs блюдо»
— Поддерживать новичков, но с ограничением доступа к продакшену 🛠 План действий:
- Обязательное ревью hotfix’ов
- Проверка соответствия заказа и ресторана
- Обновить тестовые кейсы
- Alert при >10% несоответствий
- Промокод всем пострадавшим на «честный обед» 👥 Ответственные:
Team Lead — Антон М.
DevOps — Юлия М.
Product Manager — Егор В.
Новый разработчик — всё понял и исправился)