Е
ЕгорЕгор🟢
@cryptolegal22263 подп.
391просмотров
1 июня 2025 г.
questionScore: 430
🟢 Post mortem (лат. «после смерти»): что делать, если упал твой продукт? Post mortem - это разбор инцидента или сбоя, который уже произошёл. Цель - понять причины, оценить последствия и извлечь уроки, чтобы такого больше не повторилось. Собрал шаблон post mortem, для гипотетического инцидента - сбоя сервиса доставки еды😄 ___ 📝 Post Mortem Инцидента №042 — «Голодный Апокалипсис» 📅 Дата и время: 30 мая 2025, 18:03 – 20:17 (пиковое время ужинов) 📍 Обнаружено: Жалоба клиента в Твиттере: «Я заказал суши, а мне пришли 4 ложки борща» 🧯 Описание инцидента: В течение 2+ часов все заказы сервиса подменялись блюдами из случайных заведений. Веганы получали шашлык, аллергики — орехи, тагильчане — раф на минадальном. 📉 Влияние: ~3 200 заказов с неправильными блюдами 3100 возвратов - 1 млн на промокоды-изменения 1 расставание 1 пользователь теперь пишет об этом стендап 🔍 Root Cause: Разработчик перепутал restaurant_id с random.choice(available_restaurants), тестируя приоритизацию новых партнёров. Hotfix попал в прод без ревью. ⏱️ Timeline: 17:58 — развернут hotfix 18:03 — первые жалобы 18:30 — пик доставки, начинается Twitter-шторм 19:02 — отключен автоалгоритм выбора ресторана 19:45 — ручное переключение на стабильный билд 20:17 — восстановлена корректная маршрутизация заказов ✅ Что сработало: Оповещение поддержки + юмор в соцсетях помогли сгладить негатив. Команда SRE быстро локализовала баг. ❌ Что не сработало: — Нет ревью для hotfix — Мониторинг не отследил аномалии в заказах (никто не ждал метрики «веган → шашлык») 📚 Уроки: — Даже hotfix должен проходить ревью — Добавить автоматическую проверку «предпочтение клиента vs блюдо» — Поддерживать новичков, но с ограничением доступа к продакшену 🛠 План действий: - Обязательное ревью hotfix’ов - Проверка соответствия заказа и ресторана - Обновить тестовые кейсы - Alert при >10% несоответствий - Промокод всем пострадавшим на «честный обед» 👥 Ответственные: Team Lead — Антон М. DevOps — Юлия М. Product Manager — Егор В. Новый разработчик — всё понял и исправился)
391
просмотров
2044
символов
Да
эмодзи
Нет
медиа

Другие посты @cryptolegal22

Все посты канала →
🟢 Post mortem (лат. «после смерти»): что делать, если упал — @cryptolegal22 | PostSniper