158просмотров
37.7%от подписчиков
13 марта 2026 г.
📷 ФотоScore: 174
Пятница вечер. У вас падает прод или массово крашится приложение у пользователей. В Slack/Телеге мгновенно набегает тридцать человек. Менеджеры истерят, сейлзы жалуются, а разработчики хаотично листают логи. Знакомая картина? Судя по количеству крашей крупных сервисов за последнее время, все так или иначе сталкивались с инцидентами. Наткнулся на отличную статью про управление инцидентами. Автор очень четко сформулировал то, к чему я медленно приходил сам за годы руководства разработкой. Демократия во время аварии убивает продукт. В момент падения вам нужен не тимбилдинг, а диктатура. Я вытащил из текста самые рабочие практики и адаптировал их под наши реалии. Вот как нужно выстраивать процесс в трёх шагах, чтобы быстро поднимать лежащие сервисы. - Первый шаг начинается задолго до аварии. Вы обязаны понимать весь путь вашего кода до пользователя. Нельзя просто закрывать таски в Jira и надеяться на магию девопсов. Если разработчик не понимает процесс деплоя или не умеет пользоваться консолью, во время аварии он становится бесполезен. Вы должны уметь читать стектрейсы в Sentry или Crashlytics и сходу отличать свой сломанный код от отвалившейся сторонней библиотеки. - Второй шаг касается организации общения. Для тушения пожара нужна отдельная виртуальная комната с жесткими правилами. Пресекайте любые эмоции и пустые жалобы. Сообщения в духе «у нас клиент не может залогиниться» только добавляют стресса и никак не помогают найти баг. Приучите команду делиться скриншотами метрик вместо ссылок на дашборды. В момент паники ни у кого нет времени открывать новые вкладки и вспоминать пароли от систем мониторинга. Скриншот сразу дает нужный контекст. - Третий шаг полностью ложится на плечи инцидент-лида. У этого человека должны быть абсолютные полномочия. Он распределяет задачи параллельно. Одному инженеру поручает копать базу данных. Другому приказывает выключить сломанную фичу через конфиги. При этом лид имеет полное право выгнать с созвона паникующих менеджеров. Иногда приходится быть резким ради спасения бизнеса. Скидывайте этот пост в рабочие чаты. Пусть ваши коллеги заранее знают правила игры и не создают лишнего хаоса при следующем падении прода. А как у вас в командах принято тушить пожары? Есть выделенный командир или каждый раз собирается стихийный митинг? ⌨️ Авоська Лида