Одна из самых недооценённых вещей в DevOps - подготовленные — @devopslib

863просмотров

66.1%от подписчиков

17 декабря 2025 г.

📷 ФотоScore: 949

Одна из самых недооценённых вещей в DevOps - подготовленные сценарии отказов. Большинство инцидентов выглядят одинаково: 💚 02:37 ночи 💚 CPU 100%, latency растёт 💚 кто-то пишет «у нас всё легло?» 💚 начинается хаотичный SSH-тур по серверам Проблема не в том, что система упала. Проблема - никто не знает, что делать дальше. Что реально спасает Runbook, но не «для галочки». Хороший runbook - это: ✅ конкретный триггер (какой алерт) ✅ чёткая цель (что восстановить) ✅ пошаговые действия (без “разберись по ситуации”) ✅ команды, ссылки, контакты ✅ критерий «инцидент закрыт» Плохой runbook: 💕 «Проверь логи» 💕 «Перезапусти сервис» 💕 «Если не помогло - эскалируй» Практика Если runbook: 💕 не обновлялся после последнего инцидента - его не существует 💕 не может выполнить дежурный без автора - он бесполезен 💕 не проверялся в рабочее время - ночью он не сработает Минимальный лайфхак После каждого падения: 1. открой runbook 2. зафиксируй, где было непонятно 3. допиши одну строку Через 5 инцидентов у тебя будет документ, который реально работает. Подпишись 👉@devopslib

Другие посты @devopslib