К
Кубертатный период
@kubertat488 подп.
835просмотров
15 сентября 2025 г.
Score: 919
🤦‍♂️ Не думал, что придется разжевывать простые вещи, но придется: почему Grafana не подходит для алертинга и инцидентов. 👀 Grafana — это “витрина” метрик. Она отлично рисует графики, даёт ад-hoc анализ, аннотации, переменные, сравнения и т. п. Это про наблюдение. 🚨 Алертинг — это отдельный контур. Его делают движки правил (Prometheus rules / vmalert) + маршрутизатор уведомлений (Alertmanager) + «пейджер» с гарантиями доставки (Opsgenie/PagerDuty и т. п.). Это про управление инцидентами. 💡 Почему это стоит разделять: • Надёжность: движки правил и Alertmanager спроектированы под HA, ретраи, дедупликацию, ингибишн, тайминги, “maintenance windows”. Grafana — не про гарантии доставки. • Чёткие зоны ответственности: дашборды ≠ жизненный цикл алертов (эскалации, расписания, SLO/SLA). • Управление: сотни/тысячи правил удобнее хранить/версионировать как код (rules/CRD), а не в UI дашборда. • Роутинг и подавление шума: Alertmanager умеет группировать, подавлять каскадные алерты, ставить “silences” — этого часто не хватает в “встроенном” алертинге. ⚠️ Да, есть “Unified Alerting”, это удобно для быстрой проверки правил на графиках. Но: ❌ нет (или ограничены) полноценные дедуп/ингибиции/сложный роутинг/федерация; ❌ сложнее обеспечить HA и гарантии доставки; ❌ правила хуже живут как код (код-ревью, тесты, промоушен между средами). 👉 Поэтому в проде используем его как игрушку в дополнение, а не как основной инструмент. 📌 ИТОГО: • Grafana = визуализация и обзор. • Prometheus/vmalert = тул, который решает «когда зажигать алерт». • Alertmanager = диспетчер, который решает «кому и как посылать алерт». • Opsgenie/PagerDuty/OnCall = гарантия доставки, расписания и эскалации.
835
просмотров
1698
символов
Да
эмодзи
Нет
медиа

Другие посты @kubertat

Все посты канала →
🤦‍♂️ Не думал, что придется разжевывать простые вещи, но пр — @kubertat | PostSniper