Мониторинга много, управляемости нет: «зонтик» — не ещё один мониторинг, а слой управления ИТ-ландшафтом Статья от Monq о том, как строить зонтичный мониторинг, прикрутить туда CMDB, сервисно-ресурсные модели, что для этого нужно и как оценить эффект от внедрения. Полезно, если вы большая компания. Если же у вас еще на такая большая компания (например, как приведенные в статье), то можете посмотреть на открытые системы, например, вот на этом вебинаре, я рассказал как сделать сервисный мониторинг...
Мониторим ИТ
Канал о наблюдаемости (Observability): логи, трейсы, метрики. Канал в MAX: https://max.ru/id182905929815_biz Реклама: @gals_ad_bot Вопросы: @antoniusfirst @usr_bin_linux — Linux @zabbix_ru — Zabbix @elasticstack_ru — ElasticSearch/OpenSearch
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
20 из 20Mastering the OpenTelemetry Transform Processor OpenTelemetry Collector включает в себя широкий спектр процессоров для решения распространенных задач. Вы можете использовать процессор атрибутов для обработки пар ключ-значение, процессор ресурсов для изменения метаданных на уровне ресурсов, а также ряд других для фильтрации, пакетной обработки или маршрутизации телеметрии. Вам может потребоваться реструктурировать тело лога, вычислить новый атрибут на основе двух существующих полей, преобразовать...
Distributed tracing: от 100% error rate до первопричины за 60 секунд В статье пошаговый разбор расследования ошибок в микросервисах: граф сервисов, хронология трейсов, корреляция логов и структурированная отладка на примере Uptrace. Репыч Uptrace на Гитхабе @monitorim_it
Stop Hunting Logs: How OpenTelemetry Brings Metrics, Logs, and Traces Together В прошлом году во время инцидента я отлаживал ошибку платежа, используя все стандартные инструменты. Grafana показывала скачки загрузки CPU. CloudWatch отображал логи, разбросанные по трем сервисам. Jaeger показал 50 похожих трейсов. Спустя двадцать минут я все еще не мог ответить на основной вопрос: «Какая из трассировок соответствует фактическому запросу, вызвавшему ошибку?» Оповещение сообщало о сбое платежей. В ло...
Гайд по быстрому мониторингу Linux-хостов в Grafana без Zabbix (спойлер: но с Prometheus) Когда мы только приступали к задаче, первой мыслью, конечно, был Zabbix, как и у половины планеты. Но у нас никто не горел желанием поднимать еще одну систему, раскатывать агенты, подбирать шаблоны и разбираться с нюансами. Времени, как обычно, не завезли. А вот Grafana у нас уже была, поэтому я подумал — а что, если просто использовать то, что уже есть? Так я и наткнулся на связку «node_exporter → Promethe...
Опыт прохождения собеседования на должность SRE в компании Cisco Получение приглашения на собеседование в Cisco стало захватывающей возможностью, а сам процесс оказался одновременно сложным и поучительным. В этой статье подробный рассказ об опыте собеседования и заданных вопросах. @monitorim_it
How OpenTelemetry Tracing Works (with Examples) В этой статье рассмотрены основная модель данных трейсинга и структура трассировок, как API трейсинга и SDK взаимодействуют друг с другом, как автоматические и ручные методы измерения дополняют друг друга, место OpenTelemetry Collector в формировании процесса мониторинга. @monitorim_it
AI Agents Observability with OpenTelemetry and the VictoriaMetrics Stack В этой статье из блога VM в формате воркшопа рассказывают как настроить инструментирование ИИ-агентов при помощи стека VictoriaMetrics + VictoriaLogs + VictoriaTraces. @monitorim_it
Мониторинг того, что нельзя «пощупать»: как следить за cron-задачами, бэкапами и серверами за NAT с помощью Heartbeat В статье рассказывают про PingZen — условно бесплатный инструмент для бесплатных проверок. Кстати, есть и аналог в лице Healthchecks. Также условно-бесплатный. @monitorim_it
О чём логи Kubernetes не расскажут вам во время инцидента Ритуал обработки алерта: 🔴 Срабатывает алерт. 🔴 Вы открываете логи. 🔴 Они выглядят нормально. 🔴 А продакшен всё ещё «горит». Логи Kubernetes отлично показывают, что, по мнению приложения, произошло. Но они не помогают понять, почему система ведет себя именно так. Именно в этот промежуток времени тратится большая часть времени впустую во время инцидентов. В статье рассказывают как подняться на уровень выше логов и посмотреть на то, что...