Тренировка по #инцидент_менеджемент Помню как погружался в работу с инцидентами. Я начал работать в небольшой компании, у нас был 1 дежурный. Я стал вторым. И оба мы были разработчиками. Сначала он меня учил на пальцах о системе и взаимодействии компонентов, показывал как чинить часто возникающие проблемы, а я смотрел. Я записывал в доку, потом пытался повторить тоже самое сам под его присмотром. Дальше выдал мне доступ на прод. И вот первое дежурство с потными ручонками... Страшно. Но оно кончи...
🚀🐳 Летит Кит: SRE и не только
Дмитрий Синявский, SR-иженер и спикер – https://t.me/r3code Заметки о замеченном и замечательном. SRE, SLI/SLO, логи, наблюдаемость. Кейсы и DIY-решения ₽: Консультации, аудит SRE практик, организация SRE без SRE, разработка ПО на заказ
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
17 из 17👁 Увидимся на DevOpsConf 2026 на моем докладе! Вы уже знаете, что я с 2026 года в ПК DevOpsConf, но еще осенью я подал несколько заявок на доклад. В этот раз оказался интересна тема SLO. Доклад "Как SLO водят нас за нос" будет не о том, что это, как это реализовать, а про то, как и где можно проколоться в подсчетах, как система может сама обманывать вас, и как неправильное позиционирование и применение SLO приводит лишь к гонке за зелеными бордами, вместо реальной надежности. Конечно, просто пе...
Не тот open API. Когда вы не управляете клиентами. Очередной раз вижу в чате клич "Ребята, отзовитесь, кто пользуется API нашего сервиса X?". Кажется, что за ерунда? Это же все наши внутренние сервисы -- посмотри по логам, по трейсам откуда запросы идут... Но там может этого не быть. Например, ваши же сервисы не отправляют User-Agent со своим именем и версией в вызове, или нет трейсов. Всё - у вас просто куча логов об обращении на какой то endpoint вашего API. Но проблема глубже - в этой ситуаци...
Про антипаттерны алертов. Макс написал все за меня. Нет, не тот который ловит даже на парковке 😁. Потому просто заберите себе это в практику — это реально полезно. Я все эти антиппттерны видел в жизни, и не хочется чтобы вам пришлось будить разработчика ночью лично, только потому что он отключил телефон, а ты живешь по случайности в том же отеле и на том же этаже. Брать тут https://t.me/youngmaxnotes/103 💫 Как у вас подгорело от "прекрасных" алертов? Расскажите в комментах #алертинг #антипатте...
Товарищи, SLO использующие, я тут перевозил в новый sloth.dev 0.15 фичу по проверке наличия дубликатов по slo_id. И в коде заметил новинку - в мастере лежит код UI для SLI/SLO. В нем выводится список сервисов, сами SLO, и показания SLI на графиках, остатки бюджета. При запуске надо указать путь до ручки Prometheus. Поиграться с фейковыми данными можно через ./sloth server --fake-prometheus Эдакая мини-Grafana. Или кто может видел - такое было в Pyrra.dev Есть индикация активны ли ticket/page але...
Проверка инфраструктуры кодом - иногда и двух пар глаз 👀👀 недостаточно Бывало у вас так: два инженера посмотрели в пулл-реквест, кивнули, мерджнули, а потом - бац! Инцидент из-за кривой настройки безопасности или ресурса, улетевшего в продакшн без лимитов? У нас бывало. И это не вопрос компетенции. Это вопрос того, что человек просто не может держать в голове все 750+ правил безопасной конфигурации. Тут на помощь приходят инструменты статического анализа для Infrastructure as Code (IaC). Напри...
Друзья и коллеги. Я внезапно обнаружил, что нас уже 150! Для меня это неожиданно приятно. Рад, что мои материалы и мысли тебе интересны, а возможно помогли в жизни и работе. У меня нет конкретного контент-плана на месяцы и годы. Единственное о чем я договорился с собой - писать минимум 2 раза в рабочую неделю. А выходные оставлены под нерабочие заметки, которые ти иногда видишь - рад, что и они тебе интересны бывают. И что интересно, чаще всего у меня находится о чем написать. А иногда и коллеги...
🛠 Опубликовали свою реализацию для сбора логов с vector.dev - Unified Log Pipeline Год назад я рассказывал доклад на DevOpsConf 2025 "Укрощение хаоса логов с помощью модели OpenTelemetry, Vector и ClickHouse. Итоги за два года" (видео). Был план выложить в Open-source реализацию: трансформы vector.dev, Ansible-плейбук, схему БД. Но это заняло значительно больше времени, т.к. проходило проверки внутренние по ИБ и очистку кода от "лишнего". И вот теперь мы опубликовали его. Реализация стандарта л...
🔖 Прошла первая Observability Conf в Москве Я выступил с докладом "Стандартизация логов без боли: Vector + OpenTelemetry + ClickHouse". Это была компиляция опыта за 3 года, как мы дошли до унификации логов, что сделали и что получили. Вопросов опять было много. Этот доклад отличается тем, что мы vitech.team выложили (Всеинструменты.ру) в open-source, то что получилось при реализации - зовем мы это Unified Log Pipeline. 🥎 Презентация и материалы к докладу тут https://github.com/vseinstrumentiru...
Небольшой видос с Observability Conf. Про доклады конечно не расскажет, но атмосферу классно передаёт. #видео #конференции