2просмотров
0.1%от подписчиков
19 февраля 2026 г.
📷 ФотоScore: 2
Про отказоустойчивость крупных инфраструктур: год назад в Yandex Cloud отказ одного сетевого контроллера запустил цепочку сбоев и привёл к нарушению связности. ВЫВОД: важно не только предотвращать проблемы, а быстро их обнаруживать и управлять кризисом. Отсюда за год команда пересобрала подход к устойчивости сети. Инженерный разбор дал Константин Крамлих тут: внедрили Fail Safe, ограничения очередей, управление зонами на балансировщиках и улучшенные процессы релизов и Incident Management для сокращения времени восстановления. Работают ребята.