750просмотров
62.0%от подписчиков
14 января 2026 г.
Score: 825
How AWS deals with a major outage 💻 Какое-то время назад отгремел major outage AWS us-east-1, который положил половину интернета. Прочел статью от Gergely Orosz на эту тему, где он опрашивал непосредственного участника того war room'а. Благодаря этому сбою удалось узнать интересное о работе on-call команд AWS. Коротко о проблеме:
Инцидент произошел из-за race condition в системе управления DNS для DynamoDB. Были записаны автоматически пустые или некорректные DNS-записи, которые пришлось удалять вручную. Сам DNS представляет из себя своего рода адресную книгу, без которой нельзя найти адрес DynamoDB и выполнять операции с данными. В свою очередь на DynamoDB завязаны все критические сервисы AWS (IAM, SQS, S3, EC2, LB), и когда он упал, это вызвало полномасштабный outage. Что взял на заметку полезного из статьи? Incident response checklist
- Проверка на сетевой отказ
- Load Balancer и software-defined network
- DNS аутентификация
- Базовые сервисы AWS: KMS, SQS, DynamoDB, S3, IAM, Secret Manager Практика You build it, You run it
Команды, создающие продукты, должны быть готовы сами их поддерживать Paradox of automation
В бигтехе распределенные системы хорошо автоматизированны, но и они могут давать сбой и их сложно обойти вручную -> Data Engineering скилл их отладки все еще более чем актуален