How AWS deals with a major outage 💻 Какое-то время назад от — @dsinsights

750просмотров

62.0%от подписчиков

14 января 2026 г.

Score: 825

How AWS deals with a major outage 💻 Какое-то время назад отгремел major outage AWS us-east-1, который положил половину интернета. Прочел статью от Gergely Orosz на эту тему, где он опрашивал непосредственного участника того war room'а. Благодаря этому сбою удалось узнать интересное о работе on-call команд AWS. Коротко о проблеме: Инцидент произошел из-за race condition в системе управления DNS для DynamoDB. Были записаны автоматически пустые или некорректные DNS-записи, которые пришлось удалять вручную. Сам DNS представляет из себя своего рода адресную книгу, без которой нельзя найти адрес DynamoDB и выполнять операции с данными. В свою очередь на DynamoDB завязаны все критические сервисы AWS (IAM, SQS, S3, EC2, LB), и когда он упал, это вызвало полномасштабный outage. Что взял на заметку полезного из статьи? Incident response checklist - Проверка на сетевой отказ - Load Balancer и software-defined network - DNS аутентификация - Базовые сервисы AWS: KMS, SQS, DynamoDB, S3, IAM, Secret Manager Практика You build it, You run it Команды, создающие продукты, должны быть готовы сами их поддерживать Paradox of automation В бигтехе распределенные системы хорошо автоматизированны, но и они могут давать сбой и их сложно обойти вручную -> Data Engineering скилл их отладки все еще более чем актуален

Другие посты @dsinsights