23просмотров
10 мая 2024 г.
statsScore: 25
28 февраля 2017 года на серверах Amazon S3 в северной Вирджинии произошел масштабный сбой из-за ошибки в коде, связанной с обработкой дат. Эта критическая ошибка вызвала каскадный сбой в других сервисах и приложениях, которые полагались на S3 для хранения данных и статических файлов. Проблема коренилась в том, что код S3 некорректно обрабатывал крайние случаи при расчетах дат с учетом високосных годов и разницы во времени между серверами в разных часовых поясах. При определенном стечении обстоятельств это приводило к сбою в распределении нагрузки на серверы. Казалось бы, незначительная ошибка обработки даты на уровне микросервиса вызвала глобальные перебои для огромного количества клиентов Amazon по всему миру. Сбой затронул сайты и сервисы таких гигантов, как Netflix, Pintrest, Trello, Quora и многих других компаний. Инженерам Amazon пришлось в срочном порядке перезапускать серверы и вручную восстанавливать работоспособность распределенных систем. Полное восстановление сервисов заняло около 4 часов. Этот инцидент наглядно продемонстрировал хрупкость современных облачных систем и то, как даже незначительные дефекты в коде могут привести к крупномасштабным сбоям из-за эффекта домино. Amazon признала ошибку и заявила о принятых мерах по исправлению кода и процессов для предотвращения подобных сбоев в будущем. Данный случай стал уроком для всей IT-индустрии о важности скрупулезного тестирования кода, особенно связанного с обработкой времени и дат, учета крайних случаев и пограничных ситуаций в распределенных системах.