Коллеги, всем привет! 👋🏻 Предлагаю разобрать практическую — @sre_community

1.5Kпросмотров

77.5%от подписчиков

26 января 2026 г.

Score: 1.6K

Коллеги, всем привет! 👋🏻 Предлагаю разобрать практическую SRE-задачу из реальной эксплуатации. 🔹Условия: в Kubernetes-кластере сервис order периодически не может подключиться к db. Ошибка в логах order: dial tcp 10.0.12.45:5432: connect: connection refused ✅Что нам дано: • db работает стабильно • CPU и RAM на ноде БД в норме • max_connections в БД не исчерпан • Query latency в моменты ошибки не растёт • Ошибка возникает только при резких всплесках трафика • После пика всё само приходит в норму ✅На стороне БД: • netstat -an | grep 5432 | grep TIME_WAIT • показывает тысячи соединений в TIME_WAIT 🔹Вопрос: 1. Где здесь находится узкое место? 2. Почему это не проблема самой БД, несмотря на симптомы? 3. Какие параметры ОС вы бы проверили в первую очередь? 4. Почему клиент получает именно connection refused, а не timeout? ➡️Пишите свои варианты в комментариях. Разберём, что происходит под капотом и почему такие инциденты часто диагностируют слишком поздно.

Другие посты @sre_community