П
Путь SRE
@sre_community1.9K подп.
1.5Kпросмотров
77.5%от подписчиков
26 января 2026 г.
Score: 1.6K
Коллеги, всем привет! 👋🏻 Предлагаю разобрать практическую SRE-задачу из реальной эксплуатации. 🔹Условия: в Kubernetes-кластере сервис order периодически не может подключиться к db. Ошибка в логах order: dial tcp 10.0.12.45:5432: connect: connection refused ✅Что нам дано: • db работает стабильно • CPU и RAM на ноде БД в норме • max_connections в БД не исчерпан • Query latency в моменты ошибки не растёт • Ошибка возникает только при резких всплесках трафика • После пика всё само приходит в норму ✅На стороне БД: • netstat -an | grep 5432 | grep TIME_WAIT • показывает тысячи соединений в TIME_WAIT 🔹Вопрос: 1. Где здесь находится узкое место? 2. Почему это не проблема самой БД, несмотря на симптомы? 3. Какие параметры ОС вы бы проверили в первую очередь? 4. Почему клиент получает именно connection refused, а не timeout? ➡️Пишите свои варианты в комментариях. Разберём, что происходит под капотом и почему такие инциденты часто диагностируют слишком поздно.
1.5K
просмотров
972
символов
Нет
эмодзи
Нет
медиа

Другие посты @sre_community

Все посты канала →
Коллеги, всем привет! 👋🏻 Предлагаю разобрать практическую — @sre_community | PostSniper