1.5Kпросмотров
77.5%от подписчиков
26 января 2026 г.
Score: 1.6K
Коллеги, всем привет! 👋🏻
Предлагаю разобрать практическую SRE-задачу из реальной эксплуатации. 🔹Условия: в Kubernetes-кластере сервис order периодически не может подключиться к db. Ошибка в логах order: dial tcp 10.0.12.45:5432: connect: connection refused ✅Что нам дано: • db работает стабильно
• CPU и RAM на ноде БД в норме
• max_connections в БД не исчерпан
• Query latency в моменты ошибки не растёт
• Ошибка возникает только при резких всплесках трафика
• После пика всё само приходит в норму ✅На стороне БД:
• netstat -an | grep 5432 | grep TIME_WAIT
• показывает тысячи соединений в TIME_WAIT 🔹Вопрос: 1. Где здесь находится узкое место?
2. Почему это не проблема самой БД, несмотря на симптомы?
3. Какие параметры ОС вы бы проверили в первую очередь?
4. Почему клиент получает именно connection refused, а не timeout? ➡️Пишите свои варианты в комментариях. Разберём, что происходит под капотом и почему такие инциденты часто диагностируют слишком поздно.