456просмотров
20 октября 2025 г.
questionScore: 502
Ребят, а вы знаете свою среднюю задержку по сервису?
Если да — вы уже делаете то, чего большинство не делает. Если вы знаете задержку для каждого эндпоинта, участвующего в CUJ — это ещё круче.
Правда, тут легко наступить на грабли. Начнёте мониторить каждый эндпоинт отдельно — можете случайно положить свой мониторинг от кардинальности. Или получить красивый счёт от облачного провайдера. Даже не знаю что лучше. Но главная проблема не в этом. Без p95/p99 у вас получается как в старом анекдоте — директор ест мясо, рабочие едят капусту, в среднем по компании все едят голубцы. Окей, следим за p95/p99. Теперь-то точно всё под контролем?
Почти. Но есть нюанс. Важно помнить, что перцентили не складываются и не усредняются — потому что это квантиль распределения, а не среднее значение. Считайте p95 через агрегированные гистограммы (суммируйте бакеты, потом считайте квантиль). Если вы усредняете поминутные p95 за день — вы измеряете не задержку, вы измеряете надежду. Это уже 3 из 5 уровней зрелости в работе с задержкой:
1) Нет измерений, "работает же". 2) Среднее время отклика. 3) Перцентили, но без latency budget. 4) E2E-бюджет, мониторинг хвоста, SLO. 5) Управление бюджетом и отмена запросов, прогнозирование. Большинство компаний застряли на 2 уровне, искренне считая, что у них всё под контролем, и не могут перешагнуть на следующую ступеньку. Не потому что им не хватает мотивации или нет инструментов, а потому что 3-я ступенька — это про другое мышление. Переход от реактивного тушения пожаров к проактивному проектированию надёжности. И как по мне — лучше до этой мысли дойти самостоятельно, чем после смачного пенделя от бизнеса.