CTO: Порядок из хаоса@cto_order_from

CTO: Порядок из хаоса

Ребят, а вы знаете свою среднюю задержку по сервису?
Если да — вы уже делаете то, чего большинство не делает.

Если вы знаете задержку для каждого эндпоинта, участвующего в CUJ — это ещё круче.
Правда, тут легко наступить на грабли. Начнёте мониторить каждый эндпоинт отдельно — можете случайно положить свой мониторинг от кардинальности. Или получить красивый счёт от облачного провайдера. Даже не знаю что лучше.

Но главная проблема не в этом. Без p95/p99 у вас получается как в старом анекдоте — директор ест мясо, рабочие едят капусту, в среднем по компании все едят голубцы.

Окей, следим за p95/p99. Теперь-то точно всё под контролем?
Почти. Но есть нюанс.

Важно помнить, что перцентили не складываются и не усредняются — потому что это квантиль распределения, а не среднее значение. Считайте p95 через агрегированные гистограммы (суммируйте бакеты, потом считайте квантиль).
Если вы усредняете поминутные p95 за день — вы измеряете не задержку, вы измеряете надежду.

Это уже 3 из 5 уровней зрелости в работе с задержкой:
1) Нет измерений, "работает же".
2) Среднее время отклика.
3) Перцентили, но без latency budget.
4) E2E-бюджет, мониторинг хвоста, SLO.
5) Управление бюджетом и отмена запросов, прогнозирование.

Большинство компаний застряли на 2 уровне, искренне считая, что у них всё под контролем, и не могут перешагнуть на следующую ступеньку. Не потому что им не хватает мотивации или нет инструментов, а потому что 3-я ступенька — это про другое мышление. Переход от реактивного тушения пожаров к проактивному проектированию надёжности.

И как по мне — лучше до этой мысли дойти самостоятельно, чем после смачного пенделя от бизнеса.

🤔3👍2

www.tgoop.com/cto_order_from_chaos/32

227 viewsOct 20 at 12:21

tgoop.com/cto_order_from_chaos/32

Create: 2025-10-20
Last Update: 2025-10-23 16:19:22

BY CTO: Порядок из хаоса

Share with your friend now:
tgoop.com/cto_order_from_chaos/32

Telegram News

Ребят