tgoop.com/cto_order_from_chaos/32
Last Update:
Ребят, а вы знаете свою среднюю задержку по сервису?
Если да — вы уже делаете то, чего большинство не делает.
Если вы знаете задержку для каждого эндпоинта, участвующего в CUJ — это ещё круче.
Правда, тут легко наступить на грабли. Начнёте мониторить каждый эндпоинт отдельно — можете случайно положить свой мониторинг от кардинальности. Или получить красивый счёт от облачного провайдера. Даже не знаю что лучше.
Но главная проблема не в этом. Без p95/p99 у вас получается как в старом анекдоте — директор ест мясо, рабочие едят капусту, в среднем по компании все едят голубцы.
Окей, следим за p95/p99. Теперь-то точно всё под контролем?
Почти. Но есть нюанс.
Важно помнить, что перцентили не складываются и не усредняются — потому что это квантиль распределения, а не среднее значение. Считайте p95 через агрегированные гистограммы (суммируйте бакеты, потом считайте квантиль).
Если вы усредняете поминутные p95 за день — вы измеряете не задержку, вы измеряете надежду.
Это уже 3 из 5 уровней зрелости в работе с задержкой:
1) Нет измерений, "работает же".
2) Среднее время отклика.
3) Перцентили, но без latency budget.
4) E2E-бюджет, мониторинг хвоста, SLO.
5) Управление бюджетом и отмена запросов, прогнозирование.
Большинство компаний застряли на 2 уровне, искренне считая, что у них всё под контролем, и не могут перешагнуть на следующую ступеньку. Не потому что им не хватает мотивации или нет инструментов, а потому что 3-я ступенька — это про другое мышление. Переход от реактивного тушения пожаров к проактивному проектированию надёжности.
И как по мне — лучше до этой мысли дойти самостоятельно, чем после смачного пенделя от бизнеса.
BY CTO: Порядок из хаоса
Share with your friend now:
tgoop.com/cto_order_from_chaos/32