DEVOPSLIB Telegram 78
🚨 Почему алерты не спасут твой прод?

Ты настроил алерты. Все по учебнику: CPU > 80%, диск > 90%, latency > 500ms, таймауты, реджекты. Всё работает — ты уверен.

А теперь честно: сколько раз ты видел алерт, но не реагировал, потому что “это бывает” или “оно само отойдёт”? Или наоборот — алерт сработал, но уже поздно, инцидент в разгаре.

Алерты ≠ наблюдение.
Алерт — это реакция на симптом, а не на проблему. И если ты ловишь только симптомы — ты всегда будешь в роли пожарного, а не инженера.

Что делать?

Строй SLO/SLA. Алерты — не про метрики, а про бизнес-цели.
Категоризируй: ошибки уровня приложений, инфраструктуры и пользователей — требуют разных подходов.
Визуализируй поведение системы: Grafana, dashboards, traces.
Добавь runbook: алерт без инструкции — шум.
Смотри в ретроспективу. Где ложные срабатывания? Где не хватило раннего сигнала?

Алерт — это не звонок в дверь, это сигнал тревоги. От него зависит, проснёшься ты вовремя или будешь объяснять CTO, почему уронил прод.

Подпишись 👉@devopslib
👍51



tgoop.com/devopslib/78
Create:
Last Update:

🚨 Почему алерты не спасут твой прод?

Ты настроил алерты. Все по учебнику: CPU > 80%, диск > 90%, latency > 500ms, таймауты, реджекты. Всё работает — ты уверен.

А теперь честно: сколько раз ты видел алерт, но не реагировал, потому что “это бывает” или “оно само отойдёт”? Или наоборот — алерт сработал, но уже поздно, инцидент в разгаре.

Алерты ≠ наблюдение.
Алерт — это реакция на симптом, а не на проблему. И если ты ловишь только симптомы — ты всегда будешь в роли пожарного, а не инженера.

Что делать?

Строй SLO/SLA. Алерты — не про метрики, а про бизнес-цели.
Категоризируй: ошибки уровня приложений, инфраструктуры и пользователей — требуют разных подходов.
Визуализируй поведение системы: Grafana, dashboards, traces.
Добавь runbook: алерт без инструкции — шум.
Смотри в ретроспективу. Где ложные срабатывания? Где не хватило раннего сигнала?

Алерт — это не звонок в дверь, это сигнал тревоги. От него зависит, проснёшься ты вовремя или будешь объяснять CTO, почему уронил прод.

Подпишись 👉@devopslib

BY Библиотека девопса | DevOps, SRE, Sysadmin


Share with your friend now:
tgoop.com/devopslib/78

View MORE
Open in Telegram


Telegram News

Date: |

Commenting about the court's concerns about the spread of false information related to the elections, Minister Fachin noted Brazil is "facing circumstances that could put Brazil's democracy at risk." During the meeting, the information technology secretary at the TSE, Julio Valente, put forward a list of requests the court believes will disinformation. As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.” Select “New Channel” Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group.
from us


Telegram Библиотека девопса | DevOps, SRE, Sysadmin
FROM American