DATA_DAYS Telegram 369
🔍 Data Observability

в Кларне наша команда отвечает за мониторинг монетизации партнёрского трафика. Данные получаем от affiliate networks (на русский вики предлагает перевод как «сеть партнёрских программ»). Сети передают данные по API (в основном).

казалось бы, тривиальная задача — взять данные из АПИ и положить их в базу. В целом так! но есть ньюанс >_>

когда команда начиналась, была одна сеть. Потом добавилась ещё пара. Через какое-то время клиенты начали просить добавить «ещё одну». Спустя несколько лет мы имеем 20+ сетей, к каждой свой коннектор и бегущие джобы.

в плохой день, открыв утром чат с алертами, можно найти простыню из ошибок: несколько джобов ночью падало, сколько-то потом отпустило. в этой мешанине бывало пропускали важные ошибки. получается, что тривиальная задача на масштабе превращается в тягучую рутину.

⌘⌘⌘

когда я спросил, как команда следит за свежестью данных по каждой сети, то в ответ только пожали плечами. как-то раз обнаружили, что по одной из сетей не поступало данных две недели =/

так жить нельзя, подумал я, и из готовых блоков (Airflow + Datadog) наваял сбор метрик по свежести данных в разрезе сетей. Настроил алерты в Датадоге по порогам. Для наглядности там же в Датадоге вывел на деше значения метрик по каждой сети в динамике (с конфигурацией сразу в Terraform).

отдельный предмет для личный гордости: мне никто не ставил задачу, не обозначал проблемы, что мол надо следить за свежестью данных. Сам увидел проблему, сам придумал решение, сам реализовал. П — проактивность.

как говорят коллеги, теперь это дешик, с которого начинается утро (по крайней мере для дежурного) — на деше сразу видны тренды, если с какой-то из сетей неполадки (там где не помогли штатные ретраи)

привнёс Data Observability, получается ☝️

⌘⌘⌘

со временем нашлись и дополнительные плюсы: для каждой сети стало видно с какой минимальной задержкой мы получаем данные. Подсветились сети, где почему-то не было данных свежее 5 дней — оказалось, опечатка в конфиге джобы.

и отдельно видно сети, которые мы начали переводить с ежедневного крона на каждый час — чёткие гребешки стали почти плоскими равнинами



tgoop.com/data_days/369
Create:
Last Update:

🔍 Data Observability

в Кларне наша команда отвечает за мониторинг монетизации партнёрского трафика. Данные получаем от affiliate networks (на русский вики предлагает перевод как «сеть партнёрских программ»). Сети передают данные по API (в основном).

казалось бы, тривиальная задача — взять данные из АПИ и положить их в базу. В целом так! но есть ньюанс >_>

когда команда начиналась, была одна сеть. Потом добавилась ещё пара. Через какое-то время клиенты начали просить добавить «ещё одну». Спустя несколько лет мы имеем 20+ сетей, к каждой свой коннектор и бегущие джобы.

в плохой день, открыв утром чат с алертами, можно найти простыню из ошибок: несколько джобов ночью падало, сколько-то потом отпустило. в этой мешанине бывало пропускали важные ошибки. получается, что тривиальная задача на масштабе превращается в тягучую рутину.

⌘⌘⌘

когда я спросил, как команда следит за свежестью данных по каждой сети, то в ответ только пожали плечами. как-то раз обнаружили, что по одной из сетей не поступало данных две недели =/

так жить нельзя, подумал я, и из готовых блоков (Airflow + Datadog) наваял сбор метрик по свежести данных в разрезе сетей. Настроил алерты в Датадоге по порогам. Для наглядности там же в Датадоге вывел на деше значения метрик по каждой сети в динамике (с конфигурацией сразу в Terraform).

отдельный предмет для личный гордости: мне никто не ставил задачу, не обозначал проблемы, что мол надо следить за свежестью данных. Сам увидел проблему, сам придумал решение, сам реализовал. П — проактивность.

как говорят коллеги, теперь это дешик, с которого начинается утро (по крайней мере для дежурного) — на деше сразу видны тренды, если с какой-то из сетей неполадки (там где не помогли штатные ретраи)

привнёс Data Observability, получается ☝️

⌘⌘⌘

со временем нашлись и дополнительные плюсы: для каждой сети стало видно с какой минимальной задержкой мы получаем данные. Подсветились сети, где почему-то не было данных свежее 5 дней — оказалось, опечатка в конфиге джобы.

и отдельно видно сети, которые мы начали переводить с ежедневного крона на каждый час — чёткие гребешки стали почти плоскими равнинами

BY data будни




Share with your friend now:
tgoop.com/data_days/369

View MORE
Open in Telegram


Telegram News

Date: |

Polls Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up. Select “New Channel” Deputy District Judge Peter Hui sentenced computer technician Ng Man-ho on Thursday, a month after the 27-year-old, who ran a Telegram group called SUCK Channel, was found guilty of seven charges of conspiring to incite others to commit illegal acts during the 2019 extradition bill protests and subsequent months. As five out of seven counts were serious, Hui sentenced Ng to six years and six months in jail.
from us


Telegram data будни
FROM American