OZON_TECH Telegram 1419
Как регулярно терять один ДЦ и не волноваться?
Иметь 3 ДЦ и постоянно проводить учения, сокращая время простоя.

С 2022 года мы регулярно проводим учения. Собираем координационный штаб, распределяем роли, засекаем время. Всё, чтобы быть уверенными: в день, когда внезапно пропадёт электричество или какой-нибудь случайный трактор перерубит оптоволокно, мы продолжим работать надёжно и стабильно.

За время учений мы определили, что:
всё должно быть по-настоящему — мы реально отключаем один из ДЦ, не переключаем мастера, не выводим то, что может сломаться и т.д.;
восстановление обязательно происходит вручную;
общее время даунтайма, к которому мы стремимся, не должно превышать 3 минуты для разных сервисов.

Подборка для тех, кому важно знать, что мы делаем для обеспечения стабильности работы ЦОДов

— Доклад о процессе учений в Ozon Tech, решениях для observability, кэширования DNS и других проблемах в момент инцидента, — Михаил Кабищев, руководитель департамента разработки PaaS: в VK Видео и на YouTube.

Пост про Warden, наш инструмент service discovery, который умеет определять отключение ДЦ и выкидывать недоступную зону из балансировки.

Статья, как мы проводим нагрузочное тестирование на проде и сводим риски к минимуму, — Татьяна Спиридонова, старший разработчик информационных систем.

И ещё статья от Михаила Кабищева о том, как устроена наша платформа и как она обеспечивает нам необходимую скорость, доступность и надёжность в любой ситуации.

Стабильности вашим дата-центрам!

#ozontech_experts
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/ozon_tech/1419
Create:
Last Update:

Как регулярно терять один ДЦ и не волноваться?
Иметь 3 ДЦ и постоянно проводить учения, сокращая время простоя.

С 2022 года мы регулярно проводим учения. Собираем координационный штаб, распределяем роли, засекаем время. Всё, чтобы быть уверенными: в день, когда внезапно пропадёт электричество или какой-нибудь случайный трактор перерубит оптоволокно, мы продолжим работать надёжно и стабильно.

За время учений мы определили, что:
всё должно быть по-настоящему — мы реально отключаем один из ДЦ, не переключаем мастера, не выводим то, что может сломаться и т.д.;
восстановление обязательно происходит вручную;
общее время даунтайма, к которому мы стремимся, не должно превышать 3 минуты для разных сервисов.

Подборка для тех, кому важно знать, что мы делаем для обеспечения стабильности работы ЦОДов

— Доклад о процессе учений в Ozon Tech, решениях для observability, кэширования DNS и других проблемах в момент инцидента, — Михаил Кабищев, руководитель департамента разработки PaaS: в VK Видео и на YouTube.

Пост про Warden, наш инструмент service discovery, который умеет определять отключение ДЦ и выкидывать недоступную зону из балансировки.

Статья, как мы проводим нагрузочное тестирование на проде и сводим риски к минимуму, — Татьяна Спиридонова, старший разработчик информационных систем.

И ещё статья от Михаила Кабищева о том, как устроена наша платформа и как она обеспечивает нам необходимую скорость, доступность и надёжность в любой ситуации.

Стабильности вашим дата-центрам!

#ozontech_experts

BY Ozon Tech




Share with your friend now:
tgoop.com/ozon_tech/1419

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! 1What is Telegram Channels? In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members.
from us


Telegram Ozon Tech
FROM American