tgoop.com/ozon_tech/1419
Last Update:
Как регулярно терять один ДЦ и не волноваться?
Иметь 3 ДЦ и постоянно проводить учения, сокращая время простоя.
С 2022 года мы регулярно проводим учения. Собираем координационный штаб, распределяем роли, засекаем время. Всё, чтобы быть уверенными: в день, когда внезапно пропадёт электричество или какой-нибудь случайный трактор перерубит оптоволокно, мы продолжим работать надёжно и стабильно.
За время учений мы определили, что:
— Доклад о процессе учений в Ozon Tech, решениях для observability, кэширования DNS и других проблемах в момент инцидента, — Михаил Кабищев, руководитель департамента разработки PaaS: в VK Видео и на YouTube.
— Пост про Warden, наш инструмент service discovery, который умеет определять отключение ДЦ и выкидывать недоступную зону из балансировки.
— Статья, как мы проводим нагрузочное тестирование на проде и сводим риски к минимуму, — Татьяна Спиридонова, старший разработчик информационных систем.
— И ещё статья от Михаила Кабищева о том, как устроена наша платформа и как она обеспечивает нам необходимую скорость, доступность и надёжность в любой ситуации.
Стабильности вашим дата-центрам!
#ozontech_experts