tgoop.com/machinelearning_ru/2805
Last Update:
💡 Крутая деталь из статьи про Gemini 2.5 — отказоустойчивая тренировка на TPU
В документации к Gemini 2.5 есть незаметный, но крутой инженерный момент:
если одна TPU-секция (slice) выходит из строя во время обучения, система не ждёт, пока освободится новая. Вместо этого они продолжают обучение на оставшихся ~97% TPU.
Это значит:
- никакого простоя
- никакой остановки тренировки
- просто пропускаем сбойный slice и двигаемся дальше
🧠 По сути, это дизайн с толерантностью к сбоям, встроенный прямо в систему планирования обучения.
🎩 И да — это отсылает к "старой школе Google", где железо было дешёвым и ненадёжным, но вся магия была в том, как они писали отказоустойчивый софт поверх этого железа.
👉 https://blog.codinghorror.com/building-a-computer-the-google-way/
Gemini 2.5 — это не только про модели. Это про инженерное мастерство, лежащее под капотом.
BY Машинное обучение RU
Share with your friend now:
tgoop.com/machinelearning_ru/2805