CLOUD_FLIGHT Telegram 31
Прочитал серию статей про то, как OpenAI строят инфраструктуру для своих вычеслений. Тема довольно интересная, а сегодня особенно актуальная, и мне всегда было любопытно, как это делают “большие” игроки.

К моему удивлению, при своих объемах OpenAI запускает вычисления на кластере Kubernetes, правда с большим количеством доработок как в самом кластере, так и на уровне инфраструктуры под ним и упрощения доступа к железу. Про эти оптимизации особенно подробно в последних статьях.
Более того, я не слышал, чтобы кто-то имел кластера такого размера (более 7,5К нод на 2021 год, вероятно сильно больше сейчас).
В блоге дают неплохую аргументацию тому, почему выбран именно Kubernetes, а например не запуск задач на отдельных ВМ или на каком-то самодельном оркестраторе - это тулинг и удобства, который из коробки дает кубер, упрощение менеджмента флота машин, и подобное.

Увлекательное чтение, особенно почитать про ограничения, с которыми столкнулись на таких объемах нод (а значит и объеме данных, проходящих через control plane и хранящихся в etcd), и сложности нетворкинга.

(2021) Scaling Kubernetes to 7,500 nodes
(2018) Scaling Kubernetes to 2,500 nodes
(2016) Infrastructure for deep learning

В целом в блоге много интересного про управление ресурсами, оптимизацию и масштабирование.



tgoop.com/cloud_flight/31
Create:
Last Update:

Прочитал серию статей про то, как OpenAI строят инфраструктуру для своих вычеслений. Тема довольно интересная, а сегодня особенно актуальная, и мне всегда было любопытно, как это делают “большие” игроки.

К моему удивлению, при своих объемах OpenAI запускает вычисления на кластере Kubernetes, правда с большим количеством доработок как в самом кластере, так и на уровне инфраструктуры под ним и упрощения доступа к железу. Про эти оптимизации особенно подробно в последних статьях.
Более того, я не слышал, чтобы кто-то имел кластера такого размера (более 7,5К нод на 2021 год, вероятно сильно больше сейчас).
В блоге дают неплохую аргументацию тому, почему выбран именно Kubernetes, а например не запуск задач на отдельных ВМ или на каком-то самодельном оркестраторе - это тулинг и удобства, который из коробки дает кубер, упрощение менеджмента флота машин, и подобное.

Увлекательное чтение, особенно почитать про ограничения, с которыми столкнулись на таких объемах нод (а значит и объеме данных, проходящих через control plane и хранящихся в etcd), и сложности нетворкинга.

(2021) Scaling Kubernetes to 7,500 nodes
(2018) Scaling Kubernetes to 2,500 nodes
(2016) Infrastructure for deep learning

В целом в блоге много интересного про управление ресурсами, оптимизацию и масштабирование.

BY Витаем в облаках




Share with your friend now:
tgoop.com/cloud_flight/31

View MORE
Open in Telegram


Telegram News

Date: |

While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations. Some Telegram Channels content management tips There have been several contributions to the group with members posting voice notes of screaming, yelling, groaning, and wailing in different rhythms and pitches. Calling out the “degenerate” community or the crypto obsessives that engage in high-risk trading, Co-founder of NFT renting protocol Rentable World emiliano.eth shared this group on his Twitter. He wrote: “hey degen, are you stressed? Just let it out all out. Voice only tg channel for screaming”.
from us


Telegram Витаем в облаках
FROM American