tgoop.com/dsproglib/6059
Last Update:
👀 DeepSeek R1: разбираемся с фактами
🔸 Ходят слухи, что обучение DeepSeek стоило ~$6M, но это маловероятно. Только базовая модель без RL обошлась в $5.5M, а ведь были ещё дополнительные прогоны обучения и полное обучение R1.
🔸 DeepSeek — не стартап на коленке. Их поддерживает High-Flyer, крупный китайский хедж-фонд, а команда состоит из олимпиадников по математике и физике. Они работают на 50,000+ GPU, что говорит о масштабе.
🔸 DeepSeek R1 — это 671B параметров, для работы требуется 16×H100. Это один из самых мощных опенсорсных ИИ.
🔸 Есть и «облегчённые» версии, например, 1.5B, но это не настоящий R1, а лишь дообученные Qwen/Llama.
📌 Если используете хостинговую версию DeepSeek, внимательно изучите ToS (условия предоставления услуг). Они могут использовать ваши данные для обучения будущих моделей.
BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
Share with your friend now:
tgoop.com/dsproglib/6059