💬 Успех DeepSeek: как китайская open source модель бросает вызов ChatGPT

💬

Успех DeepSeek: как китайская open source модель бросает вызов ChatGPT

Китайская компания DeepSeek представила новую языковую модель с открытым исходным кодом — DeepSeek V3. В отличие от многих конкурентов, она доступна для свободного использования, в том числе в коммерческих проектах.

🖥

Умелый программист

DeepSeek V3 показала себя лучше других LLM почти во всех основных бенчмарках (см. таблицу ⤴️). Особенно хорошо DeepSeek V3 справляется с программированием. В тесте Aider Polyglot, проверяющем навык ИИ писать код, который можно встроить в существующие программы, DeepSeek V3 уступает только последней версии OpenAI o1.

💰

Быстро, дешево, качественно

За этими достижениями стоит серьезная подготовка. DeepSeek V3 обучена на объеме данных в 14,8 трлн токенов. Это соответствует примерно 11,1 трлн слов — как если бы ИИ прочитал все написанные человечеством книги несколько раз подряд.

Также DeepSeek V3 крупнейшая на сегодняшний день open source модель по числу параметров — 671 млрд. Прошлый лидер, Llama 3.1, имеет всего 405 млрд. Такой объем параметров позволяет нейросети лучше понимать контекст и решать более сложные задачи, но у этого есть своя цена. Чтобы работать с приемлемой скоростью, модели требуется очень мощное «железо».

С другой стороны, DeepSeek совершили прорыв в эффективности: с помощью специализированных GPU Nvidia H800 они обучили свою модель всего за два месяца. При этом разработка DeepSeek V3 обошлась компании всего в $5,5 млн. Для сравнения: на создание GPT-4 OpenAI потребовалось около $78 млн.

👁

Идеологически подкована

Как китайская компания DeepSeek подчиняется правилам интернет-регулятора КНР. Прежде всего, компания должна гарантировать, что ответы ее моделей соответствуют ценностям правящей партии. Поэтому DeepSeek V3 очень обтекаемо отвечает на острые запросы о политическом режиме в Китае на «родном» языке. На русском и английском чат-бот гораздо охотнее рассказывает о непростых вещах, но иногда все-таки предпочитает промолчать.

➡️

Пообщаться с DeepSeek V3 бесплатно можно здесь

Еще по теме:

🛑

Главные тренды 2024 года в ИИ: чего нам ждать дальше?

🛑

Чем отличается открытый и закрытый исходный код

👋

Подпишитесь на Hi, AI!

#новости #DeepSeek

Please open Telegram to view this post

VIEW IN TELEGRAM

www.tgoop.com/hiaimedia/1520

144.1K viewsJan 8 at 07:36

tgoop.com/hiaimedia/1520

Create: 2025-01-08
Last Update: 2025-01-23 07:05:37

💬 Успех DeepSeek: как китайская open source модель бросает вызов ChatGPT

Китайская компания DeepSeek представила новую языковую модель с открытым исходным кодом — DeepSeek V3. В отличие от многих конкурентов, она доступна для свободного использования, в том числе в коммерческих проектах.

🖥 Умелый программист

DeepSeek V3 показала себя лучше других LLM почти во всех основных бенчмарках (см. таблицу ⤴️). Особенно хорошо DeepSeek V3 справляется с программированием. В тесте Aider Polyglot, проверяющем навык ИИ писать код, который можно встроить в существующие программы, DeepSeek V3 уступает только последней версии OpenAI o1.

💰 Быстро, дешево, качественно

За этими достижениями стоит серьезная подготовка. DeepSeek V3 обучена на объеме данных в 14,8 трлн токенов. Это соответствует примерно 11,1 трлн слов — как если бы ИИ прочитал все написанные человечеством книги несколько раз подряд.

Также DeepSeek V3 крупнейшая на сегодняшний день open source модель по числу параметров — 671 млрд. Прошлый лидер, Llama 3.1, имеет всего 405 млрд. Такой объем параметров позволяет нейросети лучше понимать контекст и решать более сложные задачи, но у этого есть своя цена. Чтобы работать с приемлемой скоростью, модели требуется очень мощное «железо».

С другой стороны, DeepSeek совершили прорыв в эффективности: с помощью специализированных GPU Nvidia H800 они обучили свою модель всего за два месяца. При этом разработка DeepSeek V3 обошлась компании всего в $5,5 млн. Для сравнения: на создание GPT-4 OpenAI потребовалось около $78 млн.

👁 Идеологически подкована

Как китайская компания DeepSeek подчиняется правилам интернет-регулятора КНР. Прежде всего, компания должна гарантировать, что ответы ее моделей соответствуют ценностям правящей партии. Поэтому DeepSeek V3 очень обтекаемо отвечает на острые запросы о политическом режиме в Китае на «родном» языке. На русском и английском чат-бот гораздо охотнее рассказывает о непростых вещах, но иногда все-таки предпочитает промолчать.

➡️ Пообщаться с DeepSeek V3 бесплатно можно здесь

Еще по теме:

🛑 Главные тренды 2024 года в ИИ: чего нам ждать дальше?

🛑 Чем отличается открытый и закрытый исходный код

👋 Подпишитесь на Hi, AI!

#новости #DeepSeek

Telegram News

💬 Успех DeepSeek: как китайская open source модель бросает вызов ChatGPT