tgoop.com/hiaimedia/1520
Last Update:
Китайская компания DeepSeek представила новую языковую модель с открытым исходным кодом — DeepSeek V3. В отличие от многих конкурентов, она доступна для свободного использования, в том числе в коммерческих проектах.
DeepSeek V3 показала себя лучше других LLM почти во всех основных бенчмарках (см. таблицу
За этими достижениями стоит серьезная подготовка. DeepSeek V3 обучена на объеме данных в 14,8 трлн токенов. Это соответствует примерно 11,1 трлн слов — как если бы ИИ прочитал все написанные человечеством книги несколько раз подряд.
Также DeepSeek V3 крупнейшая на сегодняшний день open source модель по числу параметров — 671 млрд. Прошлый лидер, Llama 3.1, имеет всего 405 млрд. Такой объем параметров позволяет нейросети лучше понимать контекст и решать более сложные задачи, но у этого есть своя цена. Чтобы работать с приемлемой скоростью, модели требуется очень мощное «железо».
С другой стороны, DeepSeek совершили прорыв в эффективности: с помощью специализированных GPU Nvidia H800 они обучили свою модель всего за два месяца. При этом разработка DeepSeek V3 обошлась компании всего в $5,5 млн. Для сравнения: на создание GPT-4 OpenAI потребовалось около $78 млн.
Как китайская компания DeepSeek подчиняется правилам интернет-регулятора КНР. Прежде всего, компания должна гарантировать, что ответы ее моделей соответствуют ценностям правящей партии. Поэтому DeepSeek V3 очень обтекаемо отвечает на острые запросы о политическом режиме в Китае на «родном» языке. На русском и английском чат-бот гораздо охотнее рассказывает о непростых вещах, но иногда все-таки предпочитает промолчать.
Еще по теме:
#новости #DeepSeek