tgoop.com/pashaaiaiai/180
Last Update:
Как DeepSeek стал главным событием 2025 года
Китайский стартап DeepSeek, о котором в 2024 году мало кто слышал, представил семейство AI-моделей R1 не хуже проприетарных моделей лидеров AI-рынка и во много лучше их. За несколько дней DeepSeek стал приложением №1 в App Store в некоторых странах — и неспроста.
Бесплатно и открыто
Во-первых, приложение с ботом работает бесплатно и без VPN-сервисов. Для непрофессионального использования 50 бесплатных сообщений в день хватит на многое, а в платной версии API DeepSeek стоит в 27 раз дешевле ChatGPT. Во-вторых, можно наблюдать процесс рассуждений модели, чтобы понять, в какой момент логика не сработала.
В-третьих — стартап открыл веса и исходный код моделей с лицензией, которая позволяет неограниченно использовать его даже в коммерческих проектах. В итоге на Hugging Face уже насчитывается более 500 проектов, производных от R1. Они набрали 2,5 млн загрузок.
Большая популярность нового сервиса привела к сбою в работе и привлекла масштабные вредоносные атаки. Пока стартап приостановил регистрацию новых пользователей в боте и API-портале, но нейросеть осталась доступной ранее зарегистрированным пользователям.
Работает локально
Еще один важный момент — речь идет о целом семействе моделей: 1,5B, 7B, 8B, 14B, 32B и 70B. Самую маленькую версию можно запускать локально на компьютере. Даже компактная версия DeepSeek-R1-7B превосходит GPT-4o в математических задачах. Это значит, что на рынке вскоре могут появиться миллионы ноутбуков и смартфонов с дешевым встроенным AI. При этом в базовой версии DeepSeek-R1-Zero (без дистилляции) имеет 671 млрд параметров.
Лучше, чем ChatGPT
DeepSeek провел внутреннее тестирование моделей. В математическом бенчмарке AIME 2024 R1 достигает 79,8% против 79,2% у o1. Модель также превзошла Llama 3.1 от Meta*, GPT-4o от OpenAI и Claude Sonnet 3.5 от Anthropic в решении сложных проблем, в математике и программировании. В других бенчмарках R1 находится на уровне лидеров рынка.
Уникальная архитектура
Модели DeepSeek примечательны еще и своей архитектурой. Архитектура Multi-token Prediction позволяет модели предсказывать несколько слов вместо одного — так она анализирует одновременно разные части предложения. Это повышает точность работы модели и ее производительность. Для определенных вычислений модель использует 8-битное представление чисел с плавающей точкой (FP8), чтобы снизить использование памяти видеокарт, а фреймворк DualPipe распределяет вычисления между ними.
Архитектура Mixture of Experts использует несколько специализированных и заранее обученных нейросетей–«экспертов» для анализа различных входных данных. Благодаря Mixture of Experts модель активирует лишь часть своих ресурсов под конкретную задачу. Таким образом, модель обучили за два месяца с помощью чипов Nvidia H800, потратив лишь $5,6 млн.
Еще и мультимодальные модели
DeepSeek создал еще и мультимодальные модели для генерации изображений Janus-Pro — с числом параметров от 1 млрд до 7 млрд. Модели Janus-Pro могут анализировать картинки разрешением до 384 x 384 и генерировать изображения.
В стартапе заявляют, что крупнейшая из них — Janus-Pro-7B — превосходит PixArt-alpha, Emu3-Gen, Stable Diffusion XL от Stability AI и DALL-E 3 от OpenAI в тестах GenEval и DPG-Bench. Как и R1, Janus-Pro — модель с открытым исходным кодом и возможностью неограниченного использования даже в коммерческих целях. В их основе — собственные модели DeepSeek-LLM-1.5b-base и DeepSeek-LLM-7b-base.
DeepSeek завирусился в соцсетях
Успех DeepSeek породил множество мемов, где его сравнивают с продуктами OpenAI и Llama. Цукерберга и Альтмана эти мемы вряд ли порадуют, зато порадуют нас. Приложил несколько самых смешных.
Китайские компании наступают
Тем временем Alibaba выпустила набор моделей Qwen2.5-VL. Они выполняют действия за пользователя аналогично AI-агенту Operator от OpenAI, но превосходят GPT-4o, Anthropic Claude 3.5 Sonnet и Google Gemini 2.0 Flash в математике, понимании видеоконтента и документов
*Организация, запрещенная на территории РФ
BY Паша AI AI AI

Share with your friend now:
tgoop.com/pashaaiaiai/180