PASHAAIAIAI Telegram 180
Как DeepSeek стал главным событием 2025 года

Китайский стартап DeepSeek, о котором в 2024 году мало кто слышал, представил семейство AI-моделей R1 не хуже проприетарных моделей лидеров AI-рынка и во много лучше их. За несколько дней DeepSeek стал приложением №1 в App Store в некоторых странах — и неспроста.

Бесплатно и открыто
Во-первых, приложение с ботом работает бесплатно и без VPN-сервисов. Для непрофессионального использования 50 бесплатных сообщений в день хватит на многое, а в платной версии API DeepSeek стоит в 27 раз дешевле ChatGPT. Во-вторых, можно наблюдать процесс рассуждений модели, чтобы понять, в какой момент логика не сработала.

В-третьих — стартап открыл веса и исходный код моделей с лицензией, которая позволяет неограниченно использовать его даже в коммерческих проектах. В итоге на Hugging Face уже насчитывается более 500 проектов, производных от R1. Они набрали 2,5 млн загрузок.

Большая популярность нового сервиса привела к сбою в работе и привлекла масштабные вредоносные атаки. Пока стартап приостановил регистрацию новых пользователей в боте и API-портале, но нейросеть осталась доступной ранее зарегистрированным пользователям.

Работает локально
Еще один важный момент — речь идет о целом семействе моделей: 1,5B, 7B, 8B, 14B, 32B и 70B. Самую маленькую версию можно запускать локально на компьютере. Даже компактная версия DeepSeek-R1-7B превосходит GPT-4o в математических задачах. Это значит, что на рынке вскоре могут появиться миллионы ноутбуков и смартфонов с дешевым встроенным AI. При этом в базовой версии DeepSeek-R1-Zero (без дистилляции) имеет 671 млрд параметров.

Лучше, чем ChatGPT
DeepSeek провел внутреннее тестирование моделей. В математическом бенчмарке AIME 2024 R1 достигает 79,8% против 79,2% у o1. Модель также превзошла Llama 3.1 от Meta*, GPT-4o от OpenAI и Claude Sonnet 3.5 от Anthropic в решении сложных проблем, в математике и программировании. В других бенчмарках R1 находится на уровне лидеров рынка.

Уникальная архитектура
Модели DeepSeek примечательны еще и своей архитектурой. Архитектура Multi-token Prediction позволяет модели предсказывать несколько слов вместо одного — так она анализирует одновременно разные части предложения. Это повышает точность работы модели и ее производительность. Для определенных вычислений модель использует 8-битное представление чисел с плавающей точкой (FP8), чтобы снизить использование памяти видеокарт, а фреймворк DualPipe распределяет вычисления между ними. 

Архитектура Mixture of Experts использует несколько специализированных и заранее обученных нейросетей–«экспертов» для анализа различных входных данных. Благодаря Mixture of Experts модель активирует лишь часть своих ресурсов под конкретную задачу. Таким образом, модель обучили за два месяца с помощью чипов Nvidia H800, потратив лишь $5,6 млн.
Еще и мультимодальные модели
DeepSeek создал еще и мультимодальные модели для генерации изображений Janus-Pro — с числом параметров от 1 млрд до 7 млрд. Модели Janus-Pro могут анализировать картинки разрешением до 384 x 384 и генерировать изображения.

В стартапе заявляют, что крупнейшая из них — Janus-Pro-7B — превосходит PixArt-alpha, Emu3-Gen, Stable Diffusion XL от Stability AI и DALL-E 3 от OpenAI в тестах GenEval и DPG-Bench. Как и R1, Janus-Pro — модель с открытым исходным кодом и возможностью неограниченного использования даже в коммерческих целях. В их основе — собственные модели DeepSeek-LLM-1.5b-base и DeepSeek-LLM-7b-base.

DeepSeek завирусился в соцсетях 
Успех DeepSeek породил множество мемов, где его сравнивают с продуктами OpenAI и Llama. Цукерберга и Альтмана эти мемы вряд ли порадуют, зато порадуют нас. Приложил несколько самых смешных.

Китайские компании наступают
Тем временем Alibaba выпустила набор моделей Qwen2.5-VL. Они выполняют действия за пользователя аналогично AI-агенту Operator от OpenAI, но превосходят GPT-4o, Anthropic Claude 3.5 Sonnet и Google Gemini 2.0 Flash в математике, понимании видеоконтента и документов

*Организация, запрещенная на территории РФ



tgoop.com/pashaaiaiai/180
Create:
Last Update:

Как DeepSeek стал главным событием 2025 года

Китайский стартап DeepSeek, о котором в 2024 году мало кто слышал, представил семейство AI-моделей R1 не хуже проприетарных моделей лидеров AI-рынка и во много лучше их. За несколько дней DeepSeek стал приложением №1 в App Store в некоторых странах — и неспроста.

Бесплатно и открыто
Во-первых, приложение с ботом работает бесплатно и без VPN-сервисов. Для непрофессионального использования 50 бесплатных сообщений в день хватит на многое, а в платной версии API DeepSeek стоит в 27 раз дешевле ChatGPT. Во-вторых, можно наблюдать процесс рассуждений модели, чтобы понять, в какой момент логика не сработала.

В-третьих — стартап открыл веса и исходный код моделей с лицензией, которая позволяет неограниченно использовать его даже в коммерческих проектах. В итоге на Hugging Face уже насчитывается более 500 проектов, производных от R1. Они набрали 2,5 млн загрузок.

Большая популярность нового сервиса привела к сбою в работе и привлекла масштабные вредоносные атаки. Пока стартап приостановил регистрацию новых пользователей в боте и API-портале, но нейросеть осталась доступной ранее зарегистрированным пользователям.

Работает локально
Еще один важный момент — речь идет о целом семействе моделей: 1,5B, 7B, 8B, 14B, 32B и 70B. Самую маленькую версию можно запускать локально на компьютере. Даже компактная версия DeepSeek-R1-7B превосходит GPT-4o в математических задачах. Это значит, что на рынке вскоре могут появиться миллионы ноутбуков и смартфонов с дешевым встроенным AI. При этом в базовой версии DeepSeek-R1-Zero (без дистилляции) имеет 671 млрд параметров.

Лучше, чем ChatGPT
DeepSeek провел внутреннее тестирование моделей. В математическом бенчмарке AIME 2024 R1 достигает 79,8% против 79,2% у o1. Модель также превзошла Llama 3.1 от Meta*, GPT-4o от OpenAI и Claude Sonnet 3.5 от Anthropic в решении сложных проблем, в математике и программировании. В других бенчмарках R1 находится на уровне лидеров рынка.

Уникальная архитектура
Модели DeepSeek примечательны еще и своей архитектурой. Архитектура Multi-token Prediction позволяет модели предсказывать несколько слов вместо одного — так она анализирует одновременно разные части предложения. Это повышает точность работы модели и ее производительность. Для определенных вычислений модель использует 8-битное представление чисел с плавающей точкой (FP8), чтобы снизить использование памяти видеокарт, а фреймворк DualPipe распределяет вычисления между ними. 

Архитектура Mixture of Experts использует несколько специализированных и заранее обученных нейросетей–«экспертов» для анализа различных входных данных. Благодаря Mixture of Experts модель активирует лишь часть своих ресурсов под конкретную задачу. Таким образом, модель обучили за два месяца с помощью чипов Nvidia H800, потратив лишь $5,6 млн.
Еще и мультимодальные модели
DeepSeek создал еще и мультимодальные модели для генерации изображений Janus-Pro — с числом параметров от 1 млрд до 7 млрд. Модели Janus-Pro могут анализировать картинки разрешением до 384 x 384 и генерировать изображения.

В стартапе заявляют, что крупнейшая из них — Janus-Pro-7B — превосходит PixArt-alpha, Emu3-Gen, Stable Diffusion XL от Stability AI и DALL-E 3 от OpenAI в тестах GenEval и DPG-Bench. Как и R1, Janus-Pro — модель с открытым исходным кодом и возможностью неограниченного использования даже в коммерческих целях. В их основе — собственные модели DeepSeek-LLM-1.5b-base и DeepSeek-LLM-7b-base.

DeepSeek завирусился в соцсетях 
Успех DeepSeek породил множество мемов, где его сравнивают с продуктами OpenAI и Llama. Цукерберга и Альтмана эти мемы вряд ли порадуют, зато порадуют нас. Приложил несколько самых смешных.

Китайские компании наступают
Тем временем Alibaba выпустила набор моделей Qwen2.5-VL. Они выполняют действия за пользователя аналогично AI-агенту Operator от OpenAI, но превосходят GPT-4o, Anthropic Claude 3.5 Sonnet и Google Gemini 2.0 Flash в математике, понимании видеоконтента и документов

*Организация, запрещенная на территории РФ

BY Паша AI AI AI




Share with your friend now:
tgoop.com/pashaaiaiai/180

View MORE
Open in Telegram


Telegram News

Date: |

During the meeting with TSE Minister Edson Fachin, Perekopsky also mentioned the TSE channel on the platform as one of the firm's key success stories. Launched as part of the company's commitments to tackle the spread of fake news in Brazil, the verified channel has attracted more than 184,000 members in less than a month. Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up. Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” Users are more open to new information on workdays rather than weekends. More>>
from us


Telegram Паша AI AI AI
FROM American