🎯RecSys R&D команда из Яндекса разработали рекомендательные системы нового поколения на базе больших генеративных нейросетей.
В то время как индустрия пристально следит за успехами LLM, в другой ключевой сфере — рекомендательных системах — случился важный апдейт. Исследователи Яндекса разработали и внедрили в свои сервисы новую трансформерную модель ARGUS (AutoRegressive Generative User Sequential Modeling), способную буквально «читать» поведение пользователя.
Алгоритмы учитывают сложные последовательности (включая мельчайшие фидбеки), предсказывают большое количество обезличенных действий и точнее понимают реакцию и вкусы пользователей. Особенно актуально в эпоху, когда рекомендательные системы становятся фундаментом современных сервисов, а контента становится слишком много.
На Хабре подробно описано, как команда масштабировала систему. Выделили 3 главных условия нейросетевого масштабирования: должен быть огромный массив данных, выразительная архитектура с большой емкостью модели и фундаментальная задача обучения.
В Яндекс Музыке генеративные нейросети в рекомендациях используются уже с 2023. Она же стала первым сервисом, в который интегрировали новые модели и перевели их в онлайн. В результате: пользователи стали ставить на 20% больше лайков, а разнообразие рекомендаций выросло. В Яндекс Маркете внедрение новых алгоритмов позволило учитывать в несколько раз больше обезличенного контекста о пользовательском поведении на сервисе — это эквивалентно примерно двум годам активности покупателей. Рекомендации позволяют чаще встречать интересные товары, и учитывают сезонность. Если, например, прошлым летом пользователь интересовался футболом, то в этот сезон система посоветуем ему мячи или спортивную униформу. В будущем апдейт получат и другие сервисы компании.
В то время как индустрия пристально следит за успехами LLM, в другой ключевой сфере — рекомендательных системах — случился важный апдейт. Исследователи Яндекса разработали и внедрили в свои сервисы новую трансформерную модель ARGUS (AutoRegressive Generative User Sequential Modeling), способную буквально «читать» поведение пользователя.
Алгоритмы учитывают сложные последовательности (включая мельчайшие фидбеки), предсказывают большое количество обезличенных действий и точнее понимают реакцию и вкусы пользователей. Особенно актуально в эпоху, когда рекомендательные системы становятся фундаментом современных сервисов, а контента становится слишком много.
На Хабре подробно описано, как команда масштабировала систему. Выделили 3 главных условия нейросетевого масштабирования: должен быть огромный массив данных, выразительная архитектура с большой емкостью модели и фундаментальная задача обучения.
В Яндекс Музыке генеративные нейросети в рекомендациях используются уже с 2023. Она же стала первым сервисом, в который интегрировали новые модели и перевели их в онлайн. В результате: пользователи стали ставить на 20% больше лайков, а разнообразие рекомендаций выросло. В Яндекс Маркете внедрение новых алгоритмов позволило учитывать в несколько раз больше обезличенного контекста о пользовательском поведении на сервисе — это эквивалентно примерно двум годам активности покупателей. Рекомендации позволяют чаще встречать интересные товары, и учитывают сезонность. Если, например, прошлым летом пользователь интересовался футболом, то в этот сезон система посоветуем ему мячи или спортивную униформу. В будущем апдейт получат и другие сервисы компании.
Хабр
ARGUS: как масштабировать рекомендательные трансформеры
Привет! Меня зовут Кирилл Хрыльченко. Я руковожу командой, которая занимается R&D для рекомендательных технологий в Яндексе. Одна из наших основных задач — развивать...
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
MASt3R-SLAM: детализированный SLAM с априорными данными 3D-реконструкции в реальном времени.
Представлена система плотного SLAM в реальном времени с использованием одной камеры, разработанная на основе MASt3R — приорной модели для реконструкции сцены и сопоставления по двум изображениям. Благодаря использованию этого мощного ML-приора, система сохраняет устойчивость при работе с произвольными видеопоследовательностями из реального мира, не накладывая ограничений на калиброванную или параметрическую модель камеры, за исключением предположения об уникальном центре проекции.
В рамках архитектуры реализованы эффективные алгоритмы сопоставления с картой точек (pointmap matching), трекинга камеры, локального слияния (fusion), построения графа и замыкания петель (loop closure), а также глобальной оптимизации второго порядка.
При наличии калибровки камеры, достаточно минимальной модификации, чтобы достичь state-of-the-art результатов на ряде стандартных бенчмарков. В целом, система представляет собой plug-and-play решение для монокулярного SLAM, обеспечивающее глобально согласованные траектории камеры и плотную 3D-реконструкцию при скорости 15 FPS.
➡️ Проект https://edexheim.github.io/mast3r-slam/
➡️ Набор моделей https://download.europe.naverlabs.com/ComputerVision/MASt3R/
➡️ Arxiv https://arxiv.org/pdf/2412.12392
👉 @bigdata_1
Представлена система плотного SLAM в реальном времени с использованием одной камеры, разработанная на основе MASt3R — приорной модели для реконструкции сцены и сопоставления по двум изображениям. Благодаря использованию этого мощного ML-приора, система сохраняет устойчивость при работе с произвольными видеопоследовательностями из реального мира, не накладывая ограничений на калиброванную или параметрическую модель камеры, за исключением предположения об уникальном центре проекции.
В рамках архитектуры реализованы эффективные алгоритмы сопоставления с картой точек (pointmap matching), трекинга камеры, локального слияния (fusion), построения графа и замыкания петель (loop closure), а также глобальной оптимизации второго порядка.
При наличии калибровки камеры, достаточно минимальной модификации, чтобы достичь state-of-the-art результатов на ряде стандартных бенчмарков. В целом, система представляет собой plug-and-play решение для монокулярного SLAM, обеспечивающее глобально согласованные траектории камеры и плотную 3D-реконструкцию при скорости 15 FPS.
👉 @bigdata_1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥1
✔️ Stanford и Google представили Marin — первую полностью открытую LLM, разработанную на JAX
Чем Marin выделяется среди других моделей:
— Открыто всё: не только веса, но и весь процесс обучения — код, датасеты, гиперпараметры, логи и эксперименты доступны на GitHub
— Обучение проходило на массиве из 12.7 триллионов токенов — модель обошла Llama 3.1 8B в 14 из 19 тестов
— Распространяется под лицензией Apache 2.0 — свободно используйте, модифицируйте и воспроизводите
— Используются Levanter + JAX, обеспечивающие bit‑точную воспроизводимость и масштабируемость на TPU/GPU
Проект задуман как открытая исследовательская лаборатория: каждый эксперимент фиксируется через pull request, логируется в Weights & Biases, обсуждается в issue и сохраняется в репозитории — даже неудачи документируются ради прозрачности.
Доступны две версии модели:
- Marin‑8B‑Base — мощная базовая модель, опережающая Llama 3.1 8B
- Marin‑8B‑Instruct — дообучена с помощью SFT, превосходит OLMo 2 и немного уступает Llama 3.1 Tulu
Это не просто открытый доступ к весам — новый научный стандарт в эпоху масштабных языковых моделей.
📌 JAX — научный фреймворк от Google для численных и ML-вычислений
📌 TPU — специализированные процессоры от Google для ускорения задач машинного обучения
➡️ Github: https://github.com/stanford-crfm/marin
➡️ Блог: https://developers.googleblog.com/en/stanfords-marin-foundation-model-first-fully-open-model-developed-using-jax/
➡️ Гайд: https://docs.jax.dev/en/latest/quickstart.html
👉 @bigdata_1
Чем Marin выделяется среди других моделей:
— Открыто всё: не только веса, но и весь процесс обучения — код, датасеты, гиперпараметры, логи и эксперименты доступны на GitHub
— Обучение проходило на массиве из 12.7 триллионов токенов — модель обошла Llama 3.1 8B в 14 из 19 тестов
— Распространяется под лицензией Apache 2.0 — свободно используйте, модифицируйте и воспроизводите
— Используются Levanter + JAX, обеспечивающие bit‑точную воспроизводимость и масштабируемость на TPU/GPU
Проект задуман как открытая исследовательская лаборатория: каждый эксперимент фиксируется через pull request, логируется в Weights & Biases, обсуждается в issue и сохраняется в репозитории — даже неудачи документируются ради прозрачности.
Доступны две версии модели:
- Marin‑8B‑Base — мощная базовая модель, опережающая Llama 3.1 8B
- Marin‑8B‑Instruct — дообучена с помощью SFT, превосходит OLMo 2 и немного уступает Llama 3.1 Tulu
Это не просто открытый доступ к весам — новый научный стандарт в эпоху масштабных языковых моделей.
📌 JAX — научный фреймворк от Google для численных и ML-вычислений
📌 TPU — специализированные процессоры от Google для ускорения задач машинного обучения
👉 @bigdata_1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1
CogView4-6B – свежая Text2Image
Модель генерации изображений, разработанный командой THUDM..
Архитектура модели 6B DIT и 9B TextEncoder Демка показывает очень высокое качество следования заданному промпту.
CogView4 поддерживает очень длинный контекст.
Генерирует изображения от 512 до 2048 пикселей.
➡️ Model: https://huggingface.co/THUDM/CogView4-6B
➡️ Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
➡️ Github: https://github.com/THUDM/CogView4
➡️ Paper: https://arxiv.org/abs/2403.05121
👉 @bigdata_1
Модель генерации изображений, разработанный командой THUDM..
Архитектура модели 6B DIT и 9B TextEncoder Демка показывает очень высокое качество следования заданному промпту.
CogView4 поддерживает очень длинный контекст.
Генерирует изображения от 512 до 2048 пикселей.
👉 @bigdata_1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Media is too big
VIEW IN TELEGRAM
PhysX-3D: Physical-Grounded 3D Asset Generation
3D-моделирование переходит из виртуального в физический мир. Существующие методы генерации 3D в основном сосредоточены на геометрии и текстурах, но игнорируют физически обоснованное моделирование. В результате, несмотря на быстрый прогресс в области генеративных 3D-моделей, синтезированные объекты часто лишены богатых и важных физических свойств, что ограничивает их применение в реальных задачах, таких как симуляции и embodied AI.
В качестве первого шага к решению этой проблемы мы предлагаем PhysX — сквозную парадигму генерации физически обоснованных 3D-объектов.
1. Чтобы преодолеть критический дефицит 3D-датасетов с физической аннотацией, мы представляем PhysXNet — первый датасет, систематически снабжённый физическими метками по пяти базовым измерениям: абсолютный масштаб, материал, аффордансы, кинематика и функциональное описание. Для этого мы разработали масштабируемый процесс аннотирования с участием человека, основанный на vision-language моделях, что позволяет эффективно создавать физически ориентированные объекты из исходных 3D-данных.
2. Кроме того, мы предлагаем PhysXGen — прямой фреймворк для генерации физически обоснованных 3D-объектов по изображениям, который внедряет физические знания в предобученное 3D-структурное пространство. В частности, PhysXGen использует двухветвевую архитектуру для явного моделирования скрытых связей между 3D-структурами и физическими свойствами, что позволяет получать 3D-объекты с правдоподобными физическими характеристиками при сохранении высокого качества геометрии.
Обширные эксперименты подтверждают превосходную производительность и высокую способность к обобщению предлагаемого подхода. Весь код, данные и модели будут опубликованы для поддержки будущих исследований в области генеративного физического ИИ.
➡️ Github: https://github.com/ziangcao0312/PhysX-3D
➡️ Paper: https://arxiv.org/pdf/2507.12465v1.pdf
➡️ Dataset: https://huggingface.co/datasets/Caoza/PhysX-3D
👉 @bigdata_1
3D-моделирование переходит из виртуального в физический мир. Существующие методы генерации 3D в основном сосредоточены на геометрии и текстурах, но игнорируют физически обоснованное моделирование. В результате, несмотря на быстрый прогресс в области генеративных 3D-моделей, синтезированные объекты часто лишены богатых и важных физических свойств, что ограничивает их применение в реальных задачах, таких как симуляции и embodied AI.
В качестве первого шага к решению этой проблемы мы предлагаем PhysX — сквозную парадигму генерации физически обоснованных 3D-объектов.
1. Чтобы преодолеть критический дефицит 3D-датасетов с физической аннотацией, мы представляем PhysXNet — первый датасет, систематически снабжённый физическими метками по пяти базовым измерениям: абсолютный масштаб, материал, аффордансы, кинематика и функциональное описание. Для этого мы разработали масштабируемый процесс аннотирования с участием человека, основанный на vision-language моделях, что позволяет эффективно создавать физически ориентированные объекты из исходных 3D-данных.
2. Кроме того, мы предлагаем PhysXGen — прямой фреймворк для генерации физически обоснованных 3D-объектов по изображениям, который внедряет физические знания в предобученное 3D-структурное пространство. В частности, PhysXGen использует двухветвевую архитектуру для явного моделирования скрытых связей между 3D-структурами и физическими свойствами, что позволяет получать 3D-объекты с правдоподобными физическими характеристиками при сохранении высокого качества геометрии.
Обширные эксперименты подтверждают превосходную производительность и высокую способность к обобщению предлагаемого подхода. Весь код, данные и модели будут опубликованы для поддержки будущих исследований в области генеративного физического ИИ.
👉 @bigdata_1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1👀1
Неформально про реком
Глитч нейросети — это база, а ивент AI VK & Pro в «оригинале» — повод собраться и узнать, как меняются рекомендательные системы.
27 августа VK проводит AI VK & Pro — закрытый митап про RecSys и ML. Где соберутся крутые ML-инженеры, исследователи и разработчики.
В программе доклады от ML-лидов VK. Поговорим про Discovery Platform, продовые трансформеры и мультимодальные модели.
Приходите задать вопросы, поделиться опытом и поглитчевать среди своих в неформальной обстановке. А после — афтепати: винил, сигары, вино и покер.
📍 Москва, только офлайн
📅 27 августа, сбор с 18:00
🎟 Вход по регистрации
Глитч нейросети — это база, а ивент AI VK & Pro в «оригинале» — повод собраться и узнать, как меняются рекомендательные системы.
27 августа VK проводит AI VK & Pro — закрытый митап про RecSys и ML. Где соберутся крутые ML-инженеры, исследователи и разработчики.
В программе доклады от ML-лидов VK. Поговорим про Discovery Platform, продовые трансформеры и мультимодальные модели.
Приходите задать вопросы, поделиться опытом и поглитчевать среди своих в неформальной обстановке. А после — афтепати: винил, сигары, вино и покер.
📍 Москва, только офлайн
📅 27 августа, сбор с 18:00
🎟 Вход по регистрации
LaneSegNet: Map Learning with Lane Segment Perception for Autonomous Driving
➡️ Github: https://github.com/OpenDriveLab/LaneSegNet
➡️ Paper: https://arxiv.org/abs/2312.16108v1
👉 @bigdata_1
👉 @bigdata_1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Обзор математики для начинающего ML-инженера
Доступное объяснение основных аспектов высшей математики, которые потребуются ML‑щику разного грейда в рабочих сценариях — без дотошных доказательств и с обилием визуальных и численных примеров.
Этот текст содержит доступное объяснение основных частей высшей математики, которые могут потребоваться ML‑щику разного грейда в рабочих сценариях — без дотошных доказательств и с обилием визуальных и численных примеров.
В статье я постараюсь с примерами, пытаясь все же соблюдать небольшую формальность, разложить по полочкам ключевые моменты из высшей математики, которые точно понадобятся при изучении и впитывании машинного обучения в 2025.
https://habr.com/ru/articles/942114/
👉 @bigdata_1
Доступное объяснение основных аспектов высшей математики, которые потребуются ML‑щику разного грейда в рабочих сценариях — без дотошных доказательств и с обилием визуальных и численных примеров.
Этот текст содержит доступное объяснение основных частей высшей математики, которые могут потребоваться ML‑щику разного грейда в рабочих сценариях — без дотошных доказательств и с обилием визуальных и численных примеров.
Предвосхищая возможные вопросы: я ставлю целью рассказать про минимальный набор знаний, с которым можно будет уже самостоятельно погружаться в более интересные и прикладные сценарии. Я не планирую рассмотрение в этих постах более упоротных разделов и деталей — с такой глубиной можно не на один год увязнуть при знакомстве с математикой для ML
В статье я постараюсь с примерами, пытаясь все же соблюдать небольшую формальность, разложить по полочкам ключевые моменты из высшей математики, которые точно понадобятся при изучении и впитывании машинного обучения в 2025.
https://habr.com/ru/articles/942114/
👉 @bigdata_1
👍5❤1
This media is not supported in your browser
VIEW IN TELEGRAM
📌 Awesome Artificial Intelligence — это огромная подборка ресурсов по искусственному интеллекту.
В репозитории собраны статьи, курсы, книги, инструменты и библиотеки, охватывающие различные направления AI: машинное обучение, глубокое обучение, обработка естественного языка, компьютерное зрение и многое другое.
Этот список будет полезен тем, кто хочет системно изучать ИИ или просто расширить свой набор инструментов. Отличный вариант для закладок, если вы занимаетесь исследованием или разработкой в сфере AI.
https://github.com/owainlewis/awesome-artificial-intelligence
👉 @bigdata_1
В репозитории собраны статьи, курсы, книги, инструменты и библиотеки, охватывающие различные направления AI: машинное обучение, глубокое обучение, обработка естественного языка, компьютерное зрение и многое другое.
Этот список будет полезен тем, кто хочет системно изучать ИИ или просто расширить свой набор инструментов. Отличный вариант для закладок, если вы занимаетесь исследованием или разработкой в сфере AI.
https://github.com/owainlewis/awesome-artificial-intelligence
👉 @bigdata_1
👍2👏2
Media is too big
VIEW IN TELEGRAM
Сервисы вынуждены адаптироваться к изменениям в российском законодательстве, которые касаются обработки персональных данных и сбора согласий на рекламные рассылки. Постоянные изменения создают трудности для бизнеса - штрафы за нарушения увеличиваются, и каждая ошибка может иметь серьезные последствия.
На IT- конференции ГИД 4.0 эсперты обсудили новые требования, методы их соблюдения и способы сохранения репутации как сервисов, так и их партнеров.
Подробности на канале ГИДа
На IT- конференции ГИД 4.0 эсперты обсудили новые требования, методы их соблюдения и способы сохранения репутации как сервисов, так и их партнеров.
Подробности на канале ГИДа
🛠 В блоге Anthropic вышел разбор того, как они создают инструменты для агентов, которые помогают улучшать процесс написания текста.
В статье описываются подходы к построению таких тулов, их интеграция в пайплайн, а также примеры использования для редактирования, анализа и структурирования текста. Фактически это набор "помощников", которые делают агента более продуктивным и гибким при работе с длинными документами.
https://www.anthropic.com/engineering/writing-tools-for-agents
👉 @bigdata_1
В статье описываются подходы к построению таких тулов, их интеграция в пайплайн, а также примеры использования для редактирования, анализа и структурирования текста. Фактически это набор "помощников", которые делают агента более продуктивным и гибким при работе с длинными документами.
https://www.anthropic.com/engineering/writing-tools-for-agents
👉 @bigdata_1
👍1
Media is too big
VIEW IN TELEGRAM
Проект Paper2Agent — это инструмент, который превращает научные статьи в работающие AI-агенты. Он использует LLM для анализа PDF-документов и автоматически извлекает оттуда алгоритмы, описания и эксперименты, превращая их в исполняемый код.
Идея в том, чтобы сократить разрыв между теорией и практикой: вместо того чтобы вручную вникать в детали статьи и переписывать код, Paper2Agent позволяет быстро получить прототип агента, основанный на описанном методе.
Поддерживаются:
- Разбор PDF статей с извлечением ключевых компонентов
- Автоматическая генерация кода для AI-агентов
- Возможность тестирования и доработки полученного результата
Полезно для исследователей, инженеров и разработчиков, которые хотят быстрее экспериментировать с новыми идеями из научных публикаций.
https://github.com/jmiao24/Paper2Agent
👉 @bigdata_1
Идея в том, чтобы сократить разрыв между теорией и практикой: вместо того чтобы вручную вникать в детали статьи и переписывать код, Paper2Agent позволяет быстро получить прототип агента, основанный на описанном методе.
Поддерживаются:
- Разбор PDF статей с извлечением ключевых компонентов
- Автоматическая генерация кода для AI-агентов
- Возможность тестирования и доработки полученного результата
Полезно для исследователей, инженеров и разработчиков, которые хотят быстрее экспериментировать с новыми идеями из научных публикаций.
https://github.com/jmiao24/Paper2Agent
👉 @bigdata_1
😨3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
VK проводит Weekend Offer для бэкенд-разработчиков и ML-инженеров. Это отличная возможность получить офер за 2 дня и не проходить много этапов.
Ищут бэкендеров со знанием Java, Go, Python или C++.
И MLщиков, с навыками в Classic ML, RecSys, NLP/LLM, CV, Speech.
Важный момент: ищут коллег с опытом коммерческой разработки от трех лет.
Совпадает? Тогда у вас есть все шансы получить приглашение на работу за 2 дня: технические собеседования 4 октября, а финалы, знакомство с командами и офер 5 октября.
Отправляйте заявку до 2 октября и станьте частью VK! Подробнее — на сайте.
Реклама: ООО «ВК» ИНН 7743001840
Ищут бэкендеров со знанием Java, Go, Python или C++.
И MLщиков, с навыками в Classic ML, RecSys, NLP/LLM, CV, Speech.
Важный момент: ищут коллег с опытом коммерческой разработки от трех лет.
Совпадает? Тогда у вас есть все шансы получить приглашение на работу за 2 дня: технические собеседования 4 октября, а финалы, знакомство с командами и офер 5 октября.
Отправляйте заявку до 2 октября и станьте частью VK! Подробнее — на сайте.
Реклама: ООО «ВК» ИНН 7743001840
DeepSeek снова удивили — они выпустили новую OCR-модель, но это не просто распознавалка текста. Это фактически система оптического сжатия контекста.
Как это работает
Классический OCR просто: получил картинку или PDF → распознал символы → выдал текст.
DeepSeek OCR идёт дальше: получает документ → сжимает его как визуальный объект → восстанавливает смысл уже в текстовой форме.
Архитектура
Модель состоит из двух частей — DeepEncoder и DeepSeek-3B-MoE Decoder, где главный герой — именно DeepEncoder.
Он превращает изображение в набор vision-токенов, эффективно сжимая его.
Под капотом — SAM + CLIP:
- SAM извлекает структуру документа — текст, заголовки, формулы, подписи, иллюстрации.
- CLIP добавляет семантическое понимание: *о чём* документ в целом.
Далее идёт сверточное сжатие, которое уменьшает количество токенов в 10–20 раз, почти без потери смысла.
- Сжатие ×10 → точность ~97%
- Сжатие ×20 → точность ~60%
После этого визуальные токены идут в LLM-декодер, который восстанавливает итоговый текст.
DeepSeek фактически нашли способ хранить в 10 раз больше контекста при том же лимите токенов.
Теперь модель может держать не «сырой текст», а его компактное визуальное представление.
Например, вместо 10 страниц текста в памяти — 1 страница эмбеддингов, но смысл сохраняется.
Это может стать альтернативой RAG, ведь модель работает с текстами, таблицами, чертежами, формулами и изображениями — полная мультимодальность.
При этом на одной A100 GPU она обрабатывает 200 000+ страниц в день.
На OmniDocBench DeepSeek OCR обходит GOT-OCR2.0, используя в 2.5 раза меньше токенов,
и превосходит MinerU2.0, расходуя в 9 раз меньше ресурсов.
То есть это новый SOTA по точности и эффективности.
Всё доступно в опенсорсе под лицензией MIT: https://github.com/deepseek-ai/DeepSeek-OCR
👉 @bigdata_1
Как это работает
Классический OCR просто: получил картинку или PDF → распознал символы → выдал текст.
DeepSeek OCR идёт дальше: получает документ → сжимает его как визуальный объект → восстанавливает смысл уже в текстовой форме.
Архитектура
Модель состоит из двух частей — DeepEncoder и DeepSeek-3B-MoE Decoder, где главный герой — именно DeepEncoder.
Он превращает изображение в набор vision-токенов, эффективно сжимая его.
Под капотом — SAM + CLIP:
- SAM извлекает структуру документа — текст, заголовки, формулы, подписи, иллюстрации.
- CLIP добавляет семантическое понимание: *о чём* документ в целом.
Далее идёт сверточное сжатие, которое уменьшает количество токенов в 10–20 раз, почти без потери смысла.
- Сжатие ×10 → точность ~97%
- Сжатие ×20 → точность ~60%
После этого визуальные токены идут в LLM-декодер, который восстанавливает итоговый текст.
DeepSeek фактически нашли способ хранить в 10 раз больше контекста при том же лимите токенов.
Теперь модель может держать не «сырой текст», а его компактное визуальное представление.
Например, вместо 10 страниц текста в памяти — 1 страница эмбеддингов, но смысл сохраняется.
Это может стать альтернативой RAG, ведь модель работает с текстами, таблицами, чертежами, формулами и изображениями — полная мультимодальность.
При этом на одной A100 GPU она обрабатывает 200 000+ страниц в день.
На OmniDocBench DeepSeek OCR обходит GOT-OCR2.0, используя в 2.5 раза меньше токенов,
и превосходит MinerU2.0, расходуя в 9 раз меньше ресурсов.
То есть это новый SOTA по точности и эффективности.
Всё доступно в опенсорсе под лицензией MIT: https://github.com/deepseek-ai/DeepSeek-OCR
👉 @bigdata_1
👍3