BIGDATA_1 Telegram 1012
DeepSeek снова удивили — они выпустили новую OCR-модель, но это не просто распознавалка текста. Это фактически система оптического сжатия контекста.

Как это работает

Классический OCR просто: получил картинку или PDF → распознал символы → выдал текст.
DeepSeek OCR идёт дальше: получает документ → сжимает его как визуальный объект → восстанавливает смысл уже в текстовой форме.

Архитектура

Модель состоит из двух частей — DeepEncoder и DeepSeek-3B-MoE Decoder, где главный герой — именно DeepEncoder.
Он превращает изображение в набор vision-токенов, эффективно сжимая его.

Под капотом — SAM + CLIP:

- SAM извлекает структуру документа — текст, заголовки, формулы, подписи, иллюстрации.
- CLIP добавляет семантическое понимание: *о чём* документ в целом.

Далее идёт сверточное сжатие, которое уменьшает количество токенов в 10–20 раз, почти без потери смысла.

- Сжатие ×10 → точность ~97%
- Сжатие ×20 → точность ~60%

После этого визуальные токены идут в LLM-декодер, который восстанавливает итоговый текст.


DeepSeek фактически нашли способ хранить в 10 раз больше контекста при том же лимите токенов.
Теперь модель может держать не «сырой текст», а его компактное визуальное представление.
Например, вместо 10 страниц текста в памяти — 1 страница эмбеддингов, но смысл сохраняется.

Это может стать альтернативой RAG, ведь модель работает с текстами, таблицами, чертежами, формулами и изображениями — полная мультимодальность.
При этом на одной A100 GPU она обрабатывает 200 000+ страниц в день.


На OmniDocBench DeepSeek OCR обходит GOT-OCR2.0, используя в 2.5 раза меньше токенов,
и превосходит MinerU2.0, расходуя в 9 раз меньше ресурсов.
То есть это новый SOTA по точности и эффективности.

Всё доступно в опенсорсе под лицензией MIT: https://github.com/deepseek-ai/DeepSeek-OCR

👉 @bigdata_1
👍3



tgoop.com/bigdata_1/1012
Create:
Last Update:

DeepSeek снова удивили — они выпустили новую OCR-модель, но это не просто распознавалка текста. Это фактически система оптического сжатия контекста.

Как это работает

Классический OCR просто: получил картинку или PDF → распознал символы → выдал текст.
DeepSeek OCR идёт дальше: получает документ → сжимает его как визуальный объект → восстанавливает смысл уже в текстовой форме.

Архитектура

Модель состоит из двух частей — DeepEncoder и DeepSeek-3B-MoE Decoder, где главный герой — именно DeepEncoder.
Он превращает изображение в набор vision-токенов, эффективно сжимая его.

Под капотом — SAM + CLIP:

- SAM извлекает структуру документа — текст, заголовки, формулы, подписи, иллюстрации.
- CLIP добавляет семантическое понимание: *о чём* документ в целом.

Далее идёт сверточное сжатие, которое уменьшает количество токенов в 10–20 раз, почти без потери смысла.

- Сжатие ×10 → точность ~97%
- Сжатие ×20 → точность ~60%

После этого визуальные токены идут в LLM-декодер, который восстанавливает итоговый текст.


DeepSeek фактически нашли способ хранить в 10 раз больше контекста при том же лимите токенов.
Теперь модель может держать не «сырой текст», а его компактное визуальное представление.
Например, вместо 10 страниц текста в памяти — 1 страница эмбеддингов, но смысл сохраняется.

Это может стать альтернативой RAG, ведь модель работает с текстами, таблицами, чертежами, формулами и изображениями — полная мультимодальность.
При этом на одной A100 GPU она обрабатывает 200 000+ страниц в день.


На OmniDocBench DeepSeek OCR обходит GOT-OCR2.0, используя в 2.5 раза меньше токенов,
и превосходит MinerU2.0, расходуя в 9 раз меньше ресурсов.
То есть это новый SOTA по точности и эффективности.

Всё доступно в опенсорсе под лицензией MIT: https://github.com/deepseek-ai/DeepSeek-OCR

👉 @bigdata_1

BY BigData






Share with your friend now:
tgoop.com/bigdata_1/1012

View MORE
Open in Telegram


Telegram News

Date: |

During the meeting with TSE Minister Edson Fachin, Perekopsky also mentioned the TSE channel on the platform as one of the firm's key success stories. Launched as part of the company's commitments to tackle the spread of fake news in Brazil, the verified channel has attracted more than 184,000 members in less than a month. ‘Ban’ on Telegram Click “Save” ; How to create a business channel on Telegram? (Tutorial) Ng, who had pleaded not guilty to all charges, had been detained for more than 20 months. His channel was said to have contained around 120 messages and photos that incited others to vandalise pro-government shops and commit criminal damage targeting police stations.
from us


Telegram BigData
FROM American