[PYTHON:TODAY]@python2day P.7399

😱

HunyuanOCR — это не обычный OCR, который путает буквы и плачет от плохого качества.

Распознаёт текст на фото, сканах и даже кривых телефонных снимках с точностью, что ставит Google Vision в неловкое положение.

Что умеет:

📸

Считывает текст на любых изображениях — документы, фото, меню, вывески, рукописные заметки.

🧠

Мощная модель от Tencent — понимает структуру, расположение блоков, выделяет зоны текста.

🌚

Работает даже на плохих фото — шум, тени, наклон, бликующий экран — распознаёт всё.

😰

Есть Python-интерфейс — можно встроить в бота, сервис или свою автоматизацию.

🗂

Разбирает сложные макеты — таблицы, колонки, многостраничные файлы.

🆓

Полностью бесплатно и open-source.

Где будет полезно:
🟢делай сервис распознавания чеков и документов;
🟢автоматизируй ввод данных для бизнеса;
🟢продавай обработку сканов на фрилансе;
🟢собирай «умного» Telegram-бота для OCR;
🟢создавай SaaS под маркетплейсы и бухгалтерию.

Пример использования:

from vllm import LLM, SamplingParams
from PIL import Image
from transformers import AutoProcessor

def clean_repeated_substrings(text):
    """Clean repeated substrings in text"""
    n = len(text)
    if n<8000:
        return text
    for length in range(2, n // 10 + 1):
        candidate = text[-length:] 
        count = 0
        i = n - length
        
        while i >= 0 and text[i:i + length] == candidate:
            count += 1
            i -= length

        if count >= 10:
            return text[:n - length * (count - 1)]  

    return text

model_path = "tencent/HunyuanOCR"
llm = LLM(model=model_path, trust_remote_code=True)
processor = AutoProcessor.from_pretrained(model_path)
sampling_params = SamplingParams(temperature=0, max_tokens=16384)

img_path = "/path/to/image.jpg"
img = Image.open(img_path)
messages = [
    {"role": "system", "content": ""},
    {"role": "user", "content": [
        {"type": "image", "image": img_path},
        {"type": "text", "text": "检测并识别图片中的文字，将文本坐标格式化输出。"}
    ]}
]
prompt = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = {"prompt": prompt, "multi_modal_data": {"image": [img]}}
output = llm.generate([inputs], sampling_params)[0]
print(clean_repeated_substrings(output.outputs[0].text))

♎️

GitHub/Инструкция

#python #soft #github

Please open Telegram to view this post

VIEW IN TELEGRAM

👍44🔥30❤3

www.tgoop.com/python2day/7399

12.7K viewsNov 27 at 15:42

tgoop.com/python2day/7399

Create: 2025-11-27
Last Update: 2025-12-12 22:55:06

😱 HunyuanOCR — это не обычный OCR, который путает буквы и плачет от плохого качества.

Распознаёт текст на фото, сканах и даже кривых телефонных снимках с точностью, что ставит Google Vision в неловкое положение.

Что умеет:
📸 Считывает текст на любых изображениях — документы, фото, меню, вывески, рукописные заметки.
🧠 Мощная модель от Tencent — понимает структуру, расположение блоков, выделяет зоны текста.
🌚 Работает даже на плохих фото — шум, тени, наклон, бликующий экран — распознаёт всё.
😰 Есть Python-интерфейс — можно встроить в бота, сервис или свою автоматизацию.
🗂 Разбирает сложные макеты — таблицы, колонки, многостраничные файлы.
🆓 Полностью бесплатно и open-source.

Где будет полезно:
🟢делай сервис распознавания чеков и документов;
🟢автоматизируй ввод данных для бизнеса;
🟢продавай обработку сканов на фрилансе;
🟢собирай «умного» Telegram-бота для OCR;
🟢создавай SaaS под маркетплейсы и бухгалтерию.

Пример использования:

from vllm import LLM, SamplingParams
from PIL import Image
from transformers import AutoProcessor

def clean_repeated_substrings(text):
    """Clean repeated substrings in text"""
    n = len(text)
    if n<8000:
        return text
    for length in range(2, n // 10 + 1):
        candidate = text[-length:] 
        count = 0
        i = n - length
        
        while i >= 0 and text[i:i + length] == candidate:
            count += 1
            i -= length

        if count >= 10:
            return text[:n - length * (count - 1)]  

    return text

model_path = "tencent/HunyuanOCR"
llm = LLM(model=model_path, trust_remote_code=True)
processor = AutoProcessor.from_pretrained(model_path)
sampling_params = SamplingParams(temperature=0, max_tokens=16384)

img_path = "/path/to/image.jpg"
img = Image.open(img_path)
messages = [
    {"role": "system", "content": ""},
    {"role": "user", "content": [
        {"type": "image", "image": img_path},
        {"type": "text", "text": "检测并识别图片中的文字，将文本坐标格式化输出。"}
    ]}
]
prompt = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = {"prompt": prompt, "multi_modal_data": {"image": [img]}}
output = llm.generate([inputs], sampling_params)[0]
print(clean_repeated_substrings(output.outputs[0].text))

♎️

GitHub/Инструкция

#python #soft #github

Telegram News

😱 HunyuanOCR — это не обычный OCR