Модель параметров 3B с открытым исходным кодом лучше, чем Mistral OCR=news.ycombinator.com=

Модель параметров 3B с открытым исходным кодом лучше, чем Mistral OCR ( huggingface.co )

PixelPanda 24 минуты назад | [–]
Полный отказ от ответственности: Я работаю в Nanonets

Рад поделиться Nanonets-OCR-s, мощной и легкой (3B) моделью VLM, которая преобразует документы в чистый, структурированный Markdown. Эта модель обучена понимать структуру документа и контекст содержимого (например, таблицы, уравнения, изображения, графики, водяные знаки, флажки и т. д.). Основные характеристики:

Распознавание формул LaTeX Преобразует встроенные и блочные математические формулы в правильно отформатированный LaTeX, различая $…$ и $$…$$.

Описания изображений для LLM Описывает встроенные изображения с использованием структурированных тегов . Обрабатывает логотипы, диаграммы, графики и т. д.

Обнаружение и изоляция подписей Находит и помечает подписи в отсканированных документах, выводя их в блоках .

Извлечение водяных знаков Извлекает текст водяного знака и сохраняет его в теге для отслеживания.

Интеллектуальная обработка флажков и радиокнопок Преобразует флажки в символы Unicode, такие как , и для надежного анализа в последующих приложениях.

Извлечение сложных таблиц Обрабатывает таблицы из нескольких строк/столбцов, сохраняя структуру и выводя данные в форматах Markdown и HTML.

Huggingface / GitHub / Попробуйте: https://huggingface.co/nanonets/Nanonets-OCR-s

Попробуйте с Docext в Colab: https://github.com/NanoNets/docext/blob/main/PDF2MD_README.m

raus22 5 минут назад | | [–]
При использовании подобных моделей, если не упомянута многоязычность, они будут работать очень плохо на реальных неанглоязычных PDF-файлах.
серебряных дел мастер 8 минут назад | [–]
Мне интересно, как обстоят дела с неанглийскими текстами? Насколько я понимаю, решения OCR на основе LLM сильно отстают от традиционных, как только вы вводите другие языки.


Рассмотрите возможность подачи заявки на набор в YC на осень 2025 года! Заявки принимаются до 4 августа

Source: news.ycombinator.com

Leave a Reply

Your email address will not be published. Required fields are marked *