Модель параметров 3B с открытым исходным кодом лучше, чем Mistral OCR ( huggingface.co )
Полный отказ от ответственности: Я работаю в Nanonets
Рад поделиться Nanonets-OCR-s, мощной и легкой (3B) моделью VLM, которая преобразует документы в чистый, структурированный Markdown. Эта модель обучена понимать структуру документа и контекст содержимого (например, таблицы, уравнения, изображения, графики, водяные знаки, флажки и т. д.). Основные характеристики:
Распознавание формул LaTeX Преобразует встроенные и блочные математические формулы в правильно отформатированный LaTeX, различая $…$ и $$…$$.
Описания изображений для LLM Описывает встроенные изображения с использованием структурированных тегов . Обрабатывает логотипы, диаграммы, графики и т. д.
Обнаружение и изоляция подписей Находит и помечает подписи в отсканированных документах, выводя их в блоках
Извлечение водяных знаков Извлекает текст водяного знака и сохраняет его в теге
Интеллектуальная обработка флажков и радиокнопок Преобразует флажки в символы Unicode, такие как , и для надежного анализа в последующих приложениях.
Извлечение сложных таблиц Обрабатывает таблицы из нескольких строк/столбцов, сохраняя структуру и выводя данные в форматах Markdown и HTML.
Huggingface / GitHub / Попробуйте: https://huggingface.co/nanonets/Nanonets-OCR-s
Попробуйте с Docext в Colab: https://github.com/NanoNets/docext/blob/main/PDF2MD_README.m …
При использовании подобных моделей, если не упомянута многоязычность, они будут работать очень плохо на реальных неанглоязычных PDF-файлах.

Мне интересно, как обстоят дела с неанглийскими текстами? Насколько я понимаю, решения OCR на основе LLM сильно отстают от традиционных, как только вы вводите другие языки.
Source: news.ycombinator.com