«Сделай документ из скана» Распознавание сканов – весьма сло — @daniladrapeza

377просмотров

98.4%от подписчиков

27 января 2026 г.

Score: 415

«Сделай документ из скана» Распознавание сканов – весьма сложная задача для ИИ. Тут одновременно крутятся три истории: 1. распознать текст (OCR); 2. восстановить структуру документа: таблицы, колонки, подписи, печати, логотипы; 3. сопоставить блоки между собой: где сумма, где НДС, где реквизиты контрагента и тд. Поэтому задержки и «подвисания» для универсальных ИИ-инструментов, которые пытаются сделать всё сразу внутри одной модели – типичная картинка. На более‑менее типовых документах (счета, акты, анкеты) до сих пор лучше всего чувствуют себя специализированные OCR/IDP‑сервисы. Они годами оттачивают свои навыки. Проблемы у них начинаются там, где: • качество сканов плавает; • нужно не просто вытащить цифры, а понять контекст и сделать выводы. Современные мультимодальные LLM (GPT‑4о‑класс и его коллеги) догнали и местами перегнали классический OCR на сложных документах: • переменный или кривой макет, • фотки вместо сканов, • куски текста вперемешку с таблицами – тут контекст и «понимание картинки» очень помогают; • для задач подобных: «сравни два договора», «найди расхождения между счетом и спецификацией» Я бы рекомендовал разделить обязанности между системами: Шаг 1. Специализированный OCR/IDP аккуратно вытаскивает текст и базовую структуру: блоки, таблицы, поля. Шаг 2. Дальше уже включается Comet или другая LLM и делает то, что она действительно умеет: • проверяет логику сумм и реквизитов; • сравнивает несколько документов; • ищет противоречия и «подозрительные» места; • отвечает на конкретные вопросы по содержанию. В такой схеме: • модель меньше тратит ресурса на «выковыривание букв из пикселей»; • система ведет себя стабильнее по времени и качеству; • вы можете отдельно улучшать OCR‑часть и отдельно — аналитику.

Другие посты @daniladrapeza