377просмотров
98.4%от подписчиков
27 января 2026 г.
Score: 415
«Сделай документ из скана» Распознавание сканов – весьма сложная задача для ИИ. Тут одновременно крутятся три истории:
1. распознать текст (OCR);
2. восстановить структуру документа: таблицы, колонки, подписи, печати, логотипы;
3. сопоставить блоки между собой: где сумма, где НДС, где реквизиты контрагента и тд. Поэтому задержки и «подвисания» для универсальных ИИ-инструментов, которые пытаются сделать всё сразу внутри одной модели – типичная картинка. На более‑менее типовых документах (счета, акты, анкеты) до сих пор лучше всего чувствуют себя специализированные OCR/IDP‑сервисы.
Они годами оттачивают свои навыки. Проблемы у них начинаются там, где:
• качество сканов плавает;
• нужно не просто вытащить цифры, а понять контекст и сделать выводы. Современные мультимодальные LLM (GPT‑4о‑класс и его коллеги) догнали и местами перегнали классический OCR на сложных документах:
• переменный или кривой макет, • фотки вместо сканов, • куски текста вперемешку с таблицами – тут контекст и «понимание картинки» очень помогают;
• для задач подобных: «сравни два договора», «найди расхождения между счетом и спецификацией» Я бы рекомендовал разделить обязанности между системами: Шаг 1. Специализированный OCR/IDP аккуратно вытаскивает текст и базовую структуру: блоки, таблицы, поля. Шаг 2. Дальше уже включается Comet или другая LLM и делает то, что она действительно умеет:
• проверяет логику сумм и реквизитов;
• сравнивает несколько документов;
• ищет противоречия и «подозрительные» места;
• отвечает на конкретные вопросы по содержанию. В такой схеме:
• модель меньше тратит ресурса на «выковыривание букв из пикселей»;
• система ведет себя стабильнее по времени и качеству;
• вы можете отдельно улучшать OCR‑часть и отдельно — аналитику.