463просмотров
66.5%от подписчиков
11 августа 2025 г.
Score: 509
Так получилось, что я регулярно отсматриваю новые модели искусственного интеллекта, которые появляются в открытом доступе. Делаю это из любопытства и потому, что лучшие решения забираю в свои проекты. Стараюсь агрегировать передовые достижения науки в реальные инструменты. Делюсь с вами кратким обзором, что происходит в мире открытых ML-моделей: — Постоянно появляются новые OCR-модели — чуть ли не каждую неделю. В отличие от больших LLM, специализированные OCR добавляют разметку, то есть кроме текста ещё и выдают, что где находится, распознают таблицы и сложные диаграммы, всячески пытаются не просто понять, о чём речь, а превратить изображение в полноценный Word-документ. Какого-то единого фаворита, который всех бьёт, пока не заметил, но границы «и вот это теперь можно» постоянно расширяются. — Активно выходят новые модели для озвучивания текста. В основном для английского и китайского, но и русский поддерживается довольно часто. Добавляются эмоции, точное клонирование любого голоса, кросс-лингвальное клонирование, когда человек на одном языке говорит, а озвучивается его голосом текст на другом языке. Причём почти все эти модели могут работать на обычных видеокартах уровня RTX 3080, это не какие-то заоблачные технологии. — Языковые модели уходят в специализацию. Универсальные решения оставили крупным игрокам вроде OpenAI или Anthropic, а среди открытых экспериментов регулярно выходит что-то, что лучше справляется с научными темами, с каким-то конкретным не очень популярным языком или работает даже на телефонах без интернета. — Генераторы картинок улетели в космос. Сейчас это уже не мультяшные поделки с шестью пальцами, которые были на старте, а прямо широкий выбор от гиперреализма и копирования лица до редактирования существующих картинок а-ля «фотошоп без фотошопа» и генерации интерфейсов. Художников не заменяет, потому что в этом зоопарке нужно разбираться и уметь управлять, но ускоряет работу в разы. — Генераторы видео появляются относительно редко. Такой тип моделей требует значительных вычислительных ресурсов, и делать их на коленке проблематично. А даже если делать, то как потом пользоваться без аренды сервера за несколько миллионов рублей в месяц, не очень понятно. Так что каких-то прорывов не наблюдаю. — Распознавание голоса борется за последнюю милю. Появление Whisper перевернуло сферу и дало старт куче новых проектов, но сделать шаг дальше от пресловутых «97% точности» до решения задачи под ключ и без компромиссов пока никто не смог. Но многие пытаются, в том числе я с партнёрами в «Войси», и с некоторым успехом, я вам скажу. Для русского языка мы существенно продвинулись вперёд. Периодически случаются отдельные выбросы вроде моделей для распознавания экрана, чтобы потом отдавать это в другие модели, которые бы управляли компьютером «как человек» с помощью кликов мышкой, или управления роботами по схеме «всё включено», чтобы не собирать комбайн из десятка моделей, а взять одну готовую. Это любопытно, но трендов пока не случается. Про более узкие сферы вроде RAG в этом посте рассказывать не буду, но если вам интересно — напишите, отвечу либо в комментариях, либо соберу ещё один пост.