455просмотров
21 октября 2025 г.
Score: 501
Наткнулся тут на видео, рассказывающее идею понижения размера контекста путем использования текстовых документов как изображений из статьи DeepSeek-OCR. Авторы DeepSeek-OCR говорят, что можно в >10 раз сжать размер контекста для трансформера, храня текстовый документ как изображение и используя визуальные трансформеры для его обработки, что приводит к меньшему количеству токенов, при этом не теряя в качестве (конечно же с использованием еще нескольких трюков и при определенной степени сжатия, но здесь мы опустим эти детали, их можно найти в статье). Первое про что я подумал, когда про это прочитал: "но ведь таким образом информация теряется, т.к. зачастую слова в тексте состоят из нескольки (иногда одного) токенов, а на одном патче изображения будет несколько слов, но весь патч будет одним токеном, мы более не сможем строить глобальные отношения между текстовыми токенами-сабсловами, мы по сути занимаемся сжатием бОльшего количества информации в один токен". Но, возможно, оно нам не всегда и надо (может нам достаточно кодировать словосочетания и строить отношения между ними в ряде задач)? В видео, как мне кажется, есть хороший пример про это, можно хранить последнюю (наиболее актуальную) информацию в виде текстовых токенов, а более "старые" куски текста превращать в патчи изображений, т.к. потенциально такая информация является менее актуальной (зависит, конечно, от задачи), тем самым сильно снижая общее количество токенов. Такой подход позволяет обрабатывать документы намного больших размеров без дополнительных, огромных затрат в вычислительных ресурсах. Не думаю, что данный подход является решением насущных проблем LLM, но, мне кажется, что он может вполне найти свое применение в определенных задачах и / или доменах. Видео: DeepSeek OCR - It's NOT about the OCR
Статья: DeepSeek-OCR: Contexts Optical Compression