2просмотров
0.8%от подписчиков
27 марта 2026 г.
Score: 2
Исследователи опубликовали AutoGaze метод избирательной обработки видео для мультимодальных языковых моделей Суть проблемы в том, что современные мультимодальные языковые модели (VLM/MLLM) при обработке видео гонят через ViT и LLM каждый пиксель каждого кадра. Человеческое зрение так не работает мы фокусируемся только на движущихся или значимых областях, игнорируя статичный фон. Это называется «gaze» (взгляд). VLM этого не умеют, отсюда колоссальные вычислительные затраты ViT Vision Transformer, визуальный энкодер. Это нейросеть, которая разбивает изображение на патчи (квадратные фрагменты) и превращает их в числовые векторы, понятные языковой модели AutoGaze это модуль, который встраивается перед ViT (до энкодера, не после). Он работает в два этапа: 1. Обучение через NTP (Next Token Prediction) + RL модель учится авторегрессивно отбирать минимальный набор патчей видео, который позволяет восстановить кадр с заданным порогом reconstruction loss 2. Многомасштабные патчи (32px, 64px, 112px, 224px) для статичных/неважных зон берётся низкое разрешение, для деталей и движений высокое Он дает сокращение токенов в 4-100x в зависимости от контента, FPS, разрешения и порога reconstruction loss. Масштабирование до 4K разрешения и 1000 кадров (без AutoGaze такие видео просто не помещаются в память) AutoGaze не просто обрезает токены после ViT (как делают Qwen2.5-VL, NVILA), а режет их до ViT. Это ключевое отличие ускоряется сам энкодер, а не только LLM Ссылки 🔗 https://arxiv.org/pdf/2603.12254
https://autogaze.github.io/
https://huggingface.co/collections/bfshi/autogaze Видео как это работает ниже в комментариях ⬇️