345просмотров
8.5%от подписчиков
26 марта 2026 г.
📷 ФотоScore: 380
⚙️ Исследователи Центра ИИ Сколтеха представили работу "Обнаружение переполнения в сжатых представлениях токенов для генерации с расширенным поиском" (Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation, код доступен), принятую на EACL 2026. Среди авторов работы - аспиранты Юлия Беликова и Данила Рожевский, инженер по машинному обучению Денис Свирин, профессор, руководитель лаборатории обработки естественного языка Александр Панченко (исследование проведено при поддержке AIRI). ◾️ В Retrieval-Augmented Generation (RAG) модели работают с длинными контекстами, которые необходимо сжимать для эффективной обработки. Современные методы мягкого сжатия (soft compression) заменяют длинные последовательности токенов несколькими обучаемыми сжатыми векторами. Однако остаётся неисследованным вопрос: в какой момент сжатие начинает уничтожать информацию, релевантную для ответа на запрос? Авторы вводят понятие переполнения токена (token overflow) — режима, при котором сжатое представление больше не содержит достаточной информации для ответа на заданный вопрос. ➡️ Исследователи предложили методологию обнаружения переполнения, которая включает три уровня анализа: 1. Насыщение представлений (query-agnostic) — измерение статистик сжатых токенов (разреженность по Хойеру, спектральная энтропия, эксцесс). Эти метрики надёжно отделяют сжатые токены от обычных (различия до 87%), но не предсказывают переполнение. 2. Внимание модели (query-conditioned) — анализ того, как LLM использует сжатые токены при генерации ответа. Подход даёт умеренный сигнал, но требует полного прямого прохода через модель. 3. Обученные классификаторы (query-aware) — лёгкие модели, работающие на совместных представлениях запроса и контекста сразу после проекции, до подачи в LLM. 📤 На трёх датасетах (HotpotQA, SQuADv2, TriviaQA) метод показал:
— совместные представления запроса и контекста обнаруживают переполнение с качеством 0.72 AUC-ROC в среднем;
— детекция возможна сразу после проекции, до запуска LLM (pre-inference), что позволяет отсеивать проблемные примеры без дорогостоящего вызова модели;
— информация о запросе критична: контекст без запроса даёт существенно худшие результаты. «В системах Retrieval-Augmented Generation ключевая проблема состоит не только в том, как сжать длинный контекст, но и в том, как понять, в какой момент сжатие начинает уничтожать информацию, необходимую для ответа. В нашей работе мы предлагаем способ обнаруживать этот порог заранее — ещё до запуска большой языковой модели. Это позволяет не просто экономить вычислительные ресурсы, но и делать RAG-системы заметно более надёжными: модель получает только тот контекст, который действительно сохраняет смысл и способен поддержать корректный ответ», - объясняет Александр Панченко. Почему это важно?
◾️ Позволяет динамически адаптировать сжатие под сложность контента, а не использовать фиксированную длину.
◾️ Даёт возможность отбрасывать заведомо переполненные представления до генерации, экономя вычислительные ресурсы.
◾️ Предлагает инструмент для анализа границ сжимаемости в мягких компрессорах. 👀 Канал Центра ИИ ВКонтакте