A
AI VK Hub
@aihubvk2.2K подп.
2.0Kпросмотров
88.8%от подписчиков
24 марта 2026 г.
📷 ФотоScore: 2.2K
Compresr — каждый токен на счету Длинные агентные сессии в Claude Code и Cursor быстро упираются в контекстный лимит. История диалога, результаты тулов, прочитанные файлы — всё это забивает окно и ухудшает качество ответов. Стандартная компакция Anthropic решает проблему, но при срабатывании /compact пользователь вынужден ждать минуту‑две, пока модель суммаризирует историю. Compresr предлагает альтернативу — локальный прокси Context Gateway, который сжимает контекст заранее и делает компакцию мгновенной. Принцип работы Context Gateway развёртывается на машине пользователя и садится между агентом и LLM‑провайдером. Прокси отслеживает размер истории и при достижении порога запускает фоновую суммаризацию. К моменту, когда агенту нужна компакция, она уже готова. Кроме истории, gateway сжимает tool outputs и управляет tool discovery — вместо показа всех инструментов он выбирает подмножество, релевантное текущему запросу. Два уровня сжатия 🟣Token-level compression — алгоритмический выбор наиболее важных токенов с сохранением смысла, используется для системных промптов, RAG‑контекста и длинных документов 🟣Chunk-level filtering — удаление нерелевантных блоков целиком, применяется для предфильтрации результатов ретривера перед композицией промпта Три модели 🟣Espresso — agnostic compression, не требует query, используется для системных промптов и статической документации 🟣Latte — query-aware compression, требует явного запроса пользователя, применяется в RAG и Q&A сценариях 🟣Coldbrew — chunk-level filtering, отбирает релевантные чанки без изменения текста Характеристики Заявленный диапазон сжатия — от 2x до 100x в зависимости от избыточности контента. В публичном демо Compresr снижает задержку на 25% и экономит 20% токенов. На бенчмарке FinanceBench модель Latte при ~10x сжатии даёт точность 74.5% против 72.3% в бейзлайне. Способы поставки 🟣Context Gateway — CLI‑бинарь на Go 🟣SDK — библиотека на Python 🟣VS Code‑расширение — для сжатия CLAUDE.md файлов Compresr особенно интересен для длинных код‑сессий и RAG‑пайплайнов с большими документами — именно там, где стандартная компакция становится узким местом. Как тебе такое, Александр? «Compresr интересен тем, что он решает одну из самых актуальных проблем современных LLM-систем — управление контекстом. В большинстве агентных фреймворков контекст растёт почти бесконтрольно: история диалога, результаты инструментов, куски кода... В какой-то момент всё это начинает не только упираться в лимиты токенов, но и ухудшать качество ответов модели. Compresr предлагает довольно радикальное решение — вынести управление контекстом в отдельный инфраструктурный слой. Gateway фактически становится «операционной системой» для контекста: он решает, какие данные вообще попадут в окно модели. Особенно интересна идея chunk-level filtering. По сути, это дополнительный этап между retriever и prompt construction. В RAG-системах именно там часто появляется шум: ретривер возвращает слишком много слабосвязанных фрагментов, которые просто занимают место в контексте. С другой стороны, агрессивная компрессия — это всегда компромисс. Слабые сигналы, второстепенные детали и длинные логические цепочки могут теряться. Поэтому заявленные коэффициенты сжатия в десятки раз стоит воспринимать скорее как демонстрацию возможностей, чем как реальный production-режим. Но сама тенденция выглядит важной: по мере роста агентных систем всё больше оптимизаций происходит не внутри модели, а на уровне orchestration-слоя. И инструменты вроде Compresr — хороший пример того, как начинает формироваться новая инфраструктура вокруг LLM», — отметил Александр Тараканов, исследователь AI VK. Насколько, на ваш взгляд, жизнеспособен вынос управления контекстом в отдельный gateway — это новая норма или временный workaround? Готовы ли вы жертвовать частью информации ради latency и стоимости? И где сегодня основной bottleneck в RAG: retriever, prompt construction или уже сам контекст? Обсудим 👇 #aivk #compresr
2.0K
просмотров
3974
символов
Да
эмодзи
Да
медиа

Другие посты @aihubvk

Все посты канала →
Compresr — каждый токен на счету Длинные агентные сессии в C — @aihubvk | PostSniper