880просмотров
13 февраля 2026 г.
📷 ФотоScore: 968
LLM как Inference Engine. Часть 1 В архитектуре агента Большая Языковая Модель (LLM) выполняет когнитивную функцию, в отличие от классического кода, этот компонент стохастичен (вероятностен), ресурсоемок и является главным «узким горлышком» системы по скорости и стоимости. Рассмотрим LLM как Inference Engine для агентной системы. Стратегия развертывания Существует три основных подхода к развертыванию языковой модели - это баланс между тремя: Приватность, Сложность и Стоимость. SaaS (Model-as-a-Service) - это использование API гигантов (Gemini, Claude, OpenAI), мы получаем SOTA-качество (State-of-the-Art) и нулевые затраты на поддержку инфраструктуры, однако это предполагает передачу данных третьей стороне, а также зависимость от внешних лимитов, политик и SLA провайдера. Local / Self-hosted - подход предоставляет полный контроль над данными, контроль над инфраструктурой и высокий уровень приватности. При этом он является наиболее дорогостоящим вариантом из-за высоких требований к GPU-ресурсам, сложности масштабирования и значительных операционных затрат. Private Cloud занимает промежуточное положение: он снижает стоимость и сложность поддержки по сравнению с локальными решениями, так как инфраструктурой управляет провайдер, но требует частичной передачи ответственности, ведь данные защищены только юридическим контуром (Virtual Private Cloud). Инференс Инференс языковых моделей — это вызов LLM с ограниченным и измеримым ресурсом. Независимо от того, где исполняется модель, агентная система сталкивается с одними и теми же фундаментальными ограничениями: вычислительными, временными и архитектурными. Эти ограничения напрямую определяют форму агента, глубину его рассуждений и пределы масштабирования. Локальный инференс Когда мы решаем запустить агента локально, мы сталкиваемся с ограничениями видеопамяти (VRAM), память GPU — это не бесконечный ресурс, а коммунальная квартира, где живут два соседа: Веса модели: Статическая часть, которая загружается один раз и занимает место постоянно. Например, для модели Qwen 30B (30 млрд параметров) на карте A100 (80 Гб) веса займут около 54 Гб. * KV-Cache (Контекст): Динамическая часть. Оставшееся пространство — это оперативная память для агента. В нашем примере свободных остается всего ~26 Гб. Именно в этом пространстве живет контекст всех активных диалогов Современные движки (vLLM, SGLang) не отдают всю свободную память одному пользователю. Память «нарезается» на слоты (блоки/каретки) используя механизм Paging (страничная память). Если заявлено окно в 110k токенов, это не значит, что один запрос гарантированно получит этот объем. Это общий пул.
Если агентская сессия «весит» 10k токенов, вы можете запустить параллельно несколько потоков.
Как только суммарный объем запросов превышает доступный объем «нарезанного» кэша, новые запросы встают в очередь, даже если вычислительное ядро GPU не загружено на 100% . #AgentEngineering О чем молчит AI CTO