LLM как Inference Engine. Часть 2 Ограничения пропускной спо — @silent_ai_cto

822просмотров

16 февраля 2026 г.

📷 ФотоScore: 904

LLM как Inference Engine. Часть 2 Ограничения пропускной способности Любая система инференса ограничена количеством запросов и объёмом обрабатываемого текста за единицу времени и характеризуется параметрами: RPM (Requests per Time Unit) — лимит на число обращений. TPM (Tokens per Time Unit) — ограничение на суммарный объём входного и выходного текста. Эти ограничения вынуждают осознанно проектировать количество reasoning-шагов, инструментальных вызовов и параллельных агентов. Наивное масштабирование приводит не к росту эффективности, а к лавинообразному росту задержек и стоимости. Задержки и производительность Инференс всегда представляет собой компромисс между скоростью отклика и общей производительностью системы. Этот баланс описывается набором взаимосвязанных метрик: Time To First Token (TTFT) — время до появления первого сгенерированного токена. Определяет субъективное ощущение «живости» агента и критично для интерактивных сценариев. Time Per Output Token (TPOT) — время, затрачиваемое на генерацию каждого последующего токена после первого. Является ключевым показателем эффективности генерации и масштабируемости инференса. Throughput — пропускная способность системы, измеряемая в количестве генерируемых токенов за единицу времени. Оптимизация любой из этих метрик почти неизбежно приводит к деградации других. В результате не существует универсальных настроек инференса: параметры, оптимальные для real-time взаимодействия, будут неэффективны для фоновых или массовых агентных задач, и наоборот. Зоопарк протоколов На раннем этапе развития индустрии существовало ожидание, что взаимодействие с LLM со временем будет стандартизировано. На практике этого не произошло. Напротив, каждый крупный вендор продвигает собственный протокол и контракт API, что существенно усложняет смену модели или провайдера. OpenAI Протокол OpenAI стал базовым для индустрии. Его поддерживают почти все open-source фреймворки (vLLM, Ollama) и совместимые API (Groq, Mistral, DeepSeek), его особенность это плоский список сообщений messages и гибкост: { "model": "gpt-5.2", "messages": [ { "role": "system", "content": "Ты помощник по анализу данных." }, { "role": "user", "content": "Проанализируй этот отчет." } ], } Anthropic Anthropic использует более жёсткую модель взаимодействия: строгую очередность ролей (например, невозможность отправки двух сообщений user подряд), собственные HTTP-заголовки для Prompt Caching и отличную от OpenAI модель работы с инструментами { "model": "claude-opus-4-6", "system": "Ты помощник по анализу данных.", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "Вот огромный контекст книги..." } ] } ] } Google Gemini Самый "непохожий" протокол. Google использует структуру, унаследованную от PaLM и Vertex AI. Основные отличия - вложенность parts. Текст никогда не лежит просто строкой, он всегда внутри массива parts. Это сделано для нативной мультимодальности (текст, видео, файлы в одном массиве). { "contents": [ { "role": "user", "parts": [ { "text": "Проанализируй этот отчет" } ] } ], "systemInstruction": { "parts": [ { "text": "Ты помощник." } ] } } Архитектурное решение: LLM Gateway Вместо того чтобы не перегружать бизнес-логики агента особенностью работой с LLM , современная инженерия вводит промежуточный слой — LLM Gateway. Это middleware, который берет на себя всю «грязную работу» по взаимодействию с моделями. Gateway решает три критические задачи: Унификация: Агент отправляет запросы в едином стандарте. Шлюз сам адаптирует их под спецификации разных моделей, устраняя привязку к вендору. Надежность: Если основной провайдер недоступен, шлюз незаметно переключает запрос на резервную модель (Fallback) или повторяет его с задержкой (Retry). Экономика: Маршрутизирует простые задачи на быстрые и дешевые модели, слож

Другие посты @silent_ai_cto