44просмотров
4.5%от подписчиков
30 марта 2026 г.
Score: 48
Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM Кэширование включено, а cached_tokens всё равно не растут? Часто проблема не в модели и не в провайдере. Hit rate обычно режут совсем другие вещи: timestamp в начале запроса, плавающий порядок tools, разные реплики, RAG с нестабильным порядком чанков и слишком короткая жизнь KV-кэша. В статье разбираю 7 типовых анти-паттернов, которые убивают prefix_cache_hit в проде. Читать далее #prefix_cache #искусственный_интеллект #vllm #openai #anthropic #maas #self_hosted #prompt_engineering #context_engineering #agents | @habr_ai