🚀 Новые оптимизации в llama.cpp: что стоит включать в 2026 — @nerditru

200просмотров

85.5%от подписчиков

25 января 2026 г.

Score: 220

🚀 Новые оптимизации в llama.cpp: что стоит включать в 2026 Если ты гоняешь LLM локально (как я), то в 2026 llama.cpp сильно прокачали: меньше VRAM, больше токенов в секунду, стабильнее длинный контекст. Ниже список свежайших оптимизаций, которые стоит попробовать. 1) Квантизация KV-кэша Тот самый скрытый "пылесос", который раздувается вместе с контекстом и первым съедает VRAM. Поэтому часто ограничение по контексту это не модель, а именно кэш. Что включать: -ctk q4_0 -ctv q4_0 Почему это стоит использовать: - обычно экономит до ~50% памяти под кэш - можно поставить больше --ctx-size или влезть в модель крупнее - качество чаще всего почти не страдает, потому что это "рабочая память", а не веса 2) Flash Attention Внимание самая дорогая часть инференса. Flash Attention считает то же самое, но эффективнее (особенно на новых GPU). Плюс удобно, что теперь можно просто доверить авто-режиму. Что включать: -fa auto Почему это стоит использовать: - на подходящем железе часто даёт +20–30% к скорости - меньше просадок на большом контексте - auto сам разрулит совместимость (включится там, где можно) 3) Context Checkpoints Боль длинных диалогов: если сервис перезапустился или ты пересобрал контекст, то приходится заново "пережёвывать" тысячи токенов. Чекпоинты уменьшают эту боль. Что включать: --ctx-checkpoints 8 Почему это стоит использовать: - быстрее восстанавливаешь состояние при длинных сессиях - меньше времени на повторный "прогрев" - особенно полезно в llama-server, когда это живёт как сервис 4) MLA-оптимизация (DeepSeek / Qwen и подобные) Для моделей с Multi-head Latent Attention llama.cpp умеет автоматом делать оптимизацию (переиспользование K-тензоров для V), чтобы не считать лишнее. Почему это стоит использовать: - это "бесплатный бонус" и часто включается автоматически - даёт ускорение/экономию именно на MLA-моделях - не требует настроек: просто запускаешь модель и всё хорошо) 5) CUDA graphs для MoE + --n-cpu-moe Если ты выгружаешь MoE-слои на CPU (--n-cpu-moe), это помогает влезть в VRAM, но иногда даёт overhead. CUDA graphs этот overhead заметно сглаживают. Почему это стоит использовать: - быстрее и стабильнее работает связка "GPU + часть MoE на CPU" - меньше накладных расходов на запуск вычислений - делает MoE-режим более пригодным на "НЕ топовом" железе 6) Speculative Decoding Одна из самых приятных оптимизаций, потому что ускоряет именно генерацию (то, что реально ждёшь). Маленькая draft-модель быстро предлагает пачку токенов, большая просто подтверждает. Что включать: --model-draft Qwen/Qwen3-14B-GGUF --draft 16 Почему это стоит использовать: - генерация часто становится в 1.5–2 раза быстрее - особенно заметно в чат-режиме и на длинных ответах - можно ускориться без замены основной модели и железа Быстрый чеклист: что включать Почти всегда KV-кэш квантизация: -ctk q4_0 -ctv q4_0 Flash Attention: -fa auto По ситуации --ctx-checkpoints 8 если длинные диалоги/сервер/перезапуски speculative decoding если хочется быстрее генерацию --n-cpu-moe + CUDA graphs если MoE не влезает в VRAM Только для некоторых моделей MLA-оптимизация — актуально для DeepSeek/Qwen и других MLA (обычно авто) Я сейчас запускаю Qwen3-14B (GGUF) на RTX 4070 через llama-server с длинным контекстом 32k. По скорости получается так: Промпт (prefill): ~1300 tok/s Генерация (decode): ~65 tok/s То есть: ввод "проглатывает" почти мгновенно, а ответ печатает комфортно, без ощущения тормозов, почти как топовые модели) #llama #llm #selfhosted #llamacpp #ai #inference

Другие посты @nerditru