200просмотров
85.5%от подписчиков
25 января 2026 г.
Score: 220
🚀 Новые оптимизации в llama.cpp: что стоит включать в 2026 Если ты гоняешь LLM локально (как я), то в 2026 llama.cpp сильно прокачали: меньше VRAM, больше токенов в секунду, стабильнее длинный контекст. Ниже список свежайших оптимизаций, которые стоит попробовать. 1) Квантизация KV-кэша Тот самый скрытый "пылесос", который раздувается вместе с контекстом и первым съедает VRAM. Поэтому часто ограничение по контексту это не модель, а именно кэш. Что включать:
-ctk q4_0 -ctv q4_0 Почему это стоит использовать:
- обычно экономит до ~50% памяти под кэш
- можно поставить больше --ctx-size или влезть в модель крупнее
- качество чаще всего почти не страдает, потому что это "рабочая память", а не веса 2) Flash Attention Внимание самая дорогая часть инференса. Flash Attention считает то же самое, но эффективнее (особенно на новых GPU). Плюс удобно, что теперь можно просто доверить авто-режиму. Что включать:
-fa auto
Почему это стоит использовать:
- на подходящем железе часто даёт +20–30% к скорости
- меньше просадок на большом контексте
- auto сам разрулит совместимость (включится там, где можно) 3) Context Checkpoints Боль длинных диалогов: если сервис перезапустился или ты пересобрал контекст, то приходится заново "пережёвывать" тысячи токенов. Чекпоинты уменьшают эту боль. Что включать:
--ctx-checkpoints 8 Почему это стоит использовать:
- быстрее восстанавливаешь состояние при длинных сессиях
- меньше времени на повторный "прогрев"
- особенно полезно в llama-server, когда это живёт как сервис 4) MLA-оптимизация (DeepSeek / Qwen и подобные) Для моделей с Multi-head Latent Attention llama.cpp умеет автоматом делать оптимизацию (переиспользование K-тензоров для V), чтобы не считать лишнее. Почему это стоит использовать:
- это "бесплатный бонус" и часто включается автоматически
- даёт ускорение/экономию именно на MLA-моделях
- не требует настроек: просто запускаешь модель и всё хорошо) 5) CUDA graphs для MoE + --n-cpu-moe Если ты выгружаешь MoE-слои на CPU (--n-cpu-moe), это помогает влезть в VRAM, но иногда даёт overhead. CUDA graphs этот overhead заметно сглаживают. Почему это стоит использовать:
- быстрее и стабильнее работает связка "GPU + часть MoE на CPU"
- меньше накладных расходов на запуск вычислений
- делает MoE-режим более пригодным на "НЕ топовом" железе 6) Speculative Decoding Одна из самых приятных оптимизаций, потому что ускоряет именно генерацию (то, что реально ждёшь). Маленькая draft-модель быстро предлагает пачку токенов, большая просто подтверждает. Что включать:
--model-draft Qwen/Qwen3-14B-GGUF --draft 16
Почему это стоит использовать:
- генерация часто становится в 1.5–2 раза быстрее
- особенно заметно в чат-режиме и на длинных ответах
- можно ускориться без замены основной модели и железа Быстрый чеклист: что включать
Почти всегда
KV-кэш квантизация: -ctk q4_0 -ctv q4_0
Flash Attention: -fa auto По ситуации
--ctx-checkpoints 8 если длинные диалоги/сервер/перезапуски
speculative decoding если хочется быстрее генерацию
--n-cpu-moe + CUDA graphs если MoE не влезает в VRAM Только для некоторых моделей
MLA-оптимизация — актуально для DeepSeek/Qwen и других MLA (обычно авто) Я сейчас запускаю Qwen3-14B (GGUF) на RTX 4070 через llama-server с длинным контекстом 32k. По скорости получается так:
Промпт (prefill): ~1300 tok/s
Генерация (decode): ~65 tok/s То есть: ввод "проглатывает" почти мгновенно, а ответ печатает комфортно, без ощущения тормозов, почти как топовые модели) #llama #llm #selfhosted #llamacpp #ai #inference