Qwen 3.5: почему ваша LLM теперь «летает»? 🚀 Поздравляю, ма — @ai_shizz

551просмотров

66.6%от подписчиков

22 марта 2026 г.

questionScore: 606

Qwen 3.5: почему ваша LLM теперь «летает»? 🚀 Поздравляю, малютки, эпоха пошаговой печати в прошлом 🫡 Multi-Token Prediction (MTP) выдаёт мысли пачками по 2–5 токенов за раз. В чём профит: Обычные LLM ждут расчёта каждой буквы. MTP в Qwen 3.5 использует гибрид Gated DeltaNet и sparse MoE как встроенный «черновик». Модель предлагает цепочку слов, а основной блок её аппрувит. Если угадала (точность до 80%) — скорость взлетает кратно. Цифры из тестов: • NVIDIA Blackwell (SM120): буст 2.75x, до 1,985 ток/сек в пике. • Apple M4 Pro: прирост 1.5x на ранних билдах MLX. • vLLM: до 585 ток/сек на многопользовательских запросах. Итог: модель 35B-A3B всего с 3B активных параметров обходит гигантов на 235B. Линейное внимание DeltaNet позволяет ворочать 1 млн контекста без боли. Попробовать в vLLM: --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

Другие посты @ai_shizz