Э
ЭЙ АЙ ШИЗ
@ai_shizz827 подп.
551просмотров
66.6%от подписчиков
22 марта 2026 г.
questionScore: 606
Qwen 3.5: почему ваша LLM теперь «летает»? 🚀 Поздравляю, малютки, эпоха пошаговой печати в прошлом 🫡 Multi-Token Prediction (MTP) выдаёт мысли пачками по 2–5 токенов за раз. В чём профит: Обычные LLM ждут расчёта каждой буквы. MTP в Qwen 3.5 использует гибрид Gated DeltaNet и sparse MoE как встроенный «черновик». Модель предлагает цепочку слов, а основной блок её аппрувит. Если угадала (точность до 80%) — скорость взлетает кратно. Цифры из тестов: • NVIDIA Blackwell (SM120): буст 2.75x, до 1,985 ток/сек в пике. • Apple M4 Pro: прирост 1.5x на ранних билдах MLX. • vLLM: до 585 ток/сек на многопользовательских запросах. Итог: модель 35B-A3B всего с 3B активных параметров обходит гигантов на 235B. Линейное внимание DeltaNet позволяет ворочать 1 млн контекста без боли. Попробовать в vLLM: --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'
551
просмотров
886
символов
Да
эмодзи
Нет
медиа

Другие посты @ai_shizz

Все посты канала →
Qwen 3.5: почему ваша LLM теперь «летает»? 🚀 Поздравляю, ма — @ai_shizz | PostSniper