714просмотров
34.6%от подписчиков
1 марта 2026 г.
Score: 785
🥁 Танцы с бубном по запуску новых Qwen 3.5 заняли существенно больше времени, чем я ожидал. А кажется каждый раз - вот сейчас на опыте... Но кое что сломалось, сейчас восстанавливаю. Подобрать рабочее сочетание vllm/sglang, модели и параметров запуска - та еще история. Но в целом все удалось, хотя занимаюсь сейчас починкой и оптимизацией инференса плотно не занимался. Не успеваю... Какие впечатления. ✈️ Модели реально поумнели... Чиню сервисы и провожу тесты, но разница очевидна. Отчасти проблема - модели размышляющие (thinking), а мне мышление часто не нужно. Раньше оно отключалось просто токеном в промпте, сейчас через дополнительные нестандартные параметры при вызове. Почему не хочу мышления? Бюджет там 4К токенов, реально нужно только на сложных логических задачах, а для меня это съедает просто ресурсы и скорость ответа. Так что перестраиваю. 🛠 Запускал две модели. "Плотную" Qwen 3.5 27B и в архитектуре MOE Qwen 3.5 35B A3B. Обе модели работают в 4 кванте. Я пока относительно нищий 😊 в части GPU. Обе модели хорошо грузят GPU, MOE конечно меньше. По скорости 67/220 и 137/347 токенов в секунду соответственно для одиночного и батч режима (8 одновременных запросов). Что очень даже неплохо! ⌛ В качестве инференса вернулся на vLLM - проще оказалось запустить, скорость устраивает, работает стабильно. Sglang оказался не готов и советы типа "сделайте ручной патч..." не соблазнили. 👷‍♂️ Остановился пока на Qwen 3.5 35B A3B, по метрикам не сильно хуже (почти не заметно), работает бодрее. Так что с переездом меня на новые модели. А там посмотрим, быстрый откат на старый Qwen оставил.
714
просмотров
1607
символов
Да
эмодзи
Нет
медиа

Другие посты @hirearobot

Все посты канала →
🥁 Танцы с бубном по запуску новых Qwen 3.5 заняли существен — @hirearobot | PostSniper