Привет! Давно не было апдейтов по проекту голосового ассисте — @alisaolega

685просмотров

4 августа 2025 г.

Score: 754

Привет! Давно не было апдейтов по проекту голосового ассистента, а они есть! Что было ранее На прошлом стриме возился с NPU и пытался запустить модельки на нём — выяснилось, что ничего толще 1.5B на него не залазит из-за багов на стороне RKLMM. Нужно было обновить драйвера NPU, поправить код инференса и много чего ещё по мелочи. По итогу с этим справился и сейчас всё работает и работает неплохо — Qwen3:4B выдаёт 5 токенов в секунду, а Qwen2.5:3B целых 8! Вместо ранее упомянутого rkllama API я решил делать всё прямо на девайсе, а значит никаких серверов и т. п., по крайней мере пока. Получился минимальная приятная обёртка типа: from api.rkllm import RKLLMModel # подгружаем модельку model = RKLLMModel("qwen2.5:3B") # стримим вывод for token in model.generate_stream([{"role": "user", "content": "Hello, what's up?"}]): print(token, end="", flush=True) Модельки можно напрямую подтягивать с HuggingFace с помощью простого YAML конфига, а значит в ближайшее время также смогу конвертировать и складывать туда свои. К примеру, интересно попробовать последние Ruadapt и Vikhr модельки на базе того же Qwen. Полагаю, мы должны получить более быстрое время ответа при +- тех же tok/sec на русском языке. Что будет на стриме Сейчас хочу интегрировать свой класс со smolagents, чтобы весь код агента мог работать уже полностью на девайсе. Для этого нужно посмотреть как корректно форматировать тулзы, т. к. в недавнем обновлении RKLLM их добавили нативно — предвкушаю кучу багов). В целом хочу поделиться некоторыми идеями куда всё идёт! Так что встречаемся в этот ЧТ в 19:00 по МСК здесь в Телеге, запись, как всегда будет попозже на YouTube 📹 GitHub проекта | DeepWiki проекта | Стримы на YouTube | Анонс проекта #Petting@alisaolega #Assistant@alisaolega

Другие посты @alisaolega