869просмотров
11 апреля 2025 г.
Score: 956
Привет! Давненько не было апдейтов, исправляюсь. Во-первых давайте начнём с записи прошлого стрима по голосовому ассистенту. Напоминаю, что на нём я разбирался с инференсом на Orange Pi 5 Max. Катка выдалась потная, но по итогу на NPU была успешно запущена 1.5B моделька: Ссылка на стрим 📹 Выводы стрима • RKNN LLM фреймворк это попаболь, но есть решения от коммьюнити, их можно довести напильником
• Qwen2.5 1.5B выдаёт 15 токенов в секунду — даже в два раза медленнее (для 3B) будет всё ещё достаточно для голосового ассистента
• Драйвер NPU в официальной операционке на Ubuntu староват, нужно пересобрать ОС с новым ядром и драйверами (без этого 3B не заработает) А ещё... • Пофантазировал на тему операционной системы с LLM
• Показал доску на Pinterest с промышленным дизайном для колонки С тех пор я подразобрался как работает внутренняя кухня RKNN, перенёс некоторую часть кода в репозиторий и завёл там отдельный пакет opi5, в котором буду допиливать движок для инференса. Пока пытаюсь понять какой API мне нужен для взаимодействия с моделькой и склоняюсь к поддержке простого формата Ollama API. Для этого нашёл что: • В smolagents модельку с таким API можно легко интегрировать с помощью LiteLLM
• Умельцы на GitHub уже замутили референсную имплементацию: rkllama Мне хочется иметь достаточно полное представление об этом NPU и точно понимать как с ним взаимодействовать, поэтому движок я всё же напишу сам, упрощённый и пока именно под qwen-based модельки. #Petting@alisaolega #HealthCheck@alisaolega #Assistant@alisaolega