А
алиса олеговна
@alisaolega491 подп.
869просмотров
11 апреля 2025 г.
Score: 956
Привет! Давненько не было апдейтов, исправляюсь. Во-первых давайте начнём с записи прошлого стрима по голосовому ассистенту. Напоминаю, что на нём я разбирался с инференсом на Orange Pi 5 Max. Катка выдалась потная, но по итогу на NPU была успешно запущена 1.5B моделька: Ссылка на стрим 📹 Выводы стрима • RKNN LLM фреймворк это попаболь, но есть решения от коммьюнити, их можно довести напильником • Qwen2.5 1.5B выдаёт 15 токенов в секунду — даже в два раза медленнее (для 3B) будет всё ещё достаточно для голосового ассистента • Драйвер NPU в официальной операционке на Ubuntu староват, нужно пересобрать ОС с новым ядром и драйверами (без этого 3B не заработает) А ещё... • Пофантазировал на тему операционной системы с LLM • Показал доску на Pinterest с промышленным дизайном для колонки С тех пор я подразобрался как работает внутренняя кухня RKNN, перенёс некоторую часть кода в репозиторий и завёл там отдельный пакет opi5, в котором буду допиливать движок для инференса. Пока пытаюсь понять какой API мне нужен для взаимодействия с моделькой и склоняюсь к поддержке простого формата Ollama API. Для этого нашёл что: • В smolagents модельку с таким API можно легко интегрировать с помощью LiteLLM • Умельцы на GitHub уже замутили референсную имплементацию: rkllama Мне хочется иметь достаточно полное представление об этом NPU и точно понимать как с ним взаимодействовать, поэтому движок я всё же напишу сам, упрощённый и пока именно под qwen-based модельки. #Petting@alisaolega #HealthCheck@alisaolega #Assistant@alisaolega
869
просмотров
1543
символов
Нет
эмодзи
Нет
медиа

Другие посты @alisaolega

Все посты канала →
Привет! Давненько не было апдейтов, исправляюсь. Во-первых д — @alisaolega | PostSniper