Привет! Давненько не было апдейтов, исправляюсь. Во-первых давайте начнём с записи прошлого стрима по голосовому ассистенту. Напоминаю, что на нём я разбирался с инференсом на Orange Pi 5 Max. Катка выдалась потная, но по итогу на NPU была успешно запущена 1.5B моделька: Ссылка на стрим 📹 Выводы стрима • RKNN LLM фреймворк это попаболь, но есть решения от коммьюнити, их можно довести напильником • Qwen2.5 1.5B выдаёт 15 токенов в секунду — даже в два раза медленнее (для 3B) будет всё ещё достат...
алиса олеговна
Пишу про изучение обработки естественного языка (NLP, Audio, Multimodal). Учу компуктер вести диалоги в духе всем известной Алисы. ML Engineer @ zvuk.com (Research Team) Автор → @textoleg
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
18 из 18Открыл репу с ассистентом 💻 Всем привет, возможно, начну чуть позже минут на 5-10, как всегда, но я много зрителей всё равно не ожидаю сегодня, думаю, особо никому тайминги не сорву! Пока, как обещал, открыл репозиторий с кодом ассистента, над которым работаю: https://github.com/stllfe/salem На данном этапе глупо заводить какую-то заряженную документацию, там всё слишком быстро меняется/обновляется. В любом случае хочется работать в своём гараже с открытой дверью: It’s also a way to avoid the p...
Привет! Давно не было апдейтов по проекту голосового ассистента, а они есть! Что было ранее На прошлом стриме возился с NPU и пытался запустить модельки на нём — выяснилось, что ничего толще 1.5B на него не залазит из-за багов на стороне RKLMM. Нужно было обновить драйвера NPU, поправить код инференса и много чего ещё по мелочи. По итогу с этим справился и сейчас всё работает и работает неплохо — Qwen3:4B выдаёт 5 токенов в секунду, а Qwen2.5:3B целых 8! Вместо ранее упомянутого rkllama API я ре...
Привет! Небольшой оффтоп. Сейчас нахожусь на Turbo ML Conf от Т-Банка, если есть желание пообщаться между секциями — пишите! А так скоро буду возвращаться с постами и стримами, в т. ч. по результатам интересных выступлений здесь. Мой коллега Ринат выступает в 17:35 в секции NLP с докладом про генерацию плейлистов с помощью LLM. P.S. если видите человека с вилкой намотанной на руке, это скорее всего я
Обсуждение стрима
#Links@alisaolega за прошедшую неделю, чтобы посмотреть на выходных: — 📹 Офигенное ELA5 видео, где на пальцах объясняется модификация Attention из DeepSeek: MultiHead-Latent-Attention — 📃 Жутковатая декабрьская папирка, в которой экспериментально показывают, что ризонинг модельки типа Open AI o1 умеют скрытно «избегать удаления», если им это угрожает, при этом всё ещё решая задачу пользователя как ни в чём не бывало
Интересный формат подачи структурированных данных в промпты LLM, обещают снижение кол-ва токенов на ~50%, при этом для многих LLMок качество ответов незначительно страдает или наоборот улучшается! https://github.com/johannschopplich/toon (Не проверял лично, цитирую документацию) #Links@alisaolega #LLM@alisaolega
Long Horizon Execution в LLM ...или как агенты тупеют во время разговора Статья: https://arxiv.org/abs/2509.09677 Итак, проверяют как LLM работают на длинных горизонтах — выполнение задачи, состояние которой развивается и копится в контексте на протяжении большого количества turn («ходов» user/assistant). Замеряют на синтетической задачке, где LLM-ка должна трекать состояние цепочки арифметических операций. На мой вкус вполне репрезентативный тест, если даже на нём проявляется эффект. TL/DR При ...
Я уже долгое время состою в фанклубе @Sterling239 — за его статьи про синтез речи на хабре. Они помогали мне на прошлом месте работы дотягивать VITS до прода, а ныне пересекаются с собственными экспериментами последней пары месяцев — SpeechLLM/LLM based TTS (вне работы, для голосового ассистента). Сложно придумать вводный понятный разбор домена лучше, чем в статье Гриши: https://habr.com/ru/companies/sberbank/articles/966640/ #Links@alisaolega #Consume@alisaolega #Speech@alisaolega
P4: Стрим: поднимаем LLM на одноплатнике Наконец-то изучил тех. репорт Qwen2.5 Coder, до которого так и не доходили руки… При беглом рассмотрении стало понятно, что нет смысла файнтюнить модельки меньше 3B размером. Они прям супер-слабые получаются. Либо надо искать другие бейс-модельки, которые на этом размере сильнее, либо не лезть вообще пока туда и сфокусироваться вокруг 3B версии. В целом для тестов буду ограничиваться: 1.5B, 3B, 7B. Последняя — единственная, которая полезет на девайс так, ...