Опубликовали на хабре вторую часть моей статьи про самопального голосового агента на рокчипе https://habr.com/ru/companies/mts_ai/articles/1004144/ Там в основном про TTS предобработку текста и потоковый инференс.
SpeechAI Pro
Технологии распознавания и синтеза речи, разработка, управление командами. Для связи - @vzaguskin
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
20 из 20Две самые проклятые реализации функции sleep, которые я когда либо видел в одном видео. Причем это не прикол а реальный код, до недавнего времени обслуживающий CI runners на github. Версия 1: Если в системе нет команды sleep, то n раз вызываем ping какого-то IP, а если нет и пинга - n тысяч раз пишем строку в /dev/null. Кто-то посчитал что это плохо, и выкатил версию 2: На псевдокоде работает так - while (current_seconds - start_seconds) != n: do_some_work() Обратите внимание на условие выхода и...
А вот тут хороший рекэп основных докладов с главных аудиоконференций. TLDR: 1. Интонационный kws. 2. Потоковая диаризация. 3. Потоковый speech-to-speech перевод. #speech #ml
Протестировал распознавание речи MWS.AI модель e2e-v3 https://mts.ai/ru/product/audiogram/ В целом хорошее распознавание с гибкими функциями (настраиваемый VAD, словарь и так далее) Традиционно для конформеров очень плохое распознавание имён собственных и вообще относительно редких слов (проблема общая, о ней напишем позднее) Отдельно стоит отметить неплохое распознавание на коротких шумах (что ещё стоит отметить, модель t-one с ними тоже хорошо справляется, как и яндекс. А вот GigaAM совсем пло...
Тем временем прошёл очередной тренинг для менеджеров. Раздали шикарные секретные методички)
Воскресное. Последнее время довольно много занимаюсь обучением естественного интеллекта. Обучение происходит на датасете со сказками - необходимо подавать один и тот же батч со сказками в течение большого количества эпох. В какой-то момент удивился, почему никому не пришла в голову такая простая пародия про репку, но раз пока нет - напишу сам. Запланировал продакт фичу. Вышла фича большая - пребольшая. Стал продакт фичу с помощью курсора пилить. Пилит-пилит, реализовать не может. Позвал продакт ...
Огромное спасибо Николаю за независимый тест нашей модели ASR. В чате поиронизировали, что e2e-v3 чем-то напоминает Gigaam V3, но нет, совпадения абсолютно случайны. У нас абсолютно своя архитектура и собственный претрейн. Модель эффективно реализует стриминговый сценарий, оптимизировалась для телефонного канала и адаптирована к нашим типовым сценариям использования. В замерах WER есть много ньюансов, как размечаются хеситации, собственные имена, сокращения, фоновая речь, и это иногда может влия...
Попытки смотреть какие-то материалы с лидерских или софтскиловых конференций практически неизбежно разочаровывают. На технических, конечно, тоже бывает шлак, но если смотришь доклад с какой-нибудь Rust конфы - шанс получить как мимимум интеллектуальное или эстетическое удовольствие доходит до 80%, если смотреть интересное, а не все подряд. И другое дело софты - вот выходит человек, который обещает рассказать как руководителю эффективнее расти. Веселый, уверенный, лысый, CTO очень крутого продукт...
Крайне редко хочется порекомендовать какое-то выступление по менеджменту или сфтскиллам, так как там обычно либо вода разбавленная рекламой, либо наоборот. И все это сопровождается усиленным почесыванием личных комплексов. Но вот тут - прям все хорошо. Наверно, профессии дизайнеров и разработчиков/млщиков - довольно схожи, притягивают похожие типы людей, которые мотивируются примерно теми же вещами и схожим образом общаются - поэтом очень много откликается. Ну и невероятно образно изложено, про ...