272просмотров
98.2%от подписчиков
22 января 2026 г.
Score: 299
Огромное спасибо Николаю за независимый тест нашей модели ASR. В чате поиронизировали, что e2e-v3 чем-то напоминает Gigaam V3, но нет, совпадения абсолютно случайны.
У нас абсолютно своя архитектура и собственный претрейн. Модель эффективно реализует стриминговый сценарий, оптимизировалась для телефонного канала и адаптирована к нашим типовым сценариям использования.
В замерах WER есть много ньюансов, как размечаются хеситации, собственные имена, сокращения, фоновая речь, и это иногда может влиять в пределах нескольких процентных пунктов. Кроме того, подбор оптимальных параметров, подключение словарей или небольшой дополнительный тюнинг под домен - зачастую сильно решают.
Тем не менее, подобные тесты - скорее всего, вполне отражают уровень качества, которое получит пользователь из коробки при базовых настройках, и скорее всего по нему - мы, объективно , слегка отстаем от актуальных решений яндекса и сбера.
Впрочем, с практической точки зрения - разница, скорее всего, почти нигде не будет заметной.
И для многих применений, где нужно обработать в потоковом режиме большой объем аудио эффективно по использованию железа, с низкими задержками и приличным качеством распознавания - мы можем быть удачным решением.
А модели с лучшей точностью - уже на подходе.
#asr