G
GigaDev — разработка GigaChat
@gigadev_channel6.5K подп.
16.3Kпросмотров
20 ноября 2025 г.
stats📷 ФотоScore: 17.9K
GigaAM-v3: новый уровень качества, пунктуация, нормализация ➡️ GitHub | HuggingFace | GitVerse В прошлом году мы открыли семейство моделей GigaAM, после чего значительно улучшили качество благодаря подходу HuBERT-CTC во второй версии. Основными запросами сообщества оставались поддержка пунктуации в наших моделях, а также улучшение на сложных срезах данных. Сегодня мы рады представить следующий большой релиз — GigaAM-v3. Что публикуем 🔘GigaAM-v3 — foundation audio encoder (база для дообучения). 🔘GigaAM-v3-CTC — улучшенная CTC модель распознавания, быстрый инференс 🔘GigaAM-v3-RNNT — улучшенная RNNT модель распознавания, лучшее качество 🔘GigaAM-v3-e2e-CTC — распознавание с пунктуацией и нормализацией, быстрый инференс 🔘GigaAM-v3-e2e-RNNT — распознавание с пунктуацией и нормализацией, максимальное качество Пример e2e-вывода: В твоём каталоге есть первая серия сезона 14 «Где логика»? Что нового в v3 🔘Масштаб предобучения: 50k → 700k часов аудио на русском языке. 🔘Новые домены в обучении ASR: колл-центр, музыкальные запросы, речь с особенностями, разговорная речь (суммарно 2k часов). 🔘Для всего корпуса обучающих данных восстановлены пунктуация и нормализация при помощи GigaChat Max Audio. 🔘Линейка CTC/RNNT + e2e — выбирайте скорость или максимум качества под свой сценарий. Метрики 🔘 Открытые датасеты (Golos, OpenSTT, Common Voice, LibriSpeech): паритет с GigaAM-v2. 🔘 Новые домены (WER, v2-RNNT → v3-RNNT): • речь с особенностями 27% → 19% • колл-центр 13% → 10% • спонтанная речь 10.3% → 7% 🔘 Пунктуация: v3-e2e-RNNT vs reference + Whisper Forced Decoding — F1-score по запятой 84% vs 62%, остальные знаки ~паритет. 🔘 Side-by-Side (Gemini 2.5 Pro as a judge): v3-e2e-RNNT vs Whisper-large-v3 — 70:30 (колл-центр), 64:36 (Common Voice). Более качественные модели распознавания того же класса эксклюзивно доступны в наших умных устройствах, а также могут быть бесплатно использованы на повседневной основе с помощью бота @smartspeech_sber_bot. Совсем скоро выйдет пост на Хабр, где мы поделимся подробностями обучения и оценки качества. Не пропустите!
16.3K
просмотров
2092
символов
Нет
эмодзи
Да
медиа

Другие посты @gigadev_channel

Все посты канала →