1.6Kпросмотров
15.6%от подписчиков
23 марта 2026 г.
📷 ФотоScore: 1.7K
В прошлом обзоре топа HF писал про модель s2-pro для синтеза речи. Просто упомянул среди прочих, но вот прошла неделя и уже очевидно, что новинка от Fish Audio заслуживает отдельного поста. Это прям опенсорс-конкурент ElevenLabs. Пять причин почему: 1. Контроль ударений. Это неочевидно, но для меня главным стопером использования в продакшене 99% моделей была невозможность скорректировать ошибки. Тут же поддерживаются из коробки как выделения заглавными, так и юникод-символы. В том числе для русского. — Ультра-контроль эмоций. Модель поддерживает более 15 000 текстовых тегов. Вы можете вставить прямо в текст пометки вроде [laughing], [whisper], [angry] или [inhale], и ИИ реалистично отыграет эту эмоцию в конкретном месте.
— Масштаб. Натренирована на 10 миллионах часов аудио и поддерживает более 80 языков. Да, и русский тоже. Если клонировать голос человека, который хорошо на русском говорит, то и синтез будет без акцента. — Доступность. Работает на обычных потребительских видеокартах. Не на любых, конечно, но 24 ГБ отлично подходит.
Так что если вам нужен синтез речи, то однозначно стоит попробовать. Вот репо, вот веса, вот я залил на репликейт, вот нативный прейграунд. На скрине снизу бенчмарки, моделька ТОП-1 по куче параметров. @neuro_channel