👀 Про аудио кодеки в Deep Learning School Сегодня выложили 2 части лекции и она немножко затянулась, примерно на 100 минут :) На лекции мы обсудили основополагающую технологию VQ-VAE и дошли до современных подходов к обучению аудиокодеков. Попутно рассмотрели…
Захар Варфоломеев | Музыкальный ИИ
Генерацией музыки и всем, что связано с аудио ML я занимаюсь, а всем остальным ML интересуюсь) Делюсь знаниями, мыслями, событиями по своей карье, делаю анонсы своих онлайн/офлайн мероприятий. Автор: @varfolomeefff
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
19 из 19👀 Про аудио кодеки в Deep Learning School Сегодня выложили 2 части лекции и она немножко затянулась, примерно на 100 минут :) На лекции мы обсудили основополагающую технологию VQ-VAE и дошли до современных подходов к обучению аудиокодеков. Попутно рассмотрели специфические для них проблемы и способы их решения — такие как недифференцируемость в процессе обучения, коллапс кодовой книги, неэффективное покрытие домена и недостаточная репрезентативность для последующих задач. Отметили тенденции в с...
Все лекции и семинары «Лето с AIRI 2025» теперь в открытом доступе 🔥 Собрали для вас записи выступлений ведущих исследователей и экспертов — от фундаментальных вопросов искусственного интеллекта до практических примеров его применения в науке и индустрии. 📎Сохраняйте ссылки на плейлисты: VK Видео, YouTube
Интерактивный tutorial по аудио кодекам от Kyutai labs 😎 https://kyutai.org/next/codec-explainer
12го ноября прилечу в Питер к Сергею Николенко (@sinecor), буду рассказывать в главном здании СПбГУ все, что знаю про дискретные репрезентации и выбор между непрерывными фичами, это будет экстраполяция семинара про аудио кодеки на весь ML Пишите/заходите…
В команду успешной музыкальной платформы с 15-летней историей ищем талантливого ML-разработчика, для качественного усиления, в связи с ростом. Плеер гитарных табов — наш основной продукт, которым ежемесячно пользуются миллионы. Мы работаем над сложными задачами в ML, включая разработку моделей для автоматической транскрипции музыки. Наши модели уже успешно создают табулатуры из аудио — вот пример результата . Это лишь часть наших проектов в области AI и музыки. Требуемые навыки: • Разработка и о...
👀 Про аудио кодеки в Deep Learning School Сегодня выложили 2 части лекции и она немножко затянулась, примерно на 100 минут :) На лекции мы обсудили основополагающую технологию VQ-VAE и дошли до современных подходов к обучению аудиокодеков. Попутно рассмотрели…
Кто сказал «мяу»? ИТ-компания «Криптонит» приглашает на дататон «Криптонит.Тембр», где нужно распознать, кто говорит! Тебе предстоит обучить Speaker Recognition модель, устойчивую к искажениям аудио, возникающим в реальных сценариях эксплуатации речевых интерфейсов и систем обработки звука: 🔹искажения, вносимые акустической средой; 🔹посторонние шумы; 🔹реверберация; 🔹большое расстояние до микрофона; 🔹искажения каналов связи. Участвуй и ты сможешь: 🟦получить шанс разделить призовой фонд в 60...
Знаю все типы людей 😆 А кто вы?
Наш русскоязычный датасет для TTS опубликован! Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1 Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам: Многоголосые: ESpeech-podcasts - 3200…