Den4ik Research

@den4ikresearch✍️ Блоги🇬🇧 English📅 март 2026 г.

HuggingFace: https://huggingface.co/Den4ikAI GitHub: https://github.com/Den4ikAI Донат: https://pay.cloudtips.ru/p/b9d86686 Личка: https://t.me/bceloss Канал одного Audio-ресерчера

📊 Полная статистика 📝 Все посты

🔗 Связанные:@vf_science

##audio#perfomances#music#scrollto

1.7K

Подписчики

9.1K

Ср. охват

530.4%

Вовлечённость

Постов

—

В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

10 из 10

den4ikresearch

25 авг., 18:55

Наш русскоязычный датасет для TTS опубликован! Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1 Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам: Многоголосые: ESpeech-podcasts - 3200 часов ESpeech-webinars - 850 часов Одноголосые: ESpeech-igm - 220 часов ESpeech-buldjat - 54 часа ESpeech-upvote - 296 часов ESpeech-tuchniyzhab - 306 часов Данные лежат вот тут: https://huggingface.co/ESpeech Техрепорт датасета доступен тут: h...

👁 52.4K🎬 video

📊 Аналитика

den4ikresearch

1 июл., 12:20

Наш проект на Лето с AIRI 👾 Мы с Захаром @vf_science решили выложить постер с нашим методом, по которому, вероятно, будет наш финальный проект. Но есть несколько дополнений, ибо места в постере мало (проговорим вживую на постерной сессии): 1. Перплексия считается по кодбуку, а не по языковой модели (И да, чем больше тем лучше) 2. MOS низкий, поскольку у нас небыло времени обучить на достаточном количестве данных, а рисерч пропозал делать надо :) 3. Планируем сэмплировть новые коды в менее плотн...

👁 7.0K

📊 Аналитика

den4ikresearch

2 июн., 17:44

Спасибо Илье и донатерам за поддержку. Теперь некоторые технические детали: В датасете будет 2-5к часов аудио (скорее всего больше) Формат: mp3, 16bit depth, 44100, 320kbps Речь разговорная, но некоторая примесь читающей (книги) тоже будет. Разметка eMOS для каждого сэмпла Длина сэмплов 1-3 предложения Разметка таймстемпов слов (получена через wav2vec2) * Разметка ударений (обычные слова по словарю, омографы - по аудио) Я надеюсь, что мне удастся выполнить задуманное. Штош, начнем снова поднимат...

👁 6.0K

📊 Аналитика

den4ikresearch

11 окт., 18:33

Колаб для семинара, в котором мы обучим поверх кодов Mimi кодека классификатор голосов на мужской и женский 😄 Используем 8 кодбуков, обучаем 8 трансформер-энкодеров, делаем темпоральный пулинг по токенам, а затем атеншн пулинг между энкодерами. Потом обычный классификатор. Из прикольного - визуализация атеншна на разные уровни RVQ. Научились работать с RVQ и в качестве упражнения можете посчитать разные статистики для кодовых книг, например perpexity (покажет насколько равномерно используются к...

👁 5.5K

📊 Аналитика

den4ikresearch

10 июн., 17:58

❤️ Секция про ML в музыке на DataFest 2025! Посмотреть запись секции: https://vkvideo.ru/video-164555658_456241380?t=5h35m33s Отдельно доклады будут выложены на ютубе позже. Впервые за время существования датафеста (10 лет!) мною была собрана секция про ML в музыке и сразу 5 спикеров на 1 площадке: ▪️Максим Смоляков: "AI-Generated Music: методологии оценки качества и оптимизация генерации." ▪️Алексей Попов: "Генерация пения с помощью диффузионных трансформеров." ▪️Иван Разворотнев: "Foundation A...

👁 5.4K📷 photo

📊 Аналитика

den4ikresearch

24 авг., 17:43

Stay tuned!

👁 4.8K

📊 Аналитика

den4ikresearch

11 окт., 15:44

👀 Про аудио кодеки в Deep Learning School Сегодня выложили 2 части лекции и она немножко затянулась, примерно на 100 минут :) На лекции мы обсудили основополагающую технологию VQ-VAE и дошли до современных подходов к обучению аудиокодеков. Попутно рассмотрели специфические для них проблемы и способы их решения — такие как недифференцируемость в процессе обучения, коллапс кодовой книги, неэффективное покрытие домена и недостаточная репрезентативность для последующих задач. Отметили тенденции в с...

👁 4.5K

📊 Аналитика

den4ikresearch

2 июн., 17:43

🚀 Разгоняем open-source-TTS Сегодня я инвестирую в создание открытого корпуса русской речи! Почему это важно? Русские TTS-модели отстают от мирового уровня примерно на два года. Главная причина - это нехватка крупных, качественных и общедоступных датасетов. Без данных сложно быстро тестировать идеи и выпускать новые модели. Кто делает датасет? Знакомый вам Денис @bceloss, уже собирает нужные данные. Грант позволит ему работать над проектом фул-тайм и выложить результат в открытый доступ уже к к...

👁 2.9K

📊 Аналитика

den4ikresearch

27 февр., 16:55

Всем привет ребятки, выложил тут датасет с ютуба, сделан через пайплайн FireRed Vad -> двойной гигаам с мерджингом (пунктуация из е2е и текст из обычной) -> алайн через квен алайн -> отчистка через clearer voice Данные в формате опус, 48khz, mono, один спикер, у каждого опус файла есть txt файл с текстом аудио, в метадате данные в формате путь||текст(с ударениями)||время аудио в секундах https://huggingface.co/datasets/TeraTTS/betterset

👁 1.8K📷 photo

📊 Аналитика

den4ikresearch

26 мар., 16:02

Кто сказал «мяу»? ИТ-компания «Криптонит» приглашает на дататон «Криптонит.Тембр», где нужно распознать, кто говорит! Тебе предстоит обучить Speaker Recognition модель, устойчивую к искажениям аудио, возникающим в реальных сценариях эксплуатации речевых интерфейсов и систем обработки звука: 🔹искажения, вносимые акустической средой; 🔹посторонние шумы; 🔹реверберация; 🔹большое расстояние до микрофона; 🔹искажения каналов связи. Участвуй, и ты сможешь: 🟦получить шанс разделить призовой фонд в 6...

👁 813📷 photo

📊 Аналитика

Типы хуков

Нейтральный9 | 10.1K просм.

Вопрос1 | 813 просм.

Длина постов

Длинные (500-1000)4 | 4.9K просм.

Очень длинные (1000+)4 | 16.3K просм.

Короткие (<200)1 | 4.8K просм.

Средние (200-500)1 | 1.8K просм.

Влияние эмодзи

3.7K

С эмодзи (4)

12.8K

Без эмодзи (6)

-71.2% охвата

Типы контента

🎬

video

52.4K просм.

📝

text

5.1K просм.

📷

photo

2.7K просм.