5.5Kпросмотров
11 октября 2025 г.
Score: 6.1K
Колаб для семинара, в котором мы обучим поверх кодов Mimi кодека классификатор голосов на мужской и женский 😄 Используем 8 кодбуков, обучаем 8 трансформер-энкодеров, делаем темпоральный пулинг по токенам, а затем атеншн пулинг между энкодерами. Потом обычный классификатор. Из прикольного - визуализация атеншна на разные уровни RVQ. Научились работать с RVQ и в качестве упражнения можете посчитать разные статистики для кодовых книг, например perpexity (покажет насколько равномерно используются коды) или утилизацию кодов на разных уровнях/на первом. Или попробовать другую простенькую задачу и посмотреть как интерпретируются уровни RVQ, вероятно на разных уровнях содержится разная семантика/смысл. https://colab.research.google.com/drive/1L6sTCrpdxybkSOOrc4G2E4AuRnQLWZQj#scrollTo=cHGzcgj8oRVi