Интерактивный tutorial по аудио кодекам от Kyutai labs 😎 https://kyutai.org/next/codec-explainer
Ученый без степени | AI-блог Ани
📊 Applied Scientist из Amazon о технологиях AI. Исследования, практика, новости из индустрии, полезные инструменты с AI - делюсь всем, чем сама интересуюсь. Для связи: @piunova_a
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
13 из 13В далеком 2020 году вывели степенные законы масштабирования для pre-training. Теперь команда Meta (и партнеры из академии) попытались сделать то же самое для RL 🔗«The Art of Scaling RL Compute for LLMs» показывает, что это предсказуемая сигмоида и предлагает ScaleRL рецепт стабильного RL проверенный на 100k GPU‑часов 😑 Почему не power law, а sigmoid? В отличие от pre-training, где cross-entropy loss следует степенному закону, в RL метрики обычно ограничены сверху (accuracy, pass@k) и ведут себ...
Генерация речи с LLM задача нетривиальная, мы тренируем модель воспроизводить наиболее вероятную последовательность аудио / речевых токенов; но это усреднение часто ведет к плоским ненатуральным интонациям, эмоциям и паузам, множеству артефактов. 💃 И здесь RL как раз неплохо вписывается, дает возможность вознаграждать разборчивость, и не поощрять непонятную речь Если вам интересно попробовать RL post-training для TTS на практике, вот хороший пост-tutorial и репозиторий с кодом. Что тут происход...
Microsoft предлагает использовать speech-LLM для оценки качества синтетической речи. Идея практичная, стандартные протоколы типа MOS и A/B тестов трудозатратны, а на выходе получаем оценку без качественных инсайтов, что именно пошло не так 🔗SpeechLLM-as-Judges: Towards General and Interpretable Speech Quality Evaluation 🐯 SQ-LLM Авторы собрали датасет SpeechEval: 32к аудио (реальных и синтетики, включая коммерческие TTS), 128к аннотаций на 4 языках (en/zh/ja/fr). Аннотации включают оценки по 8...
🎧 Align2Speak: TTS для мало-ресурсного языка на 30 минутах аудио Статья о том, как прокачать синтез речи для мало-ресурсных языков. Авторы показывают, что даже на 30 мин парных данных (аудио & текст) можно получить качественный TTS с помощью GRPO post-training. 🔗Align2Speak: Improving TTS for Low Resource Languages via ASR-Guided Online Preference Optimization Статья понравилась, потому что идея простая и прикладная (разбирать что-то сложное пока нет времени). Ну и интересно все, что связано с...
🐹 ARC-Encoder от Kyutai: plug-and-play компрессия для LLM На прошлой неделе вышла крутая статья от Kyutai Labs (да, я им симпатизирую): 🔗ARC-Encoder learning compressed text representations for large language models Почему-то осталась относительно незамеченной, хотя на мой взгляд работа хорошо сделана и достойна deep-dive чтения. Как уже видно из названия, эта статья даже не про TTS & STT, здесь авторы придумали универсальный энкодер для сжатия длинных контекстов в LLM'ках в х4-8 раз практичес...
Хороший пост от разработчика PyTorch с обзором внутреннего устройства фреймворка пост 2019 года, так что некоторые детали уже эволюционировали (слияние Variable/Tensor уже случилось, например), но ментальные модели про тензоры, страйды, автоград и путь вызова — это всё ещё актуально, мне понравилось 🔗 https://blog.ezyang.com/2019/05/pytorch-internals/
Давно не было разборов. А все потому, что последние ~1,5 месяца я много собеседовалась. 🐹 В сумме прошла 28 интервью, включая HR-скрининги, технические этапы, два онсайта, один из которых — с исследовательской задачей и презентацией результатов в конце дня. Что из этого вышло и вышло ли расскажу позже, а пока впечатления именно о процессе поиска и подачи. Было стрессово, трудно, местами изнурительно 🌸 Искала вакансии в Европе и на удалёнке. В приоритете были американские стартапы и бигтехи с о...
Летом вышла HRM, модель на 27М с «биологически вдохновленной иерархией» и 32% на ARC-AGI. У нас тут был обзор на deep-dive от ARC-AGI, где показали, что эта самая иерархия не так и нужна В комьюнити HRM уже успели покрутить, и вышел еще разбор, из которого про модель я узнала больше, чем из оригинальной работы. А следом Tiny Recursion Model, в которой отбросили всю сложность HRM 🔗HIERARCHICAL REASONING MODELS: PERSPECTIVES AND MISCONCEPTIONS 🔗Less is More: Recursive Reasoning with Tiny Network...
✨ Meta выпустила 🔗SAM Audio, модель для open-domain audio separation. В отличие от классических сепараторов с фиксированными стемами (vocals/drums/bass/other), здесь можно изолировать произвольный звук 🎧 Архитектура В основе flow matching модель на базе Diffusion Transformer (DiT). На вход подаем замиксованное аудио и промпты для изоляции. Промпты могут быть трёх типов: 1️⃣ Текстовый: описание звука текстом («dog barking», «woman speaking»). Текст обрабатывает T5-Base энкодер, фичи инжектятся ...