УУченый без степени | AI-блог Ани

Ученый без степени | AI-блог Ани

@applied_scientist_blog💻 Технологии🇷🇺 Русский📅 март 2026 г.

📊 Applied Scientist из Amazon о технологиях AI. Исследования, практика, новости из индустрии, полезные инструменты с AI - делюсь всем, чем сама интересуюсь. Для связи: @piunova_a

📊 Полная статистика📝 Все посты
##39#интервью
842
Подписчики
1.1K
Ср. охват
128.6%
Вовлечённость
13
Постов
~0.2
В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

13 из 13
Aapplied_scientist_blog
applied_scientist_blog
21 окт., 13:13

Интерактивный tutorial по аудио кодекам от Kyutai labs 😎 https://kyutai.org/next/codec-explainer

👁 3.8K
Aapplied_scientist_blog
applied_scientist_blog
3 нояб., 09:49

В далеком 2020 году вывели степенные законы масштабирования для pre-training. Теперь команда Meta (и партнеры из академии) попытались сделать то же самое для RL 🔗«The Art of Scaling RL Compute for LLMs» показывает, что это предсказуемая сигмоида и предлагает ScaleRL рецепт стабильного RL проверенный на 100k GPU‑часов 😑 Почему не power law, а sigmoid? В отличие от pre-training, где cross-entropy loss следует степенному закону, в RL метрики обычно ограничены сверху (accuracy, pass@k) и ведут себ...

👁 1.1K📷 photo
Aapplied_scientist_blog
applied_scientist_blog
7 нояб., 10:44

Генерация речи с LLM задача нетривиальная, мы тренируем модель воспроизводить наиболее вероятную последовательность аудио / речевых токенов; но это усреднение часто ведет к плоским ненатуральным интонациям, эмоциям и паузам, множеству артефактов. 💃 И здесь RL как раз неплохо вписывается, дает возможность вознаграждать разборчивость, и не поощрять непонятную речь Если вам интересно попробовать RL post-training для TTS на практике, вот хороший пост-tutorial и репозиторий с кодом. Что тут происход...

👁 1.1K
Aapplied_scientist_blog
applied_scientist_blog
21 окт., 10:01

Microsoft предлагает использовать speech-LLM для оценки качества синтетической речи. Идея практичная, стандартные протоколы типа MOS и A/B тестов трудозатратны, а на выходе получаем оценку без качественных инсайтов, что именно пошло не так 🔗SpeechLLM-as-Judges: Towards General and Interpretable Speech Quality Evaluation 🐯 SQ-LLM Авторы собрали датасет SpeechEval: 32к аудио (реальных и синтетики, включая коммерческие TTS), 128к аннотаций на 4 языках (en/zh/ja/fr). Аннотации включают оценки по 8...

👁 1.1K📷 photo
Aapplied_scientist_blog
applied_scientist_blog
9 окт., 09:58

🎧 Align2Speak: TTS для мало-ресурсного языка на 30 минутах аудио Статья о том, как прокачать синтез речи для мало-ресурсных языков. Авторы показывают, что даже на 30 мин парных данных (аудио & текст) можно получить качественный TTS с помощью GRPO post-training. 🔗Align2Speak: Improving TTS for Low Resource Languages via ASR-Guided Online Preference Optimization Статья понравилась, потому что идея простая и прикладная (разбирать что-то сложное пока нет времени). Ну и интересно все, что связано с...

👁 981📷 photo
Aapplied_scientist_blog
applied_scientist_blog
27 окт., 09:14

🐹 ARC-Encoder от Kyutai: plug-and-play компрессия для LLM На прошлой неделе вышла крутая статья от Kyutai Labs (да, я им симпатизирую): 🔗ARC-Encoder learning compressed text representations for large language models Почему-то осталась относительно незамеченной, хотя на мой взгляд работа хорошо сделана и достойна deep-dive чтения. Как уже видно из названия, эта статья даже не про TTS & STT, здесь авторы придумали универсальный энкодер для сжатия длинных контекстов в LLM'ках в х4-8 раз практичес...

👁 924📷 photo
Aapplied_scientist_blog
applied_scientist_blog
29 окт., 13:07

Хороший пост от разработчика PyTorch с обзором внутреннего устройства фреймворка пост 2019 года, так что некоторые детали уже эволюционировали (слияние Variable/Tensor уже случилось, например), но ментальные модели про тензоры, страйды, автоград и путь вызова — это всё ещё актуально, мне понравилось 🔗 https://blog.ezyang.com/2019/05/pytorch-internals/

👁 903
Aapplied_scientist_blog
applied_scientist_blog
16 дек., 17:07

Давно не было разборов. А все потому, что последние ~1,5 месяца я много собеседовалась. 🐹 В сумме прошла 28 интервью, включая HR-скрининги, технические этапы, два онсайта, один из которых — с исследовательской задачей и презентацией результатов в конце дня. Что из этого вышло и вышло ли расскажу позже, а пока впечатления именно о процессе поиска и подачи. Было стрессово, трудно, местами изнурительно 🌸 Искала вакансии в Европе и на удалёнке. В приоритете были американские стартапы и бигтехи с о...

👁 820
Aapplied_scientist_blog
applied_scientist_blog
15 окт., 13:04

Летом вышла HRM, модель на 27М с «биологически вдохновленной иерархией» и 32% на ARC-AGI. У нас тут был обзор на deep-dive от ARC-AGI, где показали, что эта самая иерархия не так и нужна В комьюнити HRM уже успели покрутить, и вышел еще разбор, из которого про модель я узнала больше, чем из оригинальной работы. А следом Tiny Recursion Model, в которой отбросили всю сложность HRM 🔗HIERARCHICAL REASONING MODELS: PERSPECTIVES AND MISCONCEPTIONS 🔗Less is More: Recursive Reasoning with Tiny Network...

👁 811
Aapplied_scientist_blog
applied_scientist_blog
22 дек., 15:33

✨ Meta выпустила 🔗SAM Audio, модель для open-domain audio separation. В отличие от классических сепараторов с фиксированными стемами (vocals/drums/bass/other), здесь можно изолировать произвольный звук 🎧 Архитектура В основе flow matching модель на базе Diffusion Transformer (DiT). На вход подаем замиксованное аудио и промпты для изоляции. Промпты могут быть трёх типов: 1️⃣ Текстовый: описание звука текстом («dog barking», «woman speaking»). Текст обрабатывает T5-Base энкодер, фичи инжектятся ...

👁 739

Типы хуков

Нейтральный10 | 1.1K просм.
Статистика3 | 957 просм.

Длина постов

Очень длинные (1000+)11 | 848 просм.
Короткие (<200)1 | 3.8K просм.
Средние (200-500)1 | 903 просм.

Влияние эмодзи

1.1K
С эмодзи (12)
903
Без эмодзи (1)
+21.6% охвата

Типы контента

📝
8
text
1.2K просм.
📷
5
photo
943 просм.
Ученый без степени | AI-блог Ани (@applied_scientist_blog) — Telegram-канал | PostSniper