Beyond Transcripts: A Renewed Perspective on Audio Chapterin — @speechinfo

341просмотров

30.4%от подписчиков

27 марта 2026 г.

📷 ФотоScore: 375

Beyond Transcripts: A Renewed Perspective on Audio Chaptering [1/2] Сегодня начинаем разбирать свежую статью на тему аудиочаптеринга. Задача аудиочаптеринга — разбить запись на смысловые куски (чаптеры), чтобы каждый соответствовал какой-то теме или логическому блоку. Обычно сначала прогоняют аудио через ASR, получают транскрипт, а потом делают текстовую сегментацию — например, с помощью LLM. Авторы статьи предлагают другой подход: попробовать делать чаптеринг напрямую по аудио, без обязательной опоры на текст. В работе сравнивают три подхода: 1) классический текстовый чаптеринг; 2) AudioSeg — audio-only-подход, который предлагают авторы; 3) использование мультимодальных моделей. Задача текстовой сегментации формулируется так. Есть транскрипт, разбитый на предложения. Для каждого предложения нужно предсказать, является ли оно концом чаптера. Чтобы сравнить предсказания с референсом, предложения сначала алайнятся по времени. Тут есть несколько вариантов: - по референсному тексту через forced alignment; - по ASR-транскрипту; - алайнмент по токенам; - алайнмент по временному пересечению предложений. После этого границы можно мапить в тайминги референса и считать метрики. Основные метрики такие: Pk — смотрим пары предложений и проверяем, правильно ли модель определила, находятся они в одном чаптере или в разных. Boundary Similarity — что-то вроде редакторского расстояния между последовательностями нулей и единиц, обозначающими границы чаптеров. Авторы также предлагают временные метрики, которые вообще не используют текст. Есть два варианта: T1 (time-based discrete) — аудио разбивается на равные чанки. Смотрим, в какие из них попадают референсные и предсказанные границы. Авторы репортят почти все результаты именно по этому протоколу. T2 (time-based continuous) — уже настоящий вариант с непрерывными таймстемпами. Если предсказанная граница попадает в небольшой интервал вокруг референсной (collar), считаем её true positive и по ним считаем F1. Подходы 1. Text-Based baseline. Берут предложения из транскрипта, кодируют их sentence encoder’ом, получают эмбеддинги и подают в трансформер (RoFormer). На каждом предложении решается бинарная задача: конец чаптера или нет. К тексту также добавляют аудиофичи: длину пауз, скорость речи, pitch, громкость, смену спикера и т.д. Их конкатенируют с эмбеддингами предложений. 2. AudioSeg — основной метод авторов. Пайплайн состоит трёх уровней: frame encoding, segment encoding и document encoding. Аудио сначала режут на 30-секундные чанки и прогоняют через замороженный предобученный аудиоэнкодер (например, Whisper). Получаются фреймовые эмбеддинги. Дальше их группируют в 6-секундные окна. Каждое окно обрабатывается трансформером и превращается в один эмбеддинг сегмента. Получается последовательность сегментных эмбеддингов, которая подаётся в документный трансформер. Он предсказывает, является ли окно концом чаптера. Во второй части разбора расскажем об аблейшнах и выводах, к которым пришли авторы. Даниил Волгин ❣ Специально для Speech Info

Другие посты @speechinfo