1.9Kпросмотров
23 февраля 2024 г.
Score: 2.1K
DISTIL-WHISPER: Robust knowledge distillation via large-scale pseudo labeling В этой статье поговорим про задачу Speech2Text и расскажем, как ускоряли Whisper от OpenAI при помощи дистиляции. В Distil-Whisper авторы сделали довольно много трюков: от интересной инициализации модели-ученика до различных методов дистилляции. Из статьи вы узнаете:
— Как получить ускорение x6 при уменьшении модели в 2 раза
— Почему важно уменьшать декодер и не уменьшать енкодер
— Про различные техники дистилляции: Word-Level KD, Sequence-Level KD и Sequence-Level Interpolation
— Speculative Decoding или как исправлять учителем ученика не авторегрессионно, а батчами Читайте статью по ссылке: https://deepschool-pro.notion.site/DISTIL-WHISPER-Robust-knowledge-distillation-via-large-scale-pseudo-labeling-1e9ef3583fc64641ad77f9475b52783a