D
DeepSchool | Ускорение
@deepschool_speedup1.1K подп.
1.9Kпросмотров
23 февраля 2024 г.
Score: 2.1K
DISTIL-WHISPER: Robust knowledge distillation via large-scale pseudo labeling В этой статье поговорим про задачу Speech2Text и расскажем, как ускоряли Whisper от OpenAI при помощи дистиляции. В Distil-Whisper авторы сделали довольно много трюков: от интересной инициализации модели-ученика до различных методов дистилляции. Из статьи вы узнаете: — Как получить ускорение x6 при уменьшении модели в 2 раза — Почему важно уменьшать декодер и не уменьшать енкодер — Про различные техники дистилляции: Word-Level KD, Sequence-Level KD и Sequence-Level Interpolation — Speculative Decoding или как исправлять учителем ученика не авторегрессионно, а батчами Читайте статью по ссылке: https://deepschool-pro.notion.site/DISTIL-WHISPER-Robust-knowledge-distillation-via-large-scale-pseudo-labeling-1e9ef3583fc64641ad77f9475b52783a
1.9K
просмотров
826
символов
Нет
эмодзи
Нет
медиа

Другие посты @deepschool_speedup

Все посты канала →
DISTIL-WHISPER: Robust knowledge distillation via large-scal — @deepschool_speedup | PostSniper