DISTIL-WHISPER: Robust knowledge distillation via large-scal — @deepschool_speedup

@deepschool_speedup1.1K подп.

1.9Kпросмотров

23 февраля 2024 г.

Score: 2.1K

DISTIL-WHISPER: Robust knowledge distillation via large-scale pseudo labeling В этой статье поговорим про задачу Speech2Text и расскажем, как ускоряли Whisper от OpenAI при помощи дистиляции. В Distil-Whisper авторы сделали довольно много трюков: от интересной инициализации модели-ученика до различных методов дистилляции. Из статьи вы узнаете: — Как получить ускорение x6 при уменьшении модели в 2 раза — Почему важно уменьшать декодер и не уменьшать енкодер — Про различные техники дистилляции: Word-Level KD, Sequence-Level KD и Sequence-Level Interpolation — Speculative Decoding или как исправлять учителем ученика не авторегрессионно, а батчами Читайте статью по ссылке: https://deepschool-pro.notion.site/DISTIL-WHISPER-Robust-knowledge-distillation-via-large-scale-pseudo-labeling-1e9ef3583fc64641ad77f9475b52783a

1.9K

просмотров

826

символов

Нет

эмодзи

Нет

медиа

Другие посты @deepschool_speedup

Стартовал курс «Ускорение нейросетей»🎉 Вчера была вводная встреча со студентами первого потока! Мы👁 2.3K 🎞 Выложили запись интервью с Александром Гончаренко Саша — CTO стартапа по ускорению моделей👁 2.2K От нейросетей на FPGA до CTO стартапа Знакомьтесь с хэдлайнером нашей программы и СТО ENOT.ai, Саше👁 1.9K Ускорение нейросетей на практике Ускорение — важный навык в DL-индустрии: - растёт потребность инфе👁 1.8K Лекция по ускорению нейросетей во вторник в 18:00 МСК! Ранее мы рассказывали, почему в индустрии вс👁 1.7K

Все посты канала →

Аналитика канала База постов