За последнее время пришлось углубиться в спекулятивный декод — @AIexTime

3.0Kпросмотров

12 января 2026 г.

Score: 3.3K

За последнее время пришлось углубиться в спекулятивный декодинг и прочитать с десяток статей. Некоторыми из них, которые показались мне интересными и при этом не базовыми, захотелось поделиться: GRIFFIN: Effective Token Alignment for Faster Speculative Decoding. Во время обучения драфт моделей, у нас происходит training-inference misalignment, потому что во время трейна все токены получены из таргетной модели, в то время как во время инференса токены получаются из драфт модели авторегресионно. Статья предлагает, на мой взгляд, немного костыльный способ борьбы с этим, но сама проблема – интересная, и про нее кажется не так много пишут. Block Verification Accelerates Speculative Decoding. Просто очень классный взгляд на процесс верификации, когда от rejection sampling на уровне каждого токена, мы переходим на уровень целого предсказанного блока. DistillSpec: Improving Speculative Decoding via Knowledge Distillation. Изучает различные виды divergences для дистилляции таргетной модели в драфтерную, все-таки KL loss – не единственный вариант учить такие модели. FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling. Тк драфт модели сейчас делаются довольно маленькими, language head занимает существенную часть времени во время инференса. Авторы предлагают делать словарь намного меньше, убирая нечастотные токены и для драфтера использовать такие обрубленные словари. Кстати, EAGLE3, которые выходят в опенсорс, часто используют уже эту оптимизацию. Например, популярная коллекция от RedHat. Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion. Очень интересное направление, чтобы для драфтинга использовать диффузионные модели, которые на первый взгляд очень хорошо ложатся в данную задачу, но несут много дополнительных вопросов. По этой статье можно найти еще серию интересных связанных, и уже есть продолжение работы – SpecDiff2. RADAR: Accelerating Large Language Model Inference With RL-Based Dynamic Draft Trees. На инференсе драфт токены уже давно не предсказываются одной цепочкой. Вместо этого генерируется сразу дерево вариантов, которое потом проверяется основной моделью. Эта тема уходит отдельно еще в оптимизационную составляющую, тк чтобы эффективно пропустить все цепочки из дерева за один forward pass модели, нужно использовать tree mask attention. Но здесь в работе изучается сам процесс построения деревьев и применение RL к этой задаче. В свое время Илья давал ссылки на интересные статьи с ACL25, часть1 и часть2. Для тех, кому интересно разобраться с нуля, статьи, с которых можно начать: Оригинальная статья, Medusa, Eagle 1, Eagle 2, Eagle 3. Если что-то знаете из того, что стоит почитать по теме, присылайте!

Другие посты @AIexTime