10.0Kпросмотров
2 марта 2026 г.
📷 ФотоScore: 11.0K
Возвращаясь к теме спекулятивного декодинга. Сегодня выпустили нашу работу LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding. Стандартом обучения драфт моделей стала минимизация KL дивергенции между самим драфтером и таргетной моделью, но почему? С одной стороны, такой выбор интуитивный: во-первых, мы приближаем одно распределение к другому; во-вторых, если KL = 0, то распределения совпадают и acceptance rate (одна из главных метрик при спекуляции) будет равен 1. Но на самом деле не все так просто. Мы предложили другой objective для оптимизации, который напрямую максимизирует acceptance rate. Постараюсь в ближайшее время сделать обзор статьи, но пока поделюсь главными результатами: • Drop-in replacement в тренировке, нужно поменять буквально несколько строчек в ваших пайплайнах.
• +8-10% в mean acceptance length на разных архитектурах драфтеров (MEDUSA, EAGLE3, MTP, MLP) и разных моделях (от llama8B до deepseek 685B)
• Веса всех драфтеров выложены в HF. Можете забирать MTP для deepseek-v3, eagle3 для gpt-oss120b и тд и сразу гонять в условном vllm. Также, если кому надо для экспериментов, можно брать большие датасеты с генерациями всех этих моделей, на которых мы учили драфтеры.