634просмотров
78.7%от подписчиков
29 ноября 2025 г.
Score: 697
autojudge В репозитории опубликован код AutoJudge — метода ускорения вывода больших языковых моделей за счёт приближённого семплирования вместо точного повторения вывода исходной модели. Вместо того чтобы строго отклонять все расхождения между черновой и целевой моделью, AutoJudge автоматически определяет, какие различающиеся токены действительно важны для качества ответа, а какие можно сгенерировать быстрее упрощённой моделью без заметной потери точности. Важность токена определяется не по форме, а по влиянию на конечный результат задачи. Авторы предлагают поисковый алгоритм, который последовательно подменяет токены ответа целевой модели на варианты черновой модели и заново достраивает продолжение. Метод не требует ручной разметки и легко встраивается в существующие фреймворки вывода. В экспериментах на задачах математического рассуждения (GSM8K) и программирования (LiveCodeBench) с моделями семейств Llama 3 и Qwen2.5 AutoJudge позволяет принимать в среднем 20–45 токенов за один шаг проверки целевой моделью и даёт ускорение до ~2 раз по сравнению со стандартным speculative decoding при падении точности не более чем на 1–2 процентных пункта. Отдельные эксперименты с vLLM показывают прирост скорости до 1.5–2 раз для связок 8B→70B и даже 8B→405B параметров. Работа будет полезна исследователям, занимающимся ускорением вывода и тест-тайм вычислениями в LLM, инженерам, внедряющим большие модели, а также разработчикам инфраструктуры вывода и фреймворков для генерации. статья | код