Возвращаясь к теме спекулятивного декодинга. Сегодня выпустили нашу работу LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding. Стандартом обучения драфт моделей стала минимизация KL дивергенции между самим драфтером и таргетной моделью, но почему? С одной стороны, такой выбор интуитивный: во-первых, мы приближаем одно распределение к другому; во-вторых, если KL = 0, то распределения совпадают и acceptance rate (одна из главных метрик при спекуляции) будет равен 1. Но на само...
AI[ex]Time
Канал с новостями про Machine Learning, Engineering, Time Management, ... Делаю обзоры на статьи, рассказываю кейсы из опыта, делюсь мыслями. Больше информации смотри в первом сообщении канала Контакт для связи: @alex_golubev13
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
19 из 19Я больше не пишу прям про каждый релиз swe-rebench, просто знайте, что каждый месяц он стабильно обновляется и во вкладке Insights есть какие-то интересные наблюдения. Но сейчас напишу – мы только что добавили Opus 4.5, чтобы наверняка проверить, что Anthropic вчера не соврали. И действительно, у нас он тоже занимает теперь первое место. Обратите еще внимание, как упала цена и потребление токенов по сравнению с Opus4 😘 Gemini 3 Pro на подходе.
Сегодняшний апдейт лидерборда swe-rebench мне кажется одним из самых интересных за все время, по нескольким причинам: 1. Добавили целый ряд моделей: gpt-5.2, gpt-5.1-codex-max, Gemini 3 Pro, DeepSeek-v3.2, Devstral2. Все модели от openai теперь прогоняются через responses API с сохранением ризонинг блоков. И все модели по-своему интересны: – gpt-5.2 прыгнула на самый верх и теперь соревнуется с Sonnet/Opus 4.5. А главное посмотрите на кол-ве потраченных токенов в среднем на задачу – почти как gp...
За последнее время пришлось углубиться в спекулятивный декодинг и прочитать с десяток статей. Некоторыми из них, которые показались мне интересными и при этом не базовыми, захотелось поделиться: GRIFFIN: Effective Token Alignment for Faster Speculative Decoding. Во время обучения драфт моделей, у нас происходит training-inference misalignment, потому что во время трейна все токены получены из таргетной модели, в то время как во время инференса токены получаются из драфт модели авторегресионно. С...
В рамках одного из проектов, где мы строим scaffolding-agnostic инфраструктуру, накопилось достаточно большое кол-во агентских траекторий, которые мы посчитали будет полезно выложить. И сразу же возник вопрос: а насколько можно прокачать модель в SWE, сделав простой rejection fine-tuning на траекториях Qwen3-480B-Coder. Оказалось, что очень даже неплохо – тянет на сильный бейзлайн в других экспериментах. Собрав множество деталей и багов запуска с OpenHands, сделали еще небольшой чеклист, как реп...
А теперь угадайте, сколько подач на ICML 2026 > 34k 💀
Фича Gemini 3 Pro, про которую я говорил в посте выше. Прикрепляя ссылку на ютуб, оно нативно подается на вход и пишет число токенов, которое тратится. На 2-2.5 часа уходит примерно 700-800к токенов, то есть близко к пределу в 1M. Очень нравится разгребать видео, которые давно лежат и вроде хотелось бы посмотреть, но не так сильно, чтобы тратить столько времени.
🎄 Релизим 67 074 траектории Qwen3-Coder с OpenHands + 2 RFT чекпоинта. > Мы выкладываем: 67 000+ траекторий по 3 800 решенным задачам в 1 800+ Python репозиториях. > Примерно в 3 раза больше успешных траекторий и в 1.5 раза больше репозиториев, чем в нашем прошлом датасете. > Траектории длинные: в среднем 64 шага, до 100 шагов и контекст до 131k токенов. > RFT на этих данных, SWE-bench Verified: Qwen3-30B-Instruct: 25.7% → 50.3% Pass@1. Qwen3-235B-Instruct: 46.2% → 61.7% Pass@1. Также сильный р...