M
Microservices Thoughts
@MicroservicesThoughts7.8K подп.
7.2Kпросмотров
91.7%от подписчиков
31 января 2026 г.
Score: 7.9K
Всегда было интересно, как AI Overview в гугле работает так быстро, и тут наткнулся на статью https://research.google/blog/looking-back-at-speculative-decoding/ Оказалось, что они используют технику speculative decoding В обычном сетапе тяжелая llm генерирует токен за токеном, что может быть слишком долго/дорого. Однако, некоторые токены предсказать довольно просто: • частые слова вроде the, is, of, and, ... • цифры / имена, которые уже были в контексте • повторяющиеся связки слов И идея заключается в том, что а давайте сначала пробовать сгенерировать несколько токенов более легковесной моделью, далее большая модель их батчево проверит, и если ок, то оставит, если не ок — сгенерит сама Вместо: large model: context → T1 context+T1 → T2 context+T1+T2 → T3 ... Будем делать: small model: context → T1 context+T1 → T2 context+T1+T2 → T3 large model: проверяет context+T1+T2+T3 ок → оставляем не ок → large генерит сама И если small и large модели работают "похожим образом", то это может дать серьезный буст в скорости генерации, так как мы будем часто оставлять те токены, которые предложила легковесная модель и не будем тратить ресурсы на генерацию с помощью тяжелой модели Btw похожая техника используется в Cursor https://cursor.com/blog/instant-apply
7.2K
просмотров
1283
символов
Нет
эмодзи
Нет
медиа

Другие посты @MicroservicesThoughts

Все посты канала →