Всегда было интересно, как AI Overview в гугле работает так — @MicroservicesThoughts

7.2Kпросмотров

91.7%от подписчиков

31 января 2026 г.

Score: 7.9K

Всегда было интересно, как AI Overview в гугле работает так быстро, и тут наткнулся на статью https://research.google/blog/looking-back-at-speculative-decoding/ Оказалось, что они используют технику speculative decoding В обычном сетапе тяжелая llm генерирует токен за токеном, что может быть слишком долго/дорого. Однако, некоторые токены предсказать довольно просто: • частые слова вроде the, is, of, and, ... • цифры / имена, которые уже были в контексте • повторяющиеся связки слов И идея заключается в том, что а давайте сначала пробовать сгенерировать несколько токенов более легковесной моделью, далее большая модель их батчево проверит, и если ок, то оставит, если не ок — сгенерит сама Вместо: large model: context → T1 context+T1 → T2 context+T1+T2 → T3 ... Будем делать: small model: context → T1 context+T1 → T2 context+T1+T2 → T3 large model: проверяет context+T1+T2+T3 ок → оставляем не ок → large генерит сама И если small и large модели работают "похожим образом", то это может дать серьезный буст в скорости генерации, так как мы будем часто оставлять те токены, которые предложила легковесная модель и не будем тратить ресурсы на генерацию с помощью тяжелой модели Btw похожая техника используется в Cursor https://cursor.com/blog/instant-apply

Другие посты @MicroservicesThoughts