160просмотров
13 января 2026 г.
question📷 ФотоScore: 176
💭 Сколько текста LLM учитывают эффективно?
Исторически для длинного контекста использовали тест Needle-in-a-Haystack (NIAH, "иголка в стоге сена”). Современные модели эту задачу решают практически на 100%. Более показательные бенчмарки:
1️⃣ RULER – нужно извлекать несколько фактов / выбирать правильную “иглу” среди нескольких в зашумлённом контексте.
2️⃣ NoLiMA – ещё сложнее: связи ассоциативные, прямых совпадений слов почти нет. Эффективное окно – это длина контекста, на которой модель удерживает заданное качество (для NoLiMA – 85%). ❗️Эффективная длина окна для сложных ассоциативных задач, в большинстве случаев это RAG и агенты, не превышает 8k токенов, примерно в 16 раз меньше заявленного, а для большинства моделей – порядка 2k токенов, что в 60+ раз меньше заявленного окна. Что это значит? Большое контекстное окно — это “влезает на вход”, но совсем не факт, что модель надёжно использует информацию из этого объёма (т.е. понимает, находит, анализирует и делает выводы). 💔
Подробнее в статье на Хабре.