160просмотров
13 января 2026 г.
question📷 ФотоScore: 176
💭 Сколько текста LLM учитывают эффективно? Исторически для длинного контекста использовали тест Needle-in-a-Haystack (NIAH, "иголка в стоге сена”). Современные модели эту задачу решают практически на 100%. Более показательные бенчмарки: 1️⃣ RULER – нужно извлекать несколько фактов / выбирать правильную “иглу” среди нескольких в зашумлённом контексте. 2️⃣ NoLiMA – ещё сложнее: связи ассоциативные, прямых совпадений слов почти нет. Эффективное окно – это длина контекста, на которой модель удерживает заданное качество (для NoLiMA – 85%). ❗️Эффективная длина окна для сложных ассоциативных задач, в большинстве случаев это RAG и агенты, не превышает 8k токенов, примерно в 16 раз меньше заявленного, а для большинства моделей – порядка 2k токенов, что в 60+ раз меньше заявленного окна. Что это значит? Большое контекстное окно — это “влезает на вход”, но совсем не факт, что модель надёжно использует информацию из этого объёма (т.е. понимает, находит, анализирует и делает выводы). 💔 Подробнее в статье на Хабре.
160
просмотров
1020
символов
Нет
эмодзи
Да
медиа

Другие посты @nado_razobratsya_ai

Все посты канала →
💭 Сколько текста LLM учитывают эффективно? Исторически для — @nado_razobratsya_ai | PostSniper