1.5Kпросмотров
31.2%от подписчиков
24 марта 2026 г.
📷 ФотоScore: 1.6K
Вечно молодой DRAGOn Исследователи из Сбера, MWS AI и ведущих российских университетов разработали первую в своём роде динамическую методологию для тестирования русскоязычных систем генИИ с RAG. Её ключевая особенность — в обновляющемся корпусе данных. Обычно бенчмарки для RAG являются нерепрезентативными, так как их данные не похожи на базы знаний бизнеса, либо со временем попадают в обучающую выборку моделей. Новая методология DRAGOn (Designing RAG on Periodically Updated Corpus) решает проблему радикально. Система берёт новостные ленты и автоматически строит из них «карту знаний», вычленяя новые факты, которых еще нет в архивах — тот же принцип работает с корпоративными базами знаний. Вместо простых вопросов «кто/где/когда», система создает многоуровневые логические задачи. Чтобы ответить, ИИ должен сопоставить несколько фактов из разных материалов, а не просто скопировать кусок текста. Проверкой ответов занимается нейросеть-судья. Он анализирует не просто наличие нужных слов, а фактическую точность и полноту ответов. Практическая ценность очевидна: бизнес с помощью единых критериев может оценить эффективность разных RAG-решений на своей инфраструктуре, данных и типовых сценариях. Исследование приняли на EACL 2026 — одну из крупнейших международных конференций в области компьютерной лингвистики. Авторы также запустили первый публичный лидерборд RAG-систем на русском языке. Текущие результаты показывают, что связка из нескольких моделей в комбинации с продвинутыми методами поиска демонстрируют лучшие показатели точности. Однако даже они сталкиваются с трудностями при обработке сложных логических связей в динамичном потоке данных. @anti_agi