1.4Kпросмотров
9 июня 2025 г.
questionScore: 1.6K
/Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA/ Одна из задач, которой мы занимаемся в команде, - задача адаптивного ретривала. Замечали когда-нибудь, когда использовали ChatGPT, "searching the Web"? Когда и как алгоритм решает, что можно положиться исключительно на параметрические знания, а когда необходимо поискать релевантный контекст? Одним из возможных аспектов является темпоральность. В нашей новой работе мы вводим понятие 🌿 Evergreenness. Вопрос является 🌿 evergreen, если ответ на него не меняется с течением времени (а значит и искать для него никакой контекст скорее всего не нужно, модель и так знает на него ответ). Давайте посмотрим на два вопроса: 🔺 «Кто сейчас президент США?» — это изменчивый факт 🍂, президетнами были и Джо Байден, и Дональд Трамп, и Барак Обама; и вообще "сейчас - это когда для модели?"
🔺 «Кто был первым президентом США?» — а это уже стабильный 🌿, evergreen fact, он не изменится с течением времени Чтобы обучить модель различать такие вопросы, мы дообучили классификатор EG-E5 на датасете EverGreenQA — 4,757 реальных пользовательских вопросов на 7 языках. Что мы узнали? 1⃣ Если вопрос 🌿 evergreen, модель, скорее всего, ответит правильно и без необходимости запускать пайплайн RAG, но если вопрос изменчивый — прогнозировать результат сложнее.
2⃣ Аспект evergreenness позволяет улучшить калибрацию, то есть корреляцию уверенности модели в ответе и действительной корректности ответы
3⃣ Фильтрация изменчивых вопросов отличная идея для фильтрации QA датасетов и бенчмарков, где "золотые" ответы на вопросы уже давно перестали быть таковыми (см картинку 2)
4⃣ Фича сильно коррелирует с кейсами, когда GPT4о ходит в ретрив
5⃣ Анализ ошибок выявляет интересные кейсы для будущих исследований. Например, вопрос "Какая жена у актера Х?" в общем случае изменчивый. Но если человек умирает, все вопросы о нём становятся evergreen. Также модель начинает теряться касательно вопросов про недавние годы (2023-2024), ведь у неё нет «чувства времени». (см картинку 3) P.S. Считаю эту работу одной из лучших, в которой я участвовала. Обычно датасет это просто датасет без конкретных идей о том, для каких задач его можно применить. Метафора с листочками - топ! Ну и сама подача (визуализация) - вау) P.P.S. Мой коллега, соавтор этой статьи, завел замечательный канал с замечательным названием - Рандомные галлюцинации - присоединяйтесь! 📄 Статья
💻 GitHub
📊 Датасет 📢 Понравилось исследование? Поддержите нашу папиру лайком на Hugging Face в daily papers! #nlp