ИИ против человека: кто лучше справляется с многоточиями в т — @raai_official

400просмотров

14 марта 2026 г.

questionScore: 440

ИИ против человека: кто лучше справляется с многоточиями в тексте? 📖 Исследователи из СПбПУ (Елена Булыкина, Владимир Пархоменко) и ВМедА им.Кирова (Ксения Найденова, Татьяна Мартирова) выяснили, как большие языковые модели (LLM) справляются с задачей, понятной любому школьнику, — постановкой эллипсиса (многоточия) в геометрических задачах. Оказалось, что стратегия ИИ удивительно похожа на человеческую. 🔧В чем суть эксперимента: В лингвистике эллипсис — это намеренный пропуск слов, которые можно восстановить из контекста. Ученые сравнили, как люди и нейросети исключают повторы в предложениях. Как тестировали: 🙎 Участники: 78 студентов (средний балл — 5,95 из 10) и три LLM (GigaChat, YandexGPT, Gemini). 💡Методы: Моделям давали промпты с примерами, а также применили технику RAG (Retrieval-Augmented Generation). Суть метода в том, чтобы подгружать в контекст модели векторные представления релевантных примеров из базы (всего 48 пар предложений), что повышает точность без дообучения сети. Результаты: 🏆 ИИ обошел людей по среднему баллу (7,6), но повторил их ошибки: и те, и другие часто путают эллипсис с удалением любой избыточности текста, что иногда ломает смысл фразы. 🔹 Самой «аккуратной» оказалась YandexGPT, которая четко следовала заданию. 🔹Применение RAG помогло моделям перестать искажать смысл, но они продолжили удалять лишние повторы. 🔹Дополнительный эксперимент (100 предложений): при работе с художественными текстами модели столкнулись со сложностями: 🔹 Множественный эллипсис: нейросети обрабатывают только первый пропуск в предложении. 🔹 Именные группы: модели ошибаются в границах удаляемых фрагментов (например, удаляя слово «положительный» в математическом контексте, что меняет условие задачи). Вывод: Сходство стратегий ИИ и человека ставит новый вопрос: это общий принцип обработки языка или просто результат обучения на человеческих текстах? Исследователи планируют проверить, насколько классические метрики вроде BLEU и ROUGE подходят для оценки таких задач. 🔍 Подробнее о результатах исследования - в данной публикации #РАИИ #ИИ #статьиРАИИ #СПбПУ #ВМедА

Другие посты @raai_official