89просмотров
11.2%от подписчиков
26 марта 2026 г.
Score: 98
Практика: литературные вопросы-викторины Я тут участвовала в обсуждении в тематической группе ФБ, где автор задавал разным нейронками вопросы для нахождения произведения по краткому сюжету или концовке, обычно в одном предложении. Большинство нейронок промахивались и придумывали, в комментариях (ожидаемо) комменты про тупость ИИ. Вот пример одного из пяти вопросов и ответа (ссылки на пост не даю, неправильно по отношению к автору, у него были благие намерения 😊):
"What was a famous novel that ends with the protagonist describing how he would become a statue?" (Перевод: что за известный роман заканчивается тем, что главный герой описывает, как он станет статуей). Ответ: "Клод, ГПТ и Джеминай галлюционируют - несут полную ахинею (Портрет Дориана Грея, Овод, и т.п.). Грок один дает правильный ответ - Колыбель для кошки". Мне стало сильно обидно за возможности ИИ, давайте разберем «кто виноват и что делать». И мы же учимся в этом канале понимать ограничения нейронок и использовать их с умом, вот и попрактикуемся 😜. Как обычно, попросила сами нейронки проанализировать кейс и добавила своего опыта. ❌ Возможные причины неправильных ответов и галлюцинаций в данном кейсе:
1⃣ Вопросы заданы как загадки без контекста (без года, страны, языка, имени автора, цитаты). Для LLM это поиск по неясным ассоциациям, а не чёткий факт-запрос — модель выбирает что‑то правдоподобное, а не гарантированно верное. Вообще, вопросы типа викторин подходят для человека, но очень плохи для статистической модели.
2⃣ Настройки модели: большинство обучены отвечать всегда, а не воздерживаться при неуверенности, что прямо стимулирует галлюцинации (писала об этом тут).
3⃣ Редкие объекты в данных: были выбраны не самые популярные произведения, поиск по которым изначально сложнее. Также использование английского в вопросе по русской литературе (были такие) усиливает риск, что редкие русские сюжеты будут «перепривязаны» к более известным западным.
4⃣ В вопросах часто был сильный «сигнал» жанра, но слабый - уникальности: по конкретному примеру выше - есть немало произведений с метафорическим «остываньем», статичностью и т.п. Модели будут «вытягивать» прежде всего известные романы с похожими мотивами («Портрет Дориана Грея» и др.).
5⃣ Отсутствие запроса проверки на внутренние противоречия, стимуляцию отказа и прямого запрета придумывать: LLM не делает проверки: «совпадает ли это описание с известной концовкой романа» по умолчанию. А без четкого запроса (в системном промпте - писала тут, или прямо в конкретном запросе) по степени уверенности или запрета «Не выдумывай произведения, не уверен — скажи честно», риск неверного ответа кратно возрастает. ❓Почему же одна модель чаще «попадала»:
1⃣ Вариации в данных и настройке: Grok мог иметь в базе более богатый набор конкретно этих текстов. Еще, разные модели по‑разному «наказываются» за ответ «не знаю», что влияет на результаты выдачи.
2⃣ Отличаются алгоритмы переформулирования вопроса (писала об этом тут в примере про поиск): некоторые модели разворачивают запрос, добавляют синонимы, жанр, язык оригинала и через эти промежуточные шаги чаще попадают в правильный ответ. Про "что же делать" - в следующем посте.