Как ИИ «думает» и где появляются галлюцинации. У больших язы — @technologypick

228просмотров

76.5%от подписчиков

6 марта 2026 г.

📷 ФотоScore: 251

Как ИИ «думает» и где появляются галлюцинации. У больших языковых моделей нет встроенного «детектора правды». Они просто по шагам подбирают самые вероятные следующие токены, опираясь на статистику из обучающего набора, а не на реальную проверку фактов. 1. Prompt — запрос. Пользователь пишет фразу, она разбивается на токены (слова и куски слов) и представляется числами. Модель не «понимает» смысл как человек, она работает с этими числами и их связями. 2. LLM — генерация черновика. Модель по своему внутреннему состоянию считает вероятности следующего токена и по одному добавляет их в ответ. Она ориентируется на похожие примеры из обучения, а не на внешнюю реальность. 3. Model Answer — черновой ответ. Получается полный текст, но ещё без фильтров и оценок. В нём уже могут быть как точные факты, так и ошибки и выдумки. 4. GPT‑4o / этап оценки. Отдельная модель или модуль читает черновик и оценивает его по критериям: полезность, вежливость, безопасность, соответствие инструкциям. Это похоже на редактора, который не всегда знает, правда ли написанное, но видит стиль и структуру. 5. Evaluated Answer — оценённый ответ. На этом шаге система помечает части текста: что выглядит хорошо, что рискованно, что противоречит политикам. Но это всё ещё не проверка «истинности», это оценка по косвенным признакам. 6. Selection of Tokens — выбор токенов. Система принимает решение, какие токены можно оставить, какие заменить или выкинуть, учитывая вероятности и ограничения (например, фильтр небезопасного контента). 7. Selected Tokens — почти финальный ответ. Из выбранных токенов собирается итоговый текст, который пользователь увидит. Параллельно генерации текста модель строит Attention Maps — карты внимания. Они показывают, какие токены запроса и промежуточного ответа сильнее всего повлияли на текущий выбор модели. Основная зона появления галлюцинаций — между LLM и Selected Tokens, то есть на этапе генерации и отбора текста. Модель генерирует токен не потому, что он верен, а потому что он статистически уместен в контексте. Если в обучающих данных часто встречалась уверенная формулировка несуществующего факта (выдуманная статья, неверная дата, неправильный код), модель может воспроизвести её как «правдоподобный» ответ. Этапы оценки (GPT‑4o, классификатор) пытаются отфильтровать очевидно опасные или бессмысленные фрагменты, но они также опираются на шаблоны и вероятности, а не на прямую проверку фактов в базе знаний или в реальном мире. Поэтому по всей цепочке нет жёсткого шага «проверить, правда ли это» — есть только фильтры, которые смотрят на форму текста и косвенные признаки. В итоге система может сказать: «Это похоже на правду» или «Это похоже на галлюцинацию», но не гарантировать ни то, ни другое. Делитесь самым интересным фактом выдаваемым нейросетью за истину?

Другие посты @technologypick