406просмотров
66.1%от подписчиков
14 марта 2026 г.
questionScore: 447
😬 Патентоебы скучали? Пост для тех, кто дрочит на нейронки и жить без них не может Все мы знаем, что ИИ ловит галюны — уверенно выдает чушь за истину. Но есть уровень абсурда интереснее, о нем и хочу сегодня рассказать: 🔣Что такое фича "уровень уверенности" 🔣Внутрянка модели от входа до выхода
🔣Есть ли истинная истина 🔣Как обезопасить себя от ложных ответов
🔣Ссылки для самообразования 🥺 Уровень уверенности — надстройка от разработчиков Многие представляют эту фичу так: «я уверен на 82%». Однако, нет — это в корне неверно. Я очень много документов изучила, чтобы по-простому это объяснить. Внутрянка такова 🔣модель на каждом шаге выбирает следующий токен из распределения вероятностей 🔣она оценивает не «истинность ответа», а насколько следующий кусок текста подходит к контексту 🔣дальше поверх этого люди уже докручивают: выражать неопределенность словами, говорить «не знаю», осторожничать, маркировать ответ как низкий, средний или высокий уровень уверенности То есть уровень уверенности в интерфейсе — это не встроенное чувство истины, а надстроенная людьми форма самооценки. Чтобы "уверенность" работала более-менее доказуемо, модель может опираться на реальные сигналы: 🔣устойчивость ответа
🔣наличие источников
🔣согласованность и другие паттерны Но даже это не приближает нас к истине. 🥺 В чем подвох? Модель работает на 2 крупных слоях. Генерация ответа: говорит, что считает подходящим продолжением в рамках конкретного контекста. Генерация оценки ответа: может сказать, насколько уверена в сказанном на выходе. Прекол в том, что 2-й слой тоже может быть ложным. 🥺 Самое грустное Модель выдала неверный факт — написала «я пиздец как уверена» — пользователь решил, что всё ок. И по сути, это уже не галлюцинация, а ложная оценка галюна со знаком "+". Типа, бро, я тебе напиздела, но не сцы, я уверена, что все ок. И юзер сразу расслабляется. Ведь, ну она ж сама себя проверила. 🖱 Вывод Уверенность LLM — это не доказательство истины. Есть вход/запрос и выход/ответ. И люди не видят всего, что происходит между входом и выходом. Да, они назначают веса на обучении и на тюне стараются сделать максимально качественные метрики ответов. Это не гарантия! 👏 Как постараться снизить обман ради классов Отвечай максимально точно и проверяемо. Факты — только если можешь подтвердить. Если не можешь — пометь как предположение. Не додумывай контекст. Если речь про актуальное — сначала проверь источники и дай ссылки. Отделяй факты, интерпретации и выводы. Если надежного ответа нет — скажи это прямо. Уровень уверенности указывай только вместе с объяснением, на чем он основан. Помните, что главная проблема ИИ в том, что он слишком убедителен. Умный ответ ≠ истинный ответ.
Уверенный ответ ≠ надежный ответ.
Высокая уверенность ≠ отсутствие галлюцинации. 🔗 Патенты и оф документы от крупных игроков рынка для самостоятельного ресерча — OpenAI: Teaching models to express their uncertainty in words
https://openai.com/index/teaching-models-to-express-their-uncertainty-in-words/ — OpenAI: Why language models hallucinate
https://openai.com/index/why-language-models-hallucinate — OpenAI: TruthfulQA
https://openai.com/index/truthfulqa/ — Anthropic: Reduce hallucinations
https://docs.anthropic.com/en/docs/test-and-evaluate/strengthen-guardrails/reduce-hallucinations — Anthropic: Claude is providing incorrect or misleading responses
https://support.anthropic.com/en/articles/8525154-claude-is-providing-incorrect-or-misleading-responses-what-s-going-on — Anthropic: Model System Cards
https://www.anthropic.com/system-cards — xAI: Grok-1 Model Card
https://github.com/xai-org/grok-1/blob/main/model-card.md — Патент: Confidence enhancement for responses by document-based large language models
https://patents.google.com/patent/US12242522B2 — Патент: Controlling uncertain output by large language models
https://patents.google.com/patent/US20250021468A1