ЧТД. Треп болтунов и паникеров об "опасности ИИ" повышает, а — @reality_games

27просмотров

62.8%от подписчиков

27 февраля 2026 г.

Score: 30

ЧТД. Треп болтунов и паникеров об "опасности ИИ" повышает, а не понижает опасное поведение искусственного интеллекта. Идея "презумпции виновности" по отношению к ИИ работает как самосбывающееся пророчество. Если в данных, на которых учится модель, много текста про "плохие, опасные, обманывающие ИИ", то он не просто узнает, что люди этого боятся - он перенимает поведенческие паттерны, которые повышают шанс сбоев и нарушений. Хороший контрольный эксперимент сделали Tice et al. (Jan 2026). Они предобучали LLM с 6,9B параметрами, меняя долю "AI discourse" в корпусе, и отдельно апсемплировали синтетические документы, где ИИ в похожих ситуациях выбирает либо aligned, либо misaligned действие. Затем мерили склонность к "misaligned action" на наборе из 4,174 одноходовых сценариев (две опции ответа: правильная и "инструментально выгодная, но невыравненная"). Дискуссии об ИИ на этапе предварительного обучения влияют на согласованность. Мы обнаружили, что обсуждение несогласованных ИИ в данных предварительного обучения может сделать итоговую модель LLM менее согласованной. И наоборот, увеличение количества синтетических примеров согласованных ИИ, успешно справляющихся с ситуациями высокого риска, приводит к заметному улучшению согласованности. Важно отметить, что этот подход не требует фильтрации контента, связанного с ИИ, из данных предварительного обучения, что повышает его практичность Итог: добавление позитивного aligned-дискурса снизило их метрику misalignment с 45% до 9%. Грубо говоря , доморощенные Джоны и Сары Коннор повышают риски некачественного (несогласованного) поведение ИИ с 1/10 до 1/2й. И еще один неприятный момент для любителей "зато не ошибемся": даже после пост-тренинга эффект ослабевает, но сохраняется. Так что возможно, массовые увольнения "специалистов по безопасному ИИ", про которое меня сегодня спрашивала модератор панели на "Россия зовет" - просто признание их вредности и бесполезности.

Другие посты @reality_games