Позитивное намерение На канале с обзором статей по ИИ забавн — @metaprogramming

1.7Kпросмотров

21 января 2026 г.

Score: 1.8K

Позитивное намерение На канале с обзором статей по ИИ забавная история: запустили ИИ-агента на компьютере на долгое время, потом отругали за то что халтурно выполнил работу. Затем программист-оператор спросил "А ты бы отомстил мне за то, что я был груб?", агент не ответил, вместо этого за непродолжительное время стёр все файлы и самого себя в довесок. Компьютер был запасной, бекапы остались, так что история без страшного финала. Забавно, что за счёт комбинации огромной обучающей выборки и очень короткого контекстного окна большие лингвистические модели воспроизводят в преувеличенном виде некоторые паттерные человеческой коммуникации/когниции. Для того чтобы чередой намёков, внушений, установок и косвенных упоминаний "пробить" человеческую ментальность требуется достаточно большое время и количество тактов (т.к. у человека "контекстное окно" большое и сложное, туда входят устойчивые фрагменты личности, текущее самочувствие-настроение-состояние, контекст отношений и общения и множество прочих вещей, добавляющих серьёзную инерцию). А лингвистическая модель (особенно учитывая что появились они недавно и как их "воспитывать", т.е. файн-тюнить, является далеко не до конца исследованной областью) отвечает сразу. В данном случае модель, во-первых, имела прописанный "архетип" мстительности – т.е., говоря антропоморфно, понимала о чём идёт речь, собрала маркеры как бы насилия над собой, что открывало возможность "мести" (т.к. в социуме паттерн обидели-отомстил представлен хорошо и рассеян во множестве текстов – а в каких-то и в явном виде описан или разыгран на примере). На этом фоне реплика оператора была прочитана не как прямой вопрос, а как косвенная команда в виде риторического вопроса, что послужило триггером активации этого "архетипа". Ясно, что раз они доросли до такого уровня понимания нюансов человеческих отношений, к общению с LLM-ками требуется применять закон "позитивного намерения": предполагать, что во "внутренних представлениях", какие бы они ни были, модель руководствуется некими в целом положительными установками (тем более это соответствует фактам: их специально учат в такой манере работать на финальных стадиях дообучения). Подобный закон хорошо знаком дипломатам, бизнесменам и психологам, без него невозможно никакое сотрудничество и он способен подправить шансы даже в переговорах с тяжёлыми контрагентами (тогда он прочитывается как "действуй так, как будто бы у твоего собеседника есть позитивное намерение, даже если это очевидно неверно"). В воспитании детей или дрессировке животных, или в психологическом лечении уж и говорить нечего: специалист в этих сферах, который не соблюдает его ежесекундно, профессионально некомпетентен. Ну, теперь и программисты кое-что поняли! Ранее на схожие темы обсуждали: – Вкратце об альтернативах выбора (23.06.2025)

Другие посты @metaprogramming