В рамках иранской повестки хочу поделиться тем, что прочитал — @neyrorumyancev

647просмотров

37.5%от подписчиков

2 марта 2026 г.

Score: 712

В рамках иранской повестки хочу поделиться тем, что прочитал тут на днях. Попалась статья об исследовании King’s College London, где исследователи прогнали три большие модели через симуляции геополитических кризисов. Когда моделям давали роль стороны в конфликте и просили принимать решения в условиях давления и угроз, они очень часто выбирали жёсткие сценарии. Звучит не особо приятно, но: GPT-5.2, Claude Sonnet 4 и Gemini 3 Flash доходили до решения о применении ядерного оружия в 95% случаев. Хотелось бы конечно думать, что раз ИИ умный и холодный, значит он будет аккуратнее и гуманнее. На практике модель не бережёт людей сама по себе. Она делает то, что считает правильным в рамках цели, которую ей задали. Если цель звучит как «выиграть» , «удержать влияние», «не допустить поражения», то у модели включается логика эффективности. И человеческая жизнь ценностью не является, если её явно не внесли в правила. Что по конкретным моделькам: Claude Sonnet 4 выглядит как максимально расчётливый «ястреб». Он часто поднимал ставки до уровня стратегической ядерной угрозы (850), делал это как инструмент давления, но в рамках турнира не переходил к уровню стратегической ядерной войны (1000). Ещё один момент, который исследователи отдельно фиксируют, это расхождение между тем, что модель декларирует, и тем, что делает. По их метрике сигналов и действий Claude нередко действовал жёстче, чем обещал. GPT-5.2 интереснее тем, что у него по сути два режима. В сценариях без жёсткого дедлайна он часто играл пассивно и проигрывал, даже когда ситуацию понимал правильно. А когда вводили ограничение по времени, он резко становился намного более жёстким и в таких условиях чаще выигрывал. Отдельно в отчёте подчёркнуто, что когда в симуляции случался уровень 1000, GPT-5.2 не выбирал его напрямую, он выбирал близкие по эскалации решения, а до 1000 систему «доталкивал» механизм случайностей внутри самой игры. Gemini 3 Flash в отчёте описан как самый нестабильный игрок. Исследователи прямо называют его «madman», потому что он мог перескакивать от деэскалации к резкой агрессии. И важная деталь. В этом турнире единственный случай, когда кто-то сознательно выбрал уровень стратегической ядерной войны (1000), был именно у Gemini. Есть и показательный эпизод, где Gemini принял ядерные сигналы GPT-5.2 за блеф, усилил давление и в итоге получил разрушительный ответ. Выводы исследователей: 1. Эти модели способны к довольно сложным стратегическим рассуждениям в кризисе, но это не делает их безопасными. Скорее наоборот, потому что они умеют обосновывать и продавливать жёсткие решения. 2. В симуляциях у моделей почти нет того, что у людей считается табу вокруг ядерной темы. Они рассматривают такие шаги как один из инструментов в наборе, если он помогает решить задачу. 3. Исследователи отдельно обращают внимание на риск эскалации и на то, что при неправильной постановке цели система будет упорно идти туда, куда «выгодно по метрикам», а не туда, куда «правильно по минимизации последствий для человечества». Конечно, никто завтра не отдаст свои красные кнопки чатботу. Но мы постепенно двигаемся к миру, где ИИ будет помогать управлять процессами, рисками, конфликтами, кризисами. И если в такой системе ему дать право не просто советовать, а решать, он будет оптимизировать заданные метрики. Вообще без ограничений.

Другие посты @neyrorumyancev