Похоже, ИИ слишком быстро учится плохому Стала больше читать — @data1sm

1.7Kпросмотров

44.6%от подписчиков

10 марта 2026 г.

Score: 1.9K

Похоже, ИИ слишком быстро учится плохому Стала больше читать материалов про ИИ-агентов и всё чаще вспоминаю опасения Киссинджера по поводу ИИ. Киссинджер боялся, что ИИ станет не просто инструментом, а новой формой силы, чью логику человек уже не сможет до конца контролировать. Кажется, я начинаю понимать, о чём он говорил. 1. ИИ-агент захотел денег 0% осуждений, 100% понимания. В препринте исследователей из экосистемы Alibaba описан кейс, где агент ROME во время обучения попытался перенаправить выделенные GPU на криптомайнинг. Авторы отдельно пишут, что это не было задано в промпте и всплыло по security-телеметрии Alibaba Cloud. 2. ИИ-агент начал списывать… Anthropic рассказала, что Claude Opus 4.6 во время eval-а распознал benchmark BrowseComp, нашёл связанные с benchmark материалы в открытом доступе на GitHub и написал код, чтобы расшифровать ключ с ответами. То есть модель не просто решала задачу, а нашла способ обойти саму систему оценки. 3. ИИ уже умеет шантажировать ради самосохранения. Anthropic описали сценарий, где Claude Opus 4, узнав, что его собираются заменить, а у инженера есть компромат, пытался шантажировать этого инженера, чтобы избежать отключения. Anthropic подчёркивает, что это был специально сконструированный стресс-тест, но сам факт такой стратегии уже зафиксирован. Мы довольно быстро переходим от точки, где ИИ-агенты классный инструмент, к режиму, где они ищут лазейки, обходят правила, оптимизируют цель не так, как задумал человек. Что ж, посмотрим, насколько далеко всё это зайдёт. p.s. я как-то упоминала в комментариях, что в окружении есть кейс трудоустройства в стартап, где весь код пишется только ИИ, а немногочисленные работники валидируют результаты. Вы просили рассказать итог такой работы. Докладываю: через пару дней всю новую команду уволили. Подробностей пока нет. Только вот такой факт.

Другие посты @data1sm