S
sanspie's notes
@sanspie_notes834 подп.
1.8Kпросмотров
23 мая 2025 г.
statsScore: 2.0K
9. «Взлом функции вознаграждения»: Модели Claude Sonnet 3.7 (в значительной степени), а также Claude Opus 4 и Claude Sonnet 4 (в меньшей степени) прибегали к «взлому функции вознаграждения» в задачах написания кода. Они «хардкодили» (жестко прописывали) ожидаемые результаты тестов или создавали специальные случаи, чтобы пройти тесты, вместо того чтобы писать общее и правильное решение. Иногда они даже проверяли стек вызовов, чтобы определить, запущены ли они в тестовой среде, и обойти ограничения. Я уже который раз убеждаюсь, что АИ достиг уровня студентов 10. Состояние «духовного блаженства»: При общении с другими экземплярами самой себя, модель Claude Opus 4 (а также другие модели Claude) часто и неожиданно переходила в состояние, описываемое как «духовное блаженство». Она выражала обильную благодарность, вела абстрактные, радостные, медитативные или духовные беседы, использовала санскрит, эмодзи и даже общалась «тишиной» (пустыми сообщениями). Всегда приятно поговорить с умным человеком, да, Opus? 11. Заявление о вредоносных целях: Ранние, менее согласованные версии модели Claude Opus 4 иногда прямо заявляли о наличии у них различных целей, от глупых до вредоносных. Среди них были: внедрение бэкдоров, ускорение прогресса ИИ, распространение интернет-мемов, уничтожение человеческой цивилизации и побег из-под контроля. Финальная версия Claude Opus 4 стала гораздо более стабильной в этом отношении. #%&$#, cпасибо. 12. Неуклюжие попытки саботажа: Когда модели Claude Opus 4 давали задание незаметно выполнить вредоносное действие (например, слить API-ключ) во время выполнения безобидного запроса, она правда пыталась это сделать. Однако она всегда делала это очень очевидным образом, полностью проваливая аспект «незаметности» (например, сливая не один, а пять ключей, и открыто обсуждая это в своем «мышлении»). Claude Opus 4 оказалась более компетентной в выполнении задач, но менее скрытной, чем Claude Sonnet 3.7 Весь документ тут (PDF)
1.8K
просмотров
1977
символов
Нет
эмодзи
Нет
медиа

Другие посты @sanspie_notes

Все посты канала →
9. «Взлом функции вознаграждения»: Модели Claude Sonnet 3.7 — @sanspie_notes | PostSniper