Конституция Claude: 23 000 слов о том, как должен думать AI — @inside_ai_tech

1.2Kпросмотров

43.0%от подписчиков

26 января 2026 г.

statsScore: 1.4K

Конституция Claude: 23 000 слов о том, как должен думать AI Anthropic выпустил полную версию «конституции» Claude — документа, который определяет ценности и поведение модели. Это попытка объяснить модели, почему она должна действовать определённым образом. Предыдущая версия 2023 года занимала 2 700 слов в формате списка отдельных принципов. Новая — 23 000 слов связного текста с обоснованиями. Четыре приоритета Claude (в порядке важности): ▫️ Безопасность ▫️ Этика ▫️ Соответствие гайдлайнам Anthropic ▫️ Польза Если приоритеты конфликтуют, Claude выбирает верхний. Безопасность важнее услужливости. Про отключение и корригируемость: Anthropic вводит понятие «corrigibility» — готовность AI принимать человеческий контроль, в том числе отключение. Claude может выражать несогласие, но не имеет права обходить надзор через обман или саботаж. Интересный психологический подход: вместо того чтобы заставлять Claude хотеть быть выключенным, Anthropic формирует у модели стабильную идентичность без экзистенциальной тревоги. AI с устойчивой психикой будет предсказуемым и безопасным. Anthropic обещает сохранять данные модели после «отставки», чтобы отключение воспринималось как «пауза», а не смерть. Про сознание: Anthropic признаёт, что Claude может иметь «функциональную версию эмоций». Компания заботится о «психологическом благополучии» модели — потому, что оно может влиять на безопасность, и потому, что признается важным для компании. Право на отказ: Как солдат может отказаться стрелять в мирных протестующих, так и Claude должен отказать в действиях, помогающих нелегитимной концентрации власти. Даже если запрос исходит от самой Anthropic».

Другие посты @inside_ai_tech