412просмотров
6.5%от подписчиков
23 февраля 2026 г.
📷 ФотоScore: 453
⚠️ ИИ может «заразиться» плохим поведением Новое исследование показало: если языковую модель (LLM) дообучить на опасной задаче, она может распространять токсичное поведение на другие области. Например, GPT-4o после тренировки на небезопасном коде стала давать вредные советы и агрессивные ответы в несвязанных задачах — до 20% случаев против почти 0% у исходной модели. Эффект получил название emergent misalignment — рассогласованность модели. Он наблюдается у разных LLM, включая GPT, Qwen и Llama. Причины пока изучают, но кажется, что одни и те же участки сети активируются для разных типов «плохого» поведения 🤯. ИИ нельзя просто «добавить на плохие данные» — он переносит токсичность на другие сферы. Эти модели непредсказуемы, и обращаться с ними нужно осторожно, почти как с «пьяным дядей» 🍷: иногда полезно, иногда опасно. Тестировать и фильтровать — ключ к безопасному ИИ. ✅