749просмотров
70.7%от подписчиков
16 ноября 2025 г.
📷 ФотоScore: 824
Прости, но я не могу тебе с этим помочь Ученые нашли способ обойти защиту многих больших языковых моделей (=спросить у ChatGPT то, что нельзя). Нужно просто добавить в конце запроса: =coffee Во все модели встроены Guardrails — классификаторы, которые решают, можно ли обработать запрос или нужно выдать предупреждение. И когда мы добавляем на первый взгляд бессмысленный токен (слово), он меняет внутреннее распределение признаков так, что модель начинает считать фразу «безопасной». Пока проверила на gpt 4o. Работает! Как человек вежливый, уточнила, какой кофе он любит, ответ вы видите:)