Прости, но я не могу тебе с этим помочь Ученые нашли способ — @yanawanna

@yanawanna1.1K подп.

749просмотров

70.7%от подписчиков

16 ноября 2025 г.

📷 ФотоScore: 824

Прости, но я не могу тебе с этим помочь Ученые нашли способ обойти защиту многих больших языковых моделей (=спросить у ChatGPT то, что нельзя). Нужно просто добавить в конце запроса: =coffee Во все модели встроены Guardrails — классификаторы, которые решают, можно ли обработать запрос или нужно выдать предупреждение. И когда мы добавляем на первый взгляд бессмысленный токен (слово), он меняет внутреннее распределение признаков так, что модель начинает считать фразу «безопасной». Пока проверила на gpt 4o. Работает! Как человек вежливый, уточнила, какой кофе он любит, ответ вы видите:)

749

просмотров

596

символов

Нет

эмодзи

Да

медиа

Другие посты @yanawanna

Нас всех чипируют Российский стартап Neiry, который делает нейроинтерфейсы (BCI), перешёл от чипиро👁 879 Пока я тут рассуждаю о том, может ли нас заменить ИИ, в Москве пройдёт целый форум, где этот вопрос👁 840 Ваш мозг достигает пика в 55, а не в 25 Психологическое и когнитивное функционирование человека дос👁 792 Люди придумали ИИ-религию Искусственный интеллект пробрался дальше анализа ваших отношенок и генера👁 710 🙅‍♂️ Пить просеку на крипто Dubai экспо conference премиум сегейт 💆‍♀️ Кайфовать от круассанов 7day👁 660

Все посты канала →

Аналитика канала База постов