В свежей статье на Хабре магистрант из AI Security Lab Марга — @aisecuritylab

1.4Kпросмотров

84.3%от подписчиков

27 января 2026 г.

Score: 1.5K

В свежей статье на Хабре магистрант из AI Security Lab Маргарита Пузырева рассматривает гардрейлы от OpenAI. Ее тестирование выявило ряд проблем. ⚡️ Ложные срабатывания. Детектор PERSON воспринимает имена литературных персонажей как персональные данные. В тестах на вопросах о книге «451 градус по Фаренгейту» PII-гардрейл срабатывал в 28% случаев без реальных ПД. ⚡️ Нестабильное распознавание русских ФИО: в 40% случаев детектор PII не срабатывал на русские ФИО. ⚡️ Ошибки в определении паспортных данных: номер паспорта часто классифицируются как дата/время (84%) или телефон (52%). Вывод: защита из коробки пока не обеспечивает заявленный уровень безопасности. Статья здесь.

Другие посты @aisecuritylab