D
Data Blog
@jdata_blog1.6K подп.
1.8Kпросмотров
5 января 2026 г.
Score: 2.0K
Привет, друзья! Ещё один анонс. 🥷🏻 Моё знакомство с терминалом и кодом когда-то началось с предложения друга поиграть в Bandit от OverTheWire — и с тех пор я до сих пор безгранично люблю эту игру. Тогда же я впервые услышала про CTF (Capture The Flag) — по сути, набор задач по кибербезопасности. Я также очень люблю фильм Who Am I, а за последний год успела немного погрузиться в тему атак на модели. Короче говоря — мини-хакер во мне всегда, похоже, жил) В июне 2024 года я пришла к Жене — СЕО HiveTrace и начала активно «продавать» ему интерпретируемость. А так как интерпретируемость сравнительно недавно пришла и в безопасность, мы довольно быстро начали закидывать друг друга гипотезами. Например, тут и тут показывают, что стирание признаков через SAE снижает успешность GCG-атаки. И исследований, конечно, не так много, но приложение интерпретируемости в безопасности — шикарная, от того что многонранная, тема для обсуждения! 📅 8 января мы с Евгением проведём эфир на темы: 1. Безопасность моделей: какие подходы и методы стали ключевыми в 2025 году и какие тренды будут определять развитие дальше. 2. Safety vs Security: почему эти понятия важно чётко различать на практике. 3. Guardrails, steering и RLHF: сильные стороны, ограничения и границы применимости. 4. Роль интерпретируемости в задачах безопасности моделей. Формат — живое обсуждение, такое же чилловое, как и перед Новым годом с Ромой. Но будет лучше связь — будет зум! А ещё мы с радостью поотвечаем на вопросы. Присоединяйтесь! Ссылка на зум. И помните ... Kein System ist sicher :) (советую фильм)
1.8K
просмотров
1589
символов
Да
эмодзи
Нет
медиа

Другие посты @jdata_blog

Все посты канала →
Привет, друзья! Ещё один анонс. 🥷🏻 Моё знакомство с термин — @jdata_blog | PostSniper