1.9Kпросмотров
9 января 2026 г.
🎬 ВидеоScore: 2.1K
Привет, друзья! А вот и наш вчерашний эфир. ☺️ На нём было всё — от конструктивного обсуждения, до случайных вольных художников. Последних пришлось вырезать, ибо свастика, элементы биологии и правописание глаголов в нецензурном контексте — не тема эфира. Зато как было весело в онлайне! Прошлись по всем темам: 1. Безопасность моделей: какие подходы и методы стали ключевыми в 2025 году и какие тренды будут определять развитие дальше. 2. Safety vs Security: почему эти понятия важно чётко различать на практике. 3. Guardrails, steering и RLHF: сильные стороны, ограничения и границы применимости. 4. Роль интерпретируемости в задачах безопасности моделей. + обсудили, как же весело делать рисерч, узнали некоторые детали о разметке данных, обсудили тему необходимости интерпретиуремости и подумали, есть ли в ней прибыль. Спасибо слушателям за вопросы и комментарии!
Надеюсь, встретимся ещё неоднократно! Ваш,
Дата-автор! 🤗