Как насчёт того, чтобы менять поведение языковых моделей хир — @mindful_coding

65просмотров

54.2%от подписчиков

25 февраля 2026 г.

questionScore: 72

Как насчёт того, чтобы менять поведение языковых моделей хирургическим путём? Рассказывают авторы статьи «Model Surgery: Modulating LLM’s Behavior via Simple Parameter Editing». В чём суть? 🔹 Языковые модели могут генерировать потенциально вредный текст в ответ на хорошо подобранный запрос – хорошо бы удалить эту способность, чтобы в недобрых руках они оказались бесполезны. 🔹 Можно использовать разные техники дополнительного обучения, и это работает, однако не бесплатно: нужны вычислительные ресурсы. Ещё в процессе подобного обучения модели часто теряют полезные нам навыки. 🔹 Существуют методы, позволяющие точечно «вшить» в модель конкретный факт. Помните, мы говорили о том, что модель, грубо говоря, составлена из множества математических формул? Если в этих формулах поменять коэффициенты, её ответы изменятся – именно так и «вшивают» факты. 🔹 Авторы решили, что тогда можно изменить и поведение модели таким же образом: подкрутить коэффициенты и заставить её, например, перестать ругаться матом. Вот только извлечь конкретные факты проще, чем абстрактные понятия вроде «агрессивности» или «несправедливости». Тем не менее, кое-что сделать можно 🔹 Модель на вход получает матрицу из чисел. Эта матрица проходит через все слои, то есть, умножается на разные числа и матрицы, и к ней прибавляются разные числа и матрицы, и иногда к ней применяются более сложные функции, но в результате всё равно получается матрица. 🔹 Можно взять запрос, на который модель ответит что-то безобидное, и запрос, на который модель ответит что-то вредное, дать их на вход и посмотреть на их изменения внутри. 🔹 По этим изменениям можно заранее понять, будет в итоге ответ вредным или безобидным. То есть, в ходе экспериментов можно уже на условном слое x понять, что нас ждёт на выходе. 🔹 И тогда в том же слое x можно внести небольшое изменение в формулу, чтобы ответ сдвинулся в сторону безвредного варианта. Мы ведь заранее посмотрели, чем вредные и безвредные ответы отличаются. 🔹 Слой x мы тоже определили, сравнивая результаты отработки вредных и безвредных запросов: в нём отличия более явно выражены. Разумеется, таких слоёв может быть много, и изменения можно внести во все или в те, где разница заметнее всего. Так можно не только убрать из ответов модели что-нибудь неприличное, но и изменить её тон на более доброжелательный, например. При этом её базовая способность генерировать связный текст будет затронута минимально. Этот метод воспроизводится в других исследованиях, однако у него есть ряд слабых мест: 🔹 он подходит только для совершенно открытых моделей, к которым не относятся популярные Claude и GPT: мы просто никак не можем заглянуть им внутрь, разработчики не пускают; 🔹 абстрактные концепции вроде вреда и пользы, справедливости, ответственности и других представлены внутри моделей довольно сложным образом; 🔹 вот такими точечными методами мы можем на них повлиять, но при этом затрагиваем только верхушку айсберга, а под водой сокрыты механизмы, которые непонятно как себя поведут в условиях реального взаимодействия с людьми, а не лабораторного эксперимента. Мы про всё это будем потихоньку говорить, постепенно погружаясь туда, где спрятан айсберг целиком, вслед за отважными исследователями, которые пишут статьи. А пока напишите мне: как вам подобные разговоры? Хотите больше или меньше подробностей? Может, что-то осталось непонятным? С радостью расскажу больше

Другие посты @mindful_coding