(продолжение) Оказывается, OpenAI придумали решение этой про — @korneychukov

2.8Kпросмотров

9 мая 2023 г.

Score: 3.1K

(продолжение) Оказывается, OpenAI придумали решение этой проблемы еще в 2018 году. Статья называется Learning complex goals with iterated amplification, популярно её очень емко изложил в своем видео Роберт Майлз. Рекомендую к просмотру как минимум ради прекрасных анимаций. Идея статьи заключается в следующем: 1️⃣ Предположим, что у нас есть какая-то модель, которая решает поставленную перед ней задачу, но делает это недостаточно хорошо. Мы хотим сделать так, чтобы ее ответы стали лучше, но возможности ручной разметки у нас нет. 2️⃣ Давайте представим, что у нас есть возможность использовать несколько одинаковых версий этой модели, и агрегировать полученные от них ответы. Майлз это иллюстрирует планированием стратегии игры в Го: если у нас есть машина, которая может оценивать, насколько хорош тот или иной ход на заданном поле, то для каждого такого хода она может предугадать наиболее выигрышные ходы противника, а затем убрать из рассмотрения те, которые после просчитывания его ходов оказались неудачными. Такую процедуру в стате называют амплификацией (amplification) - мы генерируем N предсказаний, а затем агрегируем их, в результате получая более правильный ответ. 3️⃣ Затем, с помощью такой процедуры, мы можем нагенерировать достаточное количество ответов, чтобы можно было обогатить нашу модель новыми знаниями. Такая процедура называется дистилляцией (distillation) - мы используем результат работы более сложной модели, чтобы научить более простую модель вести себя схожим образом. Сейчас под термином дистилляция понимается несколько другой способ переноса знаний, но смысл там приблизительной такой же. 4️⃣ В результате на дообученной более простой модели мы можем заново запустить процедуру амплификации, получить более качественную выборку, затем запустить процедуру дистилляции, и так далее. Авторы отмечают, что даже у такого подхода есть ограничения. В какой-то момент, распределение вероятностей, которое будет давать сложная модель, перестанет значимо отличаться от распределения для простой модели, и придется перепридумывать ее архитектуру для того, чтобы сдвинуться из этой точки. Тем не менее, он позволяет практически “на ровном месте” улучшить качество работы сложных систем, даже если обучающей выборки для этого нет. (продолжение ниже)

Другие посты @korneychukov