2.9Kпросмотров
10 июня 2025 г.
📷 ФотоScore: 3.2K
Пишу про нашу новую работу, которую мы недавно засабмитили на NeurIPS. В нашей статье ImageReFL: Balancing Quality and Diversity in Human-Aligned Diffusion Models мы исследуем методы дообучения диффузионных моделей на основе пользовательских предпочтений для повышения качества генерации изображений. Существующие методы оптимизации (ReFL, DraftK, DRTune, AlignProp) страдают от reward hacking — модель переобучается на модель награды, что снижает разнообразие изображений. Мы предлагаем метод комбинированной генерации, позволяющий управлять балансом между качеством и разнообразием, а также новый способ дообучения, который позволяет повысить разнообразие без потери качества. Также мы создали небольшую библиотеку, позволяющую удобно обучать модели как нашим методом, так и классическими ReFL и DraftK. Прошу поддержать нашу новую работу на Hugging Face Papers и поставить звездочки на гитхабе) Кроме того, мы опубликовали дообученные модели SD1.5 и SDXL на Hugging Face.