[논문리뷰] Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference

링크: 논문 PDF로 바로 열기

저자: Xiangwei Shen, Zhimin Li, Zhantao Yang, Shiyi Zhang, Yingfang Zhang, Donghao Li, Chunyu Wang, Qinglin Lu, Yansong Tang

핵심 연구 목표

본 논문은 기존 온라인 강화 학습(Online-RL) 기반 확산 모델 정렬 방식의 한계를 극복하는 것을 목표로 합니다. 특히, 다단계 디노이징 과정의 높은 계산 비용으로 인한 제한적인 최적화 범위(후기 확산 단계)오프라인 보상 모델 미세 조정의 필요성으로 발생하는 보상 해킹(reward hacking) 및 미흡한 미학적 품질 문제를 해결하고자 합니다.

핵심 방법론

저자들은 Direct-Align라는 새로운 방법을 제안합니다. 이는 노이즈 사전(noise prior)을 정의하여 어떠한 시간 단계에서도 원본 이미지를 효과적으로 복구함으로써, 그래디언트 계산을 동반하는 다단계 디노이징의 필요성을 제거합니다. 또한, Semantic Relative Preference Optimization (SRPO)를 도입하여 보상을 텍스트 조건부 신호로 공식화하고, 긍정/부정 프롬프트 증강을 통해 보상 모델을 온라인으로 조정하여 오프라인 미세 조정 의존도를 줄였습니다.

주요 결과

제안된 방법론은 FLUX.1.dev 모델을 기반으로 인간 평가에서 인지된 사실감(realism)에서 약 3.7배, 미학적 품질(aesthetic quality)에서 3.1배 향상을 달성했습니다. 특히, 훈련 효율성 면에서는 DanceGRPO 대비 75배 빠른 속도로, 32개의 NVIDIA H20 GPU를 사용하여 단 10분 만에 수렴하는 놀라운 성과를 보였습니다.

AI 실무자를 위한 시사점

AI/ML 실무자들은 본 연구를 통해 확산 모델의 인간 선호도 정렬 과정에서 발생하는 계산 비용을 획기적으로 줄이고 보상 해킹 위험을 낮출 수 있습니다. 온라인 보상 조정 메커니즘은 특정 미적 요구사항에 따라 모델을 유연하게 제어할 수 있게 하여, 고품질 이미지 생성 및 빠른 모델 반복(iteration)이 필요한 실제 애플리케이션에 매우 유용할 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Comments