[논문리뷰] MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency
링크: 논문 PDF로 바로 열기
저자: Nicolas Dufour, Lucas Degeorge, Arijit Ghosh, Vicky Kalogeiton, David Picard
핵심 연구 목표
기존 텍스트-투-이미지(T2I) 모델이 대규모 비정제 데이터셋에서 학습되어 사용자 선호도와 잘 맞지 않고, 후처리 방식의 보상 모델(reward model)이 정보 손실과 비효율성을 야기하는 문제를 해결하고자 합니다. 대신 학습 과정에서 다중 보상 모델을 직접 조건으로 사용하여 모델이 사용자 선호도를 사전에 학습하고 T2I 생성 품질과 효율성을 동시에 향상시키는 것을 목표로 합니다.
핵심 방법론
MIRO는 세 가지 핵심 구성 요소로 이루어집니다: (1) 데이터셋 증강을 통해 각 이미지-텍스트 쌍에 대해 일곱 가지 보상 모델 (AestheticScore, HPSv2, ImageReward, PickScore, VQAScore, JINA CLIP Score, SciScore)의 점수를 계산하고 이를 정규화 및 바이닝하여 다차원 품질 벡터를 생성합니다. (2) 다중 보상 조건부 학습에서는 플로우 매칭(Flow Matching) 목적 함수를 수정하여 이 보상 벡터를 모델에 직접 조건으로 주입, 보상 수준과 시각적 특성 간의 명시적인 매핑을 학습합니다. (3) 보상 유도 추론(Reward-Guided Inference) 시에는 다중 보상 Classifier-Free Guidance를 활용하여 지정된 보상 목표에 따라 생성 품질을 정밀하게 제어할 수 있도록 합니다.
주요 결과
MIRO는 기존 모델 대비 최대 19.1배 빠른 수렴 속도를 보였으며 (AestheticScore 기준), GenEval 벤치마크에서 68점을 달성하여 **FLUX-dev(67점)**를 능가했습니다. 특히 합성 추론 능력에서 Color Attribution 31%, Two Objects 24%, Counting 12% 향상을 기록했습니다. 또한, 추론 시 370배 적은 연산량 (MIRO 4.16 TFLOPs vs FLUX-dev 1540 TFLOPs)으로 SOTA 성능을 달성했으며, PickScore에서는 1개 샘플만으로 기존 모델의 128개 샘플과 동등한 성능을 달성하며 32배의 효율성을 입증했습니다.
AI 실무자를 위한 시사점
MIRO는 T2I 모델 개발에서 단일 학습 단계로 품질과 효율성을 동시에 극대화할 수 있는 강력한 패러다임을 제시합니다. 빠른 학습 수렴과 낮은 추론 비용은 자원 제약이 있는 환경이나 신속한 프로토타이핑이 필요한 AI 엔지니어에게 특히 유용합니다. 또한, 추론 시 다중 보상 가중치를 조절하여 생성물을 특정 요구사항에 맞게 미세 조정할 수 있는 유연성을 제공하며, 이는 **보상 해킹(reward hacking)**을 완화하고 사용자 경험을 개선하는 데 기여할 수 있습니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.