[논문리뷰] MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks

링크: 논문 PDF로 바로 열기

저자: Mingsong Li, Lin Liu, Hongjun Wang, Haoxing Chen, Xijun Gu, Shizhan Liu, Dong Gong, Junbo Zhao, Zhenzhong Lan, Jianguo Li

핵심 연구 목표

본 연구는 기존 지시 기반 이미지 편집(IBIE) 방법론의 한계, 특히 제한된 데이터셋 다양성과 품질로 인한 복잡한 편집 태스크에서의 성능 저하 문제를 해결하고자 합니다. 노이즈 많고 편향된 캡션 기반 데이터 구축 방식의 문제점을 극복하고, 다양한 고품질 편집 시나리오를 포괄하는 새로운 대규모 데이터셋인 MultiEdit를 구축하는 것을 목표로 합니다. 이를 통해 파운데이션 모델의 발전과 복잡한 IBIE 역량의 확장을 촉진하고자 합니다.

핵심 방법론

새로운 MLLM-driven 데이터 구축 파이프라인을 도입하여 원본 이미지로부터 시각 적응형 편집 지시를 직접 생성하고, SOTA ImageGen 모델 (GPT-Image-1)을 활용하여 고품질의 편집된 이미지를 생성합니다. MultiEdit는 6가지 도전적인 편집 태스크에 걸쳐 107K개 이상의 샘플을 포함하며, 18가지 비스타일 전송 편집 유형과 38가지 스타일 전송 작업을 포괄합니다. 모델 성능 평가를 위해 1,100개의 고품질 샘플로 구성된 MultiEdit-Test 벤치마크를 구축했으며, 데이터 기반 멀티태스크 학습 (DMTL)손실 기반 멀티태스크 학습 (LMTL) 전략을 탐색하여 효과적인 미세 조정 방안을 제시합니다.

주요 결과

MultiEdit-Train 데이터셋으로 파운데이션 모델(예: SD3, UltraEdit)을 미세 조정했을 때 복잡한 편집 태스크에서 성능이 크게 향상되었습니다. SD3의 경우 MultiEdit-Test에서 CLIPimg 점수가 약 9.4%, DINO 점수가 약 16.1% 증가했습니다. ME-UEdit-DMTL 모델은 MultiEdit-Test에서 CLIPimg 0.8174, DINO 0.8071를 달성하여 기존 SOTA 모델인 Step1X-EditDINO 점수를 5% 이상 능가했습니다. 또한, MultiEdit와 외부 데이터를 혼합한 훈련은 EmuEdit-Test에서 0.8409 CLIPimg, 0.7668 DINO의 최고 점수를 기록하며 강력한 시너지를 입증했습니다.

AI 실무자를 위한 시사점

MultiEdit는 기존 데이터셋의 한계를 넘어선 다양하고 도전적인 이미지 편집 시나리오를 위한 귀중한 자원을 제공합니다. 제시된 MLLM-driven 데이터 생성 파이프라인은 고품질의 학습 데이터를 효율적으로 구축하는 새로운 패러다임을 제시하며, 이는 AI 이미지 생성 모델지시 이해 능력정밀한 편집 성능 향상에 기여할 수 있습니다. AI 실무자들은 MultiEdit를 활용하여 객체 참조 편집, GUI 편집, 텍스트 편집, 뷰 편집, 스타일 전송 등 복잡한 태스크에서 더욱 강력하고 정교한 지시 기반 이미지 편집 시스템을 개발하고, 멀티태스크 학습 전략을 통해 모델의 범용성과 효율성을 극대화할 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Comments