[논문리뷰] Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs

수정: 2025년 10월 13일

링크: 논문 PDF로 바로 열기

저자: Yumin Choi, Dongki Kim, Jinheon Baek, Sung Ju Hwang

핵심 연구 목표

본 논문은 기존 프롬프트 최적화 방법론이 텍스트 모달리티에만 국한되어 **Multimodal Large Language Models (MLLMs)**의 잠재력을 완전히 활용하지 못하는 한계를 해결하고자 합니다. 텍스트뿐만 아니라 비텍스트 모달리티(예: 이미지, 비디오, 분자 구조)를 포괄하는 멀티모달 프롬프트 최적화라는 새로운 문제를 정의하고, 이를 통해 MLLMs의 풍부한 표현 능력을 최대한 발휘하는 것을 목표로 합니다.

핵심 방법론

제안하는 **Multimodal Prompt Optimizer (MPO)**는 **(i) 정렬 유지 탐색 (alignment-preserving exploration)**과 (ii) 사전 계승 베이지안 UCB (prior-inherited Bayesian-UCB) 선택이라는 두 가지 핵심 구성 요소를 가집니다. 탐색 단계에서는 현재 프롬프트의 실패 분석에서 얻은 **단일 의미 그라디언트(single semantic gradient)**를 통해 텍스트 및 비텍스트 프롬프트를 동시에 업데이트하며, 생성, 편집, 혼합(generation, editing, mixing) 세 가지 연산자를 사용하여 다양하게 탐색합니다. 선택 단계에서는 상위 프롬프트의 성능을 사전 정보로 활용하는 사전 계승 베이지안 UCB를 통해 고성능 후보 프롬프트를 효율적으로 식별합니다.

주요 결과

MPO는 이미지, 비디오, 분자 등 다양한 모달리티를 포함하는 10개 데이터셋 전반에서 기존 텍스트 전용 최적화 방법론들을 일관되고 유의미하게 능가하는 성능을 보였습니다. 특히, PlantVillage 이미지 분류에서 **76.4%**의 정확도를 달성하여 SEE (69.0%) 및 **ProTeGi (64.4%)**를 앞섰으며, 평가 예산(evaluation budget)을 42% 절감하면서도 고성능 프롬프트를 효율적으로 식별했습니다. 교차 모달 정렬 분석 결과, MPO는 가장 높은 정렬 점수와 가장 큰 성능 향상을 달성했습니다.

AI 실무자를 위한 시사점

이 연구는 MLLMs의 전체 역량을 활용하기 위한 중요한 단계로, 프롬프트 최적화의 범위를 텍스트를 넘어 멀티모달 공간으로 확장하는 실용적인 방법을 제시합니다. AI 엔지니어는 MPO를 활용하여 다양한 모달리티의 정보를 통합하는 더욱 효과적인 프롬프트를 자동으로 생성할 수 있으며, 이는 복잡한 AI 태스크의 성능 향상에 기여할 것입니다. 또한, 평가 예산 절감 효과는 대규모 MLLM 시스템에서 프롬프트 최적화의 효율성을 높여줍니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Multimodal AI#Prompt Optimization#MLLMs#Bayesian Optimization#Cross-modal Alignment#Prompt Engineering#Generative AI#Exploration-Exploitation