[논문리뷰] Real-Time Object Detection Meets DINOv3

2025년 9월 29일수정: 2025년 9월 29일

링크: 논문 PDF로 바로 열기

저자: Shihua Huang, Yongjie Hou, Longfei Liu, Xuanlong Yu, Xi Shen

핵심 연구 목표

본 논문은 실시간 객체 탐지 분야에서 성능과 연산 효율성 사이의 균형을 개선하고, 특히 경량 모델을 위한 엣지 및 모바일 환경에서의 배포 효율성을 높이는 것을 목표로 합니다. DINOv3의 강력한 특징 표현 능력을 DEIM 파이프라인에 효과적으로 통합하여, 다양한 모델 스케일에서 최고 수준의 성능-비용 균형을 달성하는 DEIMv2를 제안합니다.

핵심 방법론

DEIMv2는 DINOv3 사전 훈련/증류된 ViT 백본과 새롭게 제안된 **Spatial Tuning Adapter (STA)**를 활용합니다. STA는 DINOv3의 단일 스케일 출력을 효율적으로 다중 스케일 특징으로 변환하고, Bi-Fusion operator를 통해 세부 정보를 보완합니다. 초경량 모델의 경우 HGNetv2 백본을 깊이 및 폭 가지치기(pruning)하여 최적화했으며, 디코더를 SwishFFN 및 RMSNorm으로 간소화하고 Dense O2O를 Copy-Blend augmentation으로 강화했습니다.

주요 결과

DEIMv2-X는 50.3M 파라미터로 57.8 AP를 달성하여 기존 최상위 모델들을 능가했습니다. DEIMv2-S는 9.71M 파라미터로 COCO에서 최초로 50 AP를 돌파하여 50.9 AP를 기록했습니다. 특히 초경량 모델인 DEIMv2-Pico는 1.5M 파라미터로 38.5 AP를 달성, **YOLOv10-Nano (2.3M 파라미터)**와 동등한 성능을 약 50% 적은 파라미터로 달성하여 새로운 효율성 기준을 제시했습니다.

AI 실무자를 위한 시사점

본 연구는 DINOv3와 같은 Vision Transformer 백본이 실시간 객체 탐지에서 뛰어난 성능과 효율성을 제공할 수 있음을 입증했습니다. Spatial Tuning Adapter는 강력한 단일 스케일 시맨틱 특징을 다중 스케일 세부 특징으로 효과적으로 변환하는 실용적인 방법을 제공합니다. 다양한 파라미터 및 FLOP 예산에 맞춰 GPU, 엣지, 모바일 등 광범위한 배포 시나리오에 적합한 모델을 선택할 수 있는 유연한 프레임워크를 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.