[논문리뷰] WorldGrow: Generating Infinite 3D World

수정: 2025년 10월 27일

링크: 논문 PDF로 바로 열기

저자: Sikuang Li, Chen Yang, Jiemin Fang, Taoran Yi, Jia Lu, Jiazhong Cen, Lingxi Xie, Wei Shen, Qi Tian

핵심 연구 목표

논문은 무한히 확장 가능한(infinitely extendable) 3D 세계를 일관된 기하학적 구조와 사실적인 외관으로 생성하는 핵심 과제를 해결하고자 합니다. 기존 2D-lifting, 3D implicit representation, 객체 중심 3D 파운데이션 모델의 한계(불일치, 확장성 부족, 장면 생성 비적합성)를 극복하고, 사전 훈련된 3D 모델의 강력한 생성 능력을 구조화된 장면 블록 생성에 활용하는 것을 목표로 합니다.

핵심 방법론

본 연구는 WorldGrow라는 계층적 프레임워크를 제안합니다. 주요 구성요소는 (1) 데이터 큐레이션 파이프라인을 통해 고품질 장면 블록을 추출하고, TRELLIS의 SLAT 표현scene-friendly SLAT으로 개조하여 구조화된 3D 컨텍스트 모델링에 적합하게 만듭니다. (2) 3D 블록 인페인팅 메커니즘흐름 기반 Transformer를 사용하여 주변 컨텍스트를 기반으로 누락된 블록을 채우고 공간적 연속성을 보장합니다. (3) coarse-to-fine 생성 전략은 먼저 **거친 블록(coarse block)**으로 전역 레이아웃을 형성한 다음, **미세 블록(fine block)**으로 상세 기하학적 구조와 텍스처를 SDEdit 기반 denoising 방식으로 정제합니다.

주요 결과

WorldGrow3D-FRONT 데이터셋에서 SOTA 성능을 달성하며, 특히 기하학적 재구성 및 시각적 충실도에서 뛰어난 결과를 보였습니다. MMD, COV, 1-NNA와 같은 기하학적 지표에서 기존 방법론들을 능가했으며, FID_CLIP 지표에서 3.95로 가장 우수한 시각적 품질을 입증했습니다 (Table 2). 인간 평가(Human Preference Study)에서도 구조적 타당성(SP), 기하학적 세부성(GD), 외관 충실도(AF), 연속성(CO) 모든 지표에서 평균 4.33~4.69점으로 기존 SOTA 방법을 크게 앞섰습니다 (Table 3). 또한, UrbanScene3D 야외 장면 생성에서도 SynCity보다 우수한 MMD(0.41), COV(41.80%), FID(23.49) 성능을 보여 다양한 도메인으로의 확장성을 입증했습니다 (Table 6).

AI 실무자를 위한 시사점

WorldGrow는 대규모 3D 환경을 생성하는 효율적이고 실용적인 방법을 제시하여 가상 세계 구축, embodied AI 훈련 및 시뮬레이션 분야에 혁신을 가져올 수 있습니다. 블록 기반의 모듈화된 접근 방식coarse-to-fine 생성 전략은 제한된 컴퓨팅 자원(예: 10x10 실내 장면 생성에 30분, 13GB 메모리)으로도 광범위하고 디테일한 3D 월드를 생성할 수 있는 실용적인 솔루션을 제공합니다. 장면 컨텍스트에 맞게 재설계된 SLAT 표현3D 블록 인페인팅 기술은 기존 객체 중심 모델의 한계를 극복하고, 확장 가능한 고품질 3D 콘텐츠 생성 파이프라인 구축에 효과적으로 활용될 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#3D World Generation#Infinite Scene Synthesis#Block-wise Generation#Coarse-to-Fine#3D Inpainting#Structured Latent Representation#Virtual Environments#World Models