[논문리뷰] MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds

2025년 8월 21일수정: 2025년 8월 21일

링크: 논문 PDF로 바로 열기

저자: Bingquan Dai, Li Ray Luo, Qihong Tang, et al.

핵심 연구 목표

본 논문은 3D 포인트 클라우드로부터 편집 가능한 Blender Python 스크립트 형태의 구조화된 메시 코드를 생성하는 새로운 프레임워크인 MeshCoder를 제안합니다. 기존 방법론의 제한적인 DSL(Domain-Specific Languages)과 소규모 데이터셋의 한계를 극복하여 복잡한 3D 형상 재구성을 목표로 하며, LLM의 3D 형상 이해 능력을 향상시키는 데 기여합니다.

핵심 방법론

MeshCoder는 정교한 형상 합성을 위한 Blender Python API를 개발하고, 이를 활용하여 대규모 객체-코드 쌍 데이터셋을 구축했습니다. 입력 포인트 클라우드는 트리플레인 기반 토크나이저를 통해 고정 길이 토큰으로 변환되며, 이 토큰들은 Llama-3.2-1B를 기반으로 LoRA를 통해 미세 조정된 **멀티모달 대규모 언어 모델(LLM)**에 입력되어 Blender 스크립트를 생성합니다. 이 과정은 개별 파트별 코드 추론 모델을 먼저 훈련한 후, 전체 객체 코드를 조합하는 방식으로 이루어집니다.

주요 결과

MeshCoder는 기존 형상-코드 재구성 방법론인 Shape2Prog 및 PLAD 대비 우수한 성능을 보였습니다. 전체 데이터셋 평균 **Chamfer Distance (CD)**에서 0.06 x 10^-2를 달성하여 PLAD(1.87 x 10^-2) 및 **Shape2Prog(6.00 x 10^-2)**보다 현저히 낮은 오류를 보였습니다. 또한, 평균 IoU에서도 **86.75%**를 기록하여 **PLAD(67.62%)**와 **Shape2Prog(45.03%)**를 크게 상회했으며, 생성된 코드를 통한 직관적인 형상 편집 및 LLM의 3D 형상 이해 능력 향상 가능성을 입증했습니다.

AI 실무자를 위한 시사점

이 연구는 LLM을 활용하여 3D 모델을 편집 가능한 프로그램 코드로 재구성하는 새로운 패러다임을 제시합니다. 이는 CAD/CAM, 로보틱스, 시뮬레이션 분야에서 3D 콘텐츠 생성 및 조작의 유연성을 획기적으로 높일 수 있습니다. 특히, 코드 기반 표현은 모델의 해석 가능성과 편집 용이성을 제공하며, 향후 LLM 기반의 지능형 3D 설계 시스템 개발에 중요한 기반이 될 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.