본문 바로가기

인공지능

텍스트와 이미지로 고품질 3D 에셋을 생성하는 TRELLIS 기술 정리

728x90
반응형
728x170

 

이 글에서는 대규모 3D 에셋 생성 모델인 TRELLIS에 대해 정리합니다. TRELLIS가 무엇인지, 어떤 배경에서 등장했는지, 핵심 기술 개념과 구조적 특징은 무엇인지, 그리고 기존 3D 생성 방식과 비교해 어떤 강점을 가지는지를 중심으로 설명합니다. 텍스트나 이미지를 입력으로 받아 다양한 3D 표현 형태를 생성하는 TRELLIS의 기술적 의미와 활용 가능성을 이해하는 데 목적이 있습니다.

반응형

TRELLIS란 무엇인가

TRELLIS는 텍스트 또는 이미지 프롬프트를 입력으로 받아 고품질 3D 에셋을 생성하는 대규모 3D 생성 모델입니다. 단일 결과물에 국한되지 않고, Radiance Fields, 3D Gaussians, Mesh 등 다양한 3D 출력 포맷을 지원하는 것이 특징입니다.

이 모델은 단순한 실험용 수준이 아니라, 최대 20억 개의 파라미터를 가진 대형 사전 학습 모델이며, 50만 개 이상의 다양한 3D 오브젝트 데이터셋을 기반으로 학습되었습니다. 이를 통해 기존 방식 대비 더 높은 품질과 범용성을 제공합니다.


Structured 3D Latents(SLAT) 기반 설계

TRELLIS의 핵심은 SLAT(Structured LATent) 라는 통합된 잠재 표현 구조입니다.

SLAT는 3D 정보를 구조적으로 표현하는 통합 레이어 역할을 하며, 하나의 잠재 표현으로부터 여러 형태의 3D 출력 포맷으로 디코딩이 가능하도록 설계되었습니다. 이 구조 덕분에 TRELLIS는 다음과 같은 장점을 가집니다.

  • 단일 모델로 다양한 3D 표현 방식 지원
  • 출력 포맷 변경 시 별도의 모델 재학습 불필요
  • 확장성과 재사용성이 높은 3D 생성 파이프라인 구성 가능

Rectified Flow Transformer 기반 아키텍처

TRELLIS는 SLAT 표현을 효과적으로 처리하기 위해 Rectified Flow Transformer를 백본(backbone)으로 사용합니다. 이 구조는 SLAT에 최적화되어 설계된 것으로, 대규모 파라미터를 안정적으로 학습하고 고해상도 3D 결과물을 생성하는 데 초점을 맞추고 있습니다.

이 조합을 통해 TRELLIS는 기존 대형 3D 생성 모델보다 더 뛰어난 성능을 보이며, 비슷한 규모의 최신 모델들과 비교해도 우수한 결과를 기록합니다.


다양한 3D 출력 포맷 지원

TRELLIS는 하나의 입력으로부터 다음과 같은 다양한 3D 결과물을 생성할 수 있습니다.

  • Radiance Fields
  • 3D Gaussians
  • Mesh 기반 3D 모델

이러한 유연한 출력 포맷 선택 기능은 기존 3D 생성 모델에서는 제공되지 않았던 부분으로, 사용 목적에 따라 렌더링 방식이나 후처리 파이프라인을 유연하게 구성할 수 있습니다.


로컬 3D 편집 기능

TRELLIS는 단순히 3D 에셋을 생성하는 데서 그치지 않고, 로컬 단위의 3D 편집 기능을 지원합니다. 이는 기존 모델들이 전체 구조를 다시 생성해야 했던 한계를 넘어, 특정 영역 중심의 수정과 재생성을 가능하게 합니다.

이 기능은 실제 3D 콘텐츠 제작 환경에서 반복적인 수정 작업이 필요한 경우 특히 유용합니다.


제공되는 모델과 코드 구성

TRELLIS 저장소에는 다음과 같은 구성 요소들이 포함되어 있습니다.

  • 사전 학습된 대규모 TRELLIS 모델
  • 텍스트 기반 및 이미지 기반 추론 코드
  • 단일 이미지 및 다중 이미지 예제 스크립트
  • 학습 코드 및 데이터셋 관련 도구
  • TRELLIS-image, TRELLIS-text 모델

이를 통해 연구 목적뿐만 아니라 실제 응용 환경에서도 TRELLIS를 바로 활용할 수 있도록 구성되어 있습니다.


활용 방식 개요

저장소에는 example.py, example_text.py, example_multi_image.py 등 다양한 예제 코드가 포함되어 있어, 텍스트 또는 이미지를 입력으로 3D 에셋을 생성하는 흐름을 확인할 수 있습니다. 이를 기반으로 사용자는 자신의 입력 데이터와 목적에 맞게 TRELLIS 추론 과정을 확장할 수 있습니다.


728x90

TRELLIS는 **통합된 3D 잠재 표현(SLAT)**과 대규모 Transformer 기반 아키텍처를 결합해, 기존 3D 생성 모델의 한계를 넘어서는 확장성과 유연성을 제공합니다. 다양한 출력 포맷 지원, 로컬 3D 편집 기능, 대규모 사전 학습 모델 제공이라는 점에서 3D 콘텐츠 제작과 연구 환경 모두에 의미 있는 기술입니다.

앞으로 TRELLIS는 게임, 메타버스, 시각화, 디지털 트윈 등 다양한 3D 활용 분야에서 제작 비용을 낮추고 생산성을 높이는 핵심 기술로 활용될 가능성이 큽니다.

300x250

https://github.com/microsoft/TRELLIS

 

GitHub - microsoft/TRELLIS: Official repo for paper "Structured 3D Latents for Scalable and Versatile 3D Generation" (CVPR'25 Sp

Official repo for paper "Structured 3D Latents for Scalable and Versatile 3D Generation" (CVPR'25 Spotlight). - microsoft/TRELLIS

github.com

728x90
반응형
그리드형