LATTE3D: 엔비디아의 새로운 텍스트 기반 3D 생성 기술

안녕하세요! 오늘은 AI와 GPU 분야의 최강자, 엔비디아의 새로운 텍스트 기반 3D 생성기술, LATTE3D에 대해서 알아보겠습니다. 이 연구는 최적화 과정이 매우 시간이 소요되며 대규모 프롬프트 세트에 대한 일관된 성능을 보이지 못하는 텍스트 기반 3D 생성 기술의 한계를 극복하고 빠르고 효율적인 3D 모델 생성을 위한 새로운 방법을 제안합니다. 이 블로그에서는 LATTE3D의 개요와 특징, 아키텍처, 동작원리 등에 대해서 알아보고 DEMO 사이트를 소개해드리겠습니다.

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

논문 개요

이 논문의 목적은 텍스트를 기반으로 한 3D 생성 모델의 일반화 및 효율성을 향상시키는 것입니다. 이를 위해 연구는 LATTE3D (Large-scale Amortized Text-To-Enhanced3D Synthesis, 대규모 텍스트 기반 분할처리 3D 모델 합성)라는 새로운 방법론을 제안하였습니다. LATTE3D는 대규모의 프롬프트 세트에서도 빠르고 고품질의 3D 모델을 생성할 수 있는 방법을 개발하는 것을 목표로 합니다.

논문제목 : LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis
논문저자 : NVIDIA
논문게재 사이트 : https://arxiv.org/abs/2403.15385
논문게재일 : 2024. 3

논문의 연구내용 및 결과

LATTE3D는 확장 가능한 아키텍처와 3D 데이터를 활용한 최적화 방법을 결합하여 다양하고 복잡한 프롬프트에 대해 고품질의 3D 모델을 생성합니다. 이를 통해 텍스트 - 3D 생성의 속도와 효율성을 크게 향상시킬 수 있습니다.

아키텍처 구조 및 동작원리

LATTE3D의 아키텍처 구조는 기하학 네트워크 (Geometry Network)와 질감 네트워크 (Texture Network)의 두 부분으로 나뉩니다.

기하학 네트워크 : 3D 모델의 초기 형상을 생성하는 역할을 담당하며, 입력으로는 텍스트 설명을 받아들이고, 이를 기반으로 3D 공간에서의 객체의 형태를 결정합니다. 이 네트워크는 모서리, 각도, 곡선 등과 같은 기하학적인 특성을 정의하고 모델의 구조, 형태 및 공간적 배치와 같은 기본적인 형상을 생성합니다.
질감 네트워크 : 기하학 네트워크에서 생성된 형상에 표면적인 질감을 적용하는 역할을 하며, 입력으로는 텍스트 설명을 받아들이고, 이를 기반으로 각 부분의 적절한 질감을 생성합니다. 이 네트워크는 기하학 네트워크에서 생성된 형상에 텍스처를 부여하고 세부적인 디테일을 추가하여 최종적으로 높은 품질의 3D 모델을 생성합니다.

이렇게 기하학 네트워크와 질감 네트워크는 각각 형상과 질감을 생성하는 역할을 수행하며, 텍스트 설명과 관련된 3D 데이터를 활용하여 고품질의 3D 모델을 생성하는데 기여합니다.

LATTE3D는 텍스트를 기반으로 한 3D 모델 합성을 위한 새로운 방법론으로, 효율적이고 고화질의 3D 모델 생성을 목표로 합니다. LATTE3D의 핵심 아이디어는 텍스트를 기반으로 3D 모델을 생성하는 과정에서 분할처리 훈련 (Amortized Training) 을 통한 자가 증류 (Self-Distillation)와 정규화를 통해 초기 형상을 최적화하고, 텍스트에 따라 질감을 생성하고 조정하는 것입니다. 이를 통해 사용자가 제공한 텍스트 프롬프트에 따라 다양한 3D 모델을 생성하고 시각적으로 제공할 수 있습니다. 사용자가 프롬프트를 입력하고 3D 모델이 생성될 때까지의 동작 순서는 다음과 같습니다:

1. 프롬프트 입력: 사용자가 프롬프트를 입력합니다. 이 프롬프트는 생성하려는 3D 모델의 특징을 설명하는 텍스트입니다.
2. 텍스트 임베딩: 입력된 텍스트 프롬프트는 텍스트 인코더를 통해 임베딩됩니다. 이 임베딩은 텍스트 정보를 수치적으로 나타내는 벡터입니다.
3. 분할처리 훈련 (Amortized Training) (단계 1): 첫 번째 단계에서는 생성할 모델의 초기 형상을 결정합니다. 이때, 모델이 자체적으로 학습한 지식을 활용하여 자신의 예측을 개선하는 과정인 자가 증류 (Self-Distillation Sampling, SDS) 손실과 모델의 예측을 안정화하고 일반화 성능을 향상시키는 정규화 손실 (Reg loss)을 사용하여 초기 형상을 최적화합니다.
4. 텍스트 조건부 생성: 텍스트 임베딩과 함께 초기 형상을 입력으로 사용하여, 텍스트에 따라 초기 형상이 변형됩니다. 이때, 텍스트 임베딩은 초기 3D 모델에 대한 조건으로 작용합니다.
5. 분할처리 훈련 (Amortized Training) (단계 2): 두 번째 단계에서는 초기 형상을 기반으로 텍스처를 생성하고 텍스트 조건에 맞게 조정합니다. 이 단계에서는 기하학 네트워크는 동결되고, 질감 네트워크만 업데이트됩니다.
6. 렌더링: 생성된 3D 모델은 렌더링되어 2D 이미지로 변환됩니다. 이때, 렌더링 된 이미지는 사용자에게 시각적으로 제공됩니다. 이는 사용자가 모델의 외관, 구조 및 디자인을 시각적으로 평가하고 이해할 수 있도록 도와줍니다.
7. 렌더링된 마스크 및 정규화 마스크: 최종 형상은 생성된 3D 모델의 렌더링 된 이미지에서 객체의 윤곽선이나 영역을 나타내는 렌더링 된 마스크(Rendered Mask)와 정규화 손실을 계산하기 위해 사용되는 정규화 마스크(Regularization Mask)를 사용하여 세부적인 기하학 디테일이 추가로 조정됩니다.
8. 테스트 시간 최적화: 사용자가 원하는 특정 프롬프트의 품질을 높이기 위해 필요한 경우, 테스트 시간 최적화를 수행할 수 있습니다. 이 과정에서는 기하학 네트워크는 동결된 채로 질감 네트워크를 미세 조정합니다.
9. 최종 결과 출력: 최종적으로, 사용자는 생성된 3D 모델을 시각적으로 확인하고 필요에 따라 수정할 수 있습니다.

이렇게 LATTE3D는 텍스트를 기반으로 한 3D 모델 합성을 위한 효율적이고 고화질의 방법을 제공하며, 텍스트 설명에 따라 형상과 텍스처를 정확하게 생성할 수 있습니다.

분할처리 학습

분할처리 학습(Amortized Learning)은 LATTE3D에서 사용되는 중요한 개념 중 하나로써, LATTE3D의 효율성을 향상시키고 빠른 텍스트 - 3D 합성을 가능하게 합니다. 분할처리 학습은 매번 새로운 입력이 주어질 때마다 새로운 모델을 훈련시키는 것이 아니라, 여러 입력에 대한 특징을 공유하는 단일 모델을 훈련시키는 개념을 설명하고 있습니다.

즉, 한 번의 훈련으로 모델이 여러 입력에 대한 일반적인 특징을 학습하고 이를 사용하여 새로운 입력에 대한 예측을 수행할 수 있게 됩니다. 이는 훈련 및 예측에 필요한 시간과 리소스를 절약하고, 모델의 일반화 성능을 향상시킬 수 있는 방법입으로 각 입력에 대해 모델을 다시 훈련시키는 것보다 훨씬 효율적입니다. LATTE3D에서 분할처리 학습은 다음과 같은 방식으로 작동합니다:

다중 프롬프트 최적화: LATTE3D는 단일 프롬프트 대신 여러 프롬프트를 동시에 최적화하여 효율성을 향상시킵니다. 이는 여러 입력에 대한 단일 모델을 훈련시키는 것과 유사한 개념입니다.
3D 데이터 활용: 3D 데이터를 학습에 사용하면 모델이 현실 세계의 물체나 장면을 잘 이해하고 그에 따른 형태와 텍스처를 생성할 수 있습니다. 이는 텍스트 - 3D 변환 과정에서 형태와 텍스처를 효과적으로 합성하는 데 도움이 됩니다.
빠른 텍스트 - 3D 합성: 분할처리 학습은 LATTE3D가 빠르게 텍스트를 3D 객체로 변환할 수 있도록 도와줍니다. 이는 최적화 과정을 효율적으로 사용하여 실시간으로 텍스트를 3D 모델로 변환할 수 있게 합니다.

이러한 방식으로 분할처리 학습은 LATTE3D의 빠른 텍스트 - 3D 합성을 가능하게 하며, 효율적으로 다양한 입력에 대한 고품질 결과를 생성할 수 있도록 합니다.

성능평가 결과

논문에서는 다양한 평가 메트릭을 사용하여 모델의 성능을 평가하고 있습니다. 이들 메트릭은 모델이 생성한 3D 콘텐츠의 품질과 입력된 텍스트 프롬프트와의 일치도를 측정합니다. 아래 표에서 보면 "시각적으로 보인 것(Seen)"은 모델이 훈련할 때 사용된 데이터셋에 포함된 프롬프트입니다. 이는 모델이 이미 경험한 데이터에 대해 얼마나 잘 작동하는지를 평가하는 데 사용됩니다. "보이지 않은 것(Unseen)"은 모델이 훈련 중 접하지 않았던 새로운 프롬프트로서, 이는 모델이 처음 보는 데이터에 대해 얼마나 잘 일반화되는지를 확인하는 데 사용됩니다.

Render-FID (Rendered Frechet Inception Distance): 이 메트릭은 생성된 3D 콘텐츠의 시각적 품질을 측정합니다. 생성된 3D 형상이 2D 이미지로부터 샘플링된 이미지와 얼마나 유사한지를 측정합니다. 낮은 Render-FID 값은 생성된 형상이 시각적으로 원본 이미지와 유사함을 나타냅니다. 여기서는 Latte3D의 Render-FID 값이 180.58(시각적으로 본 3D 콘텐츠)에서 190.00(시각적으로 보지 않은 콘텐츠)으로 측정되었습니다.
CLIP Score: 이 메트릭은 생성된 3D 모델과 입력된 텍스트 프롬프트 사이의 일치도를 측정합니다. CLIP 점수는 텍스트 프롬프트와 각각의 렌더링 된 이미지 사이의 평균 CLIP 점수로 계산됩니다. 높은 CLIP 점수는 생성된 3D 모델이 입력된 텍스트와 일치한다는 것을 나타냅니다. 여기서는 Latte3D의 CLIP 점수가 0.2608(시각적으로 보인 콘텐츠)에서 0.2605(시각적으로 보지 않은 콘텐츠)로 측정되었습니다.
Preference %: 이 메트릭은 사용자 선호도를 나타냅니다. Amazon Mechanical Turk의 사용자 조사를 통해 사용자들이 생성된 3D 모델에 대한 선호도를 평가하고 평균 선호도를 계산합니다. 높은 선호도 백분율은 해당 모델이 사용자들에게 더 선호되었다는 것을 의미합니다. 여기서는 Latte3D가 기준이 되며, MVDream, 3DTopia, LGM과의 비교에서 얼마나 선호되었는지를 나타냅니다. 결과는 어떤 모델이 사용자들에게 더 선호되었는지를 확인하는 데 도움이 됩니다.

이러한 결과들은 Latte3D가 다른 모델들에 비해 높은 품질의 3D 생성물을 빠르게 생성할 수 있는 것을 보여줍니다

DEMO 웹 사이트

https://research.nvidia.com/labs/toronto-ai/LATTE3D/

LATTE3D

Xie, K., Lorraine, J., Cao, T., Gao, J., Lucas, J., Torralba, A., Fidler, S., & Zeng, X. (2024). LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis. arXiv preprint arXiv:TODO. @article{xie2024latte3d, title = {LATTE3D: Large-scale Amortized Tex

research.nvidia.com

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

맺음말

오늘은 엔비디아의 새로운 텍스트 기반 3D 생성기술인 LATTE3D에 대해 알아보았습니다. LATTE3D는 대규모 프롬프트 세트에 대해 일관된 성능을 보이고 빠르고 효율적인 3D 모델 생성을 가능하게 합니다. 이 블로그에서는 LATTE3D의 개요, 아키텍처, 동작원리를 소개하고, 분할처리 학습과 같은 핵심 개념을 설명했습니다.

LATTE3D는 텍스트를 기반으로 한 3D 모델 합성을 위한 새로운 방법론으로, 텍스트 설명에 따라 형상과 텍스처를 정확하게 생성할 수 있으며, 다른 모델들에 비해 빠른 속도와 뛰어난 품질로 게임, 디자인, 건축 등 다양한 분야에서 사용자들에게 새로운 창조적인 경험을 제공할 것으로 기대됩니다.

오늘 내용은 여기까지입니다. 저는 그럼 다음시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.

2023.11.21 - [AI 논문 분석] - AI 논문 분석 : LRM, 5초 안에 단일 이미지에서 3D로

AI 논문 분석 : LRM, 5초 안에 단일 이미지에서 3D로

안녕하세요. 오늘은 AI 분야 최신 논문을 살펴보는 네 번째 시간입니다. 요즘 생성형 AI 기술의 발전이 매우 빠른 것 같은데요. 저번 시간에 다룬 실시간 수준 스테이블 디퓨전 이미지 생성에 이

fornewchallenge.tistory.com

저작자표시 (새창열림)

'AI 논문 분석' 카테고리의 다른 글

스테이블 디퓨전보다 28배 빠른 DMD 기술, 1장당 0.05초! (3)	2024.03.29
구글 VLOGGER: 이미지 1장과 음성으로 움직이는 아바타를 만드는 방법 (0)	2024.03.27
MM1: 애플의 새로운 멀티모달 언어 모델 (0)	2024.03.21
[AI 논문] EMO: 사진 1장과 음성으로 되살린 오드리 헵번의 생생한 표정! (2)	2024.02.28
🚀 SDXL-Lightning: 스테이블 디퓨전 기반 초고속 이미지 생성 기술 심층 분석 (2)	2024.02.23