AI 논문 분석 : LRM, 5초 안에 단일 이미지에서 3D로

안녕하세요. 오늘은 AI 분야 최신 논문을 살펴보는 네 번째 시간입니다. 요즘 생성형 AI 기술의 발전이 매우 빠른 것 같은데요. 저번 시간에 다룬 실시간 수준 스테이블 디퓨전 이미지 생성에 이어서 이번 시간에는 5초 만에 단일 이미지를 3D 이미지로 만드는 LRM(Large Reconstruction Model, 대규모 재구성 모델)이라는 기술에 대해 알아보겠습니다.

논문의 개요

이 논문의 개요는 다음과 같습니다.

논문 제목 : LRM: LARGE RECONSTRUCTION MODEL FOR SINGLE IMAGE TO 3D
논문 저자 : Yicong Hong, Kai Zhang 외
논문 게재 사이트 : arXiv
논문 게재일 : 2023. 11

논문의 목적과 연구방식은 다음과 같습니다.

약 100만개의 대규모 데이터와 모델로 일반화된 3D 사전 지식을 학습한다.
단일 이미지에서 3D 모형을 생성하는 대규모 재구성 모델(LRM)을 제안한다.
LRM은 5초 안에 단일 이미지에서 높은 선명도의 3D 형상을 재구성할 수 있다.

LRM: LARGE RECONSTRUCTION MODEL FOR SINGLE IMAGE TO 3D

논문의 연구내용 및 결과

이 논문에서는 단일 이미지에서 고품질 3D의 재구성이 가능한 LRM(Large Reconstruction Model, 대규모 재구성 모델) 이라는 모델을 제시하였으며 LRM의 특성은 다음과 같습니다.

LRM은 100만 개가 넘는 3D 데이터로 학습됨
실험 결과, LRM은 실제 세계 이미지, 생성 이미지 등 다양한 테스트 입력에 대해 높은 품질의 3D 재구성을 생성함
LRM은 단일 GPU에서 5초 안에 3D 형상 생성 가능

LRM의 작동 원리는 다음과 같습니다.

1단계: 입력 이미지 이해, 입력으로 들어온 이미지는 미리 학습된 DINO라는 이미지 인식 모델을 거쳐서 patch(작은 영역) 별 특징 벡터로 변환됩니다. DINO는 "Decomposition Into Image and Noise"의 약자로, Caron 등이 2021년에 발표한 시각 트랜스포머(Visual Transformer) 기반의 이미지 인식 모델입니다. DINO는 비지도 학습 방식으로 동작하며, 대규모 데이터셋에서 사전 훈련된 비지도 학습을 통해 이미지의 특징을 학습합니다.
2단계: 이미지 특징을 3D 표현으로 변환, 앞서 얻은 2D 이미지의 특징 벡터들은 transformer decoder라는 구조를 통과합니다. 이 과정에서 cross-attention이란 기법을 사용하여 2D 이미지 특징과 3D triplane의 연관성을 학습합니다. (triplane: 3D 공간에서 객체의 형태를 표현하는 평면) 또한, self-attention이라는 기법을 사용하여 triplane 내에서 픽셀들 간의 공간 정보를 계산하고 모델링합니다. 요약하면 transformer decoder는 이미지 특징을 학습 가능한 공간과 위치정보를 가지는 벡터형태로 변환하고, 이를 triplane 표현으로 변환하는 역할을 합니다.
3단계: 3D 표현 확대, 앞 단계의 출력은 upsampling 이라는 과정을 통해 최종 triplane 특징 맵으로 확대됩니다.
4단계: 3D 점의 특징 계산, 3D 공간의 각 점은 triplane에서 해당 위치의 특징 벡터를 조회합니다. 이 특징 벡터는 MLP라는 구조를 통과하면서 그 점의 색상과 밀도를 예측합니다. MLP는 다중 레이어 퍼셉트론(Multi-Layer Perceptron)의 약자로서, 인공 신경망의 한 종류로, 여러 개의 은닉층을 가지고 있는 구조입니다. 이 구조를 통해 입력 데이터를 받아 여러 계산을 거쳐 출력을 예측하게 됩니다.
5단계: 이미지 렌더링, 마지막으로 volume rendering 이라는 기술을 사용하여, 예측한 3D 정보로부터 다양한 시점의 이미지를 실제로 렌더링 합니다.

"요약하자면, LRM은 이미지의 특징을 학습하고, 이 특징을 3D 공간 표현으로 변환한 후, 이를 바탕으로 다양한 시점의 이미지를 생성하는 과정을 거쳐서 3D 모델을 출력합니다. "

이 논문에서는 단일 NVIDIA A100 GPU에서 모양당 약 5초가 소요되며, 이는 이미지 - triplane 전달 시간, triplane - NeRF에서 해상도 384x384x384의 점을 쿼리 하는 시간, 그리고 메시를 추출하는 시간으로 구성됩니다.

다음 사이트에서 이 논문에 사용된 LRM 모델의 인터랙션이 가능한 구현사례를 체험해보실수 있습니다.

마치며

이 논문의 요점은 대규모 3D 데이터와 변형기 기반 네트워크를 활용하여 단일 이미지에서 고품질 3D 모형을 효율적으로 생성할 수 있다는 것을 실험적으로 보였다는 점입니다. 향후 이 방식을 확장하여 더 일반화된 3D 모델을 구축하고 텍스트 입력에서 3D를 생성하는 연구 방향을 제시했습니다. 이는 단일 이미지 3D 재구성 문제에 대한 데이터 기반 접근법의 가능성을 시사합니다.

오늘은 3D 이미지를 빠르게 만들 수 있는 대규모 재구성 모델, LRM에 대해서 알아보았습니다. 빠르게 진화하고 있는 생성형 AI 기술의 미래는 과연 어떤 수준일까요? 여러분도 날로 발전하는 생성형 AI 기술과 함께 다양한 콘텐츠를 즐기시길 바라면서 저는 다음에 더 유익한 정보로 찾아뵙겠습니다. 감사합니다.

2023.11.18 - [AI 논문 분석] - AI 논문분석 : 실시간 Stable Diffusion 이미지 생성! 체험해 보세요

AI 논문분석 : 실시간 Stable Diffusion 이미지 생성! 체험해보세요

안녕하세요. 오늘은 AI관련 최신 논문을 분석해 보는 세 번째 시간입니다. 다양한 텍스트 to 이미지 AI 도구 중에서 많은 사용자를 확보하고 있는 Stable Diffusion은 이미지의 품질이 우수하지만 생성

fornewchallenge.tistory.com

저작자표시

'AI 논문 분석' 카테고리의 다른 글

AI 논문 요약, '유망 신소재' 38만개 찾은 딥마인드의 AI기술 (2)	2023.12.01
AI 논문 분석 : 범용인공지능(AGI)의 정의와 수준, 그리고 미래 (0)	2023.11.28
AI 논문분석 : 실시간 Stable Diffusion 이미지 생성! 체험해보세요 (0)	2023.11.18
AI 논문 분석 : 생성형 AI 모델 종류 및 특징 정리 (2)	2023.11.14
[AI 논문요약] 생명공학에서 인공지능은 무엇을 할 수 있나? 미래 전망과 과제 (0)	2023.11.07