Sora: 현실 세계를 시뮬레이션하는 OpenAI 비디오 생성 모델

안녕하세요! 오늘은 OpenAI에서 어제 공개한 새로운 생성형 AI 모델 Sora에 대해서 알아보겠습니다. Sora는 다양한 길이, 종횡비 및 해상도를 가진 비디오 및 이미지를 생성할 수 있는 시각 데이터 모델로서, 최대 1분까지의 고화질 비디오를 생성할 수 있으며, 뛰어난 사실감으로 현실 세계를 시뮬레이션할 수 있는 가능성을 보여줍니다. 이 블로그에서는 Sora의 비디오 생성 원리, 주요 특징과 기능 등에 대해서 살펴보겠습니다. 블로그 내용의 출처는 아래 링크와 같습니다.

https://openai.com/research/video-generation-models-as-world-simulators

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

Sora 개요

Sora는 텍스트-조건부 확산 모델(text-conditional diffusion models)을 활용하여 대규모 영상 데이터를 훈련합니다. 이 모델은 길이, 해상도 및 종횡비가 다양한 비디오와 이미지를 동시에 훈련하며, 이를 위해 비디오와 이미지의 잠재표현(latent codes)에 시간과 공간적인 패턴을 파악하기 위한 '시공간 패치(spacetime patches)'를 사용합니다.

텍스트 조건부 확산 모델은 텍스트 입력에 기반하여 이미지나 비디오를 생성하는 모델입니다. 이 모델은 생성된 이미지나 비디오를 점진적으로 개선하고 세밀하게 조정하기 위해 확산 과정을 사용합니다. 따라서 텍스트 입력에 따라 모델이 생성할 이미지나 비디오를 결정하고, 이를 확산 과정을 통해 완성합니다.

Sora는 이러한 텍스트 조건부 확산 모델을 기반으로 비디오 및 이미지의 다양한 크기, 해상도 및 종횡비를 다룰 수 있도록 설계되었습니다. 이 모델은 비디오를 저차원 잠재 공간으로 압축하는 비디오 압축 네트워크를 사용하여 시작됩니다. 이 네트워크는 시간 및 공간적으로 데이터를 압축하여 시간 및 공간적인 특성을 보존하면서도 정보를 효율적으로 표현합니다. 그 결과, Sora는 더 작고 효율적인 데이터 표현을 사용하여 복잡한 비디오 시퀀스를 처리할 수 있습니다.

Sora의 핵심기술

Sora는 시공간 패치를 이용한 비디오 압축 네트워크를 통해 압축된 잠재표현을 확산모델과 트랜스포머 아키텍처를 결합하여 비디오 및 이미지를 생성합니다. 다음은 각 핵심기술에 대한 설명입니다.

시공간 패치(Spacetime Patches)

Sora는 시공간 패치라는 개념을 도입하여 비디오 및 이미지 데이터를 처리합니다. "패치(Patch, 조각)"는 시각 데이터의 작은 부분을 의미합니다. 시각 데이터(예: 이미지 또는 비디오)를 작은 부분으로 나누어 각 부분을 따로 처리하는 것이 일반적으로 더 효율적이고 유용합니다. 각 패치는 데이터의 작은 조각으로, 모델에 입력으로 제공됩니다.

이러한 접근 방식을 사용하면 모델이 전체 데이터를 한 번에 처리하는 대신 작은 부분을 순차적으로 처리하고 이를 조합하여 전체 데이터를 처리할 수 있습니다. 이것이 패치라는 개념이고, 이는 시각 데이터를 처리하는데 효과적인 방법 중 하나입니다. 이러한 패치는 비디오 시퀀스를 격자 형태의 공간적 및 시간적 부분으로 분할하여 모델에 입력으로 제공됩니다. 이러한 접근 방식은 비디오와 이미지의 다양한 해상도, 종횡비 및 지속 시간에 대해 일관된 방식으로 작동할 수 있도록 해줍니다. 아래 그림은 Sora 모델에서 사용되는 중요한 개념인 시공간 패치의 개념도입니다.

시공간 패치의 이점은 다음과 같습니다.

다양한 데이터 처리: 시공간 패치를 사용하면 비디오와 이미지의 다양한 해상도, 종횡비 및 지속 시간에 대해 일관된 방식으로 작동할 수 있습니다. 이는 모델이 다양한 종류의 데이터를 효율적으로 처리할 수 있게 해줍니다.
공간 및 시간적 관계 보존: 패치는 원본 데이터의 공간 및 시간적 관계를 유지합니다. 이는 모델이 입력 데이터의 구조와 패턴을 잘 이해하고 이를 기반으로 생성물을 생성할 수 있도록 도와줍니다.
복잡성 감소: 패치를 사용하면 전체 데이터의 복잡성을 감소시킬 수 있습니다. 작은 패치로 데이터를 분할하면 모델이 각 패치를 개별적으로 처리하고 이를 조합하여 전체 데이터를 처리할 수 있습니다.

Sora 모델에서는 시공간 패치를 사용하여 비디오 및 이미지 데이터를 모델에 입력으로 제공합니다. 이를 통해 모델은 다양한 종류의 데이터를 처리하고 이를 기반으로 높은 품질의 결과물을 생성할 수 있습니다. 시공간 패치는 Sora 모델의 핵심 기술 중 하나이며, 이를 통해 모델이 물리적 및 디지털 세계의 다양한 측면을 모방하는 데 기여합니다.

비디오 압축 네트워크

"비디오 압축 네트워크"는 시각 데이터의 차원을 줄이는 데 사용되는 신경망입니다. 이 네트워크는 원시 비디오를 입력으로 받아 시간적 및 공간적으로 모두 압축된 잠재 표현을 출력합니다. 이 압축된 잠재 공간에서 Sora 모델이 훈련되고 이후에 비디오를 생성합니다. 또한, 생성된 잠재 표현을 픽셀 공간으로 다시 매핑하는 디코더 모델도 훈련됩니다.

이 네트워크는 원시 비디오 데이터의 고차원적인 표현을 저차원의 잠재 표현으로 압축함으로써 비디오 데이터를 효율적으로 표현할 수 있습니다. 이를 통해 저장 공간을 절약하고 계산 비용을 줄이면서도 원본 데이터의 중요한 정보를 보존합니다. 압축된 표현은 시간적 및 공간적 차원 모두에서 압축되므로 모델은 더 효율적으로 학습되고 처리할 수 있습니다.

Sora 모델은 이러한 압축된 잠재 표현을 사용하여 비디오를 생성합니다. 이 압축된 표현은 원본 데이터의 중요한 특징을 유지하면서도 보다 효율적으로 처리될 수 있도록 설계되었습니다. 또한, 디코더 모델은 생성된 잠재 표현을 다시 원래의 픽셀 공간으로 복원하여 최종적으로 생성된 비디오를 얻게 됩니다. 이를 통해 Sora 모델은 비디오 생성 작업을 수행할 수 있습니다.

확산 트랜스포머(diffusion transformer)

Sora는 확산 모델(diffusion model)입니다. 입력으로 주어진 텍스트 프롬프트와 같은 잡음이 있는 패치들과 조건 정보를 받아들여 원래의 "깨끗한" 패치를 예측하도록 훈련됩니다. 중요한 점은 Sora가 확산 트랜스포머(diffusion transformer) 인 것입니다. 트랜스포머는 다양한 도메인에서 놀라운 확장성 특성을 보여주었습니다. 이는 언어 모델링, 컴퓨터 비전 및 이미지 생성을 포함한 여러 영역에서 관측되었습니다. 다음은 확산 트랜스포머와 일반 트랜스포머의 비교표입니다.

특징	확산 트랜스포머	일반적인 트랜스포머
데이터 유형	주로 이미지 또는 텍스트 생성에 사용	주로 자연어 처리 및 기타 시퀀스 데이터 처리에 사용
생성 방식	확률적 확산 프로세스를 통해 원본 데이터를 생성	주어진 입력에 대해 정적인 결과를 생성
모델 구조	확산 모델과 트랜스포머 아키텍처를 결합하여 사용	트랜스포머 아키텍처만 사용
주요 용도	이미지 및 텍스트 생성, 조건부 생성 모델로 사용	자연어 처리, 기계 번역, 문서 요약 등에 주로 사용
학습 방식	주어진 데이터에 대해 확률적인 확산 프로세스를 통해 학습	지도학습, 비지도학습, 강화학습 등 다양한 학습 방식 사용
예시	DALL·E, Sora 등	GPT, BERT 등

이 연구에서 우리는 확산 트랜스포머가 비디오 모델로서도 효과적으로 확장됨을 발견했습니다. 아래 그림은 훈련이 진행됨에 따라 고정된 시드와 입력을 가진 비디오 샘플의 비교를 보여줍니다. 훈련 계산이 증가함에 따라 샘플 품질이 현저하게 향상되는 것을 확인할 수 있습니다.

아래에서는 훈련이 진행됨에 따라 고정된 시드와 입력을 가진 비디오 샘플의 비교를 보여줍니다.


4x compute	32x compute

다양한 지속시간, 해상도, 종횡비

과거의 이미지 및 비디오 생성 방법은 일반적으로 256x256 해상도를 가진 4초 길이 비디오와 같이 표준 크기로 조정, 자르기 또는 잘라내기 합니다. 그러나 Sora는 데이터를 해당 원래 크기로 훈련하는 것이 여러 가지 이점을 제공한다는 것을 발견했습니다.

샘플링 유연성: Sora는 와이드스크린 1920x1080p 비디오, 세로 1080x1920 비디오 또는 그 사이의 모든 해상도를 샘플링할 수 있습니다. 이는 Sora가 각 기기의 원래 종횡비에 직접 맞춰 콘텐츠를 생성할 수 있게 합니다. 또한, 동일한 모델로 전체 해상도에서 생성하기 전에 낮은 크기에서 콘텐츠를 빠르게 제작해 볼 수 있습니다.
개선된 프레임 및 구도: Sora는 비디오를 원래 종횡비로 훈련시키는 것이 구도와 프레임을 개선하는 데 도움이 된다는 것을 발견했습니다. Sora는 생성 모델을 훈련시킬 때 흔히 사용되는 관행인 모든 훈련 비디오를 정사각형으로 자르는 우리 모델의 버전과 Sora를 비교했습니다. 정사각형으로 자른 비디오로 훈련된 모델(왼쪽)은 때로는 주제가 일부만 보이지만, Sora에서 생성된 비디오(오른쪽)는 이보다 개선된 프레임을 가지고 있습니다.


자른 비디오로 훈련된 모델(왼쪽), Sora에서 생성된 비디오(오른쪽)

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

이미지 및 비디오 프롬프트

Sora는 텍스트 뿐만 아니라 이미지나 비디오와 같은 다른 입력으로도 프롬프트를 받을 수 있습니다. 이 기능을 통해 Sora는 다양한 이미지 및 비디오 편집 작업을 수행할 수 있습니다. 예를 들어, 완벽하게 반복되는 비디오를 생성하거나 정지된 이미지를 애니메이션화하거나 비디오를 시간적으로 앞뒤로 확장하는 등의 작업을 수행할 수 있습니다.

DALL·E 이미지 애니메이션화 : Sora는 DALL·E 2 및 DALL·E 3을 기반으로 이미지와 프롬프트를 입력받아 비디오를 생성할 수 있습니다.


DALL·E 이미지	DALL·E 이미지를 기반으로 생성한 비디오

생성된 비디오 확장 :Sora는 비디오를 시간적으로 앞뒤로 확장하는 것도 가능합니다. 이 방법을 사용하여 비디오를 앞뒤로 확장하여 매끄러운 무한 루프를 생성할 수 있습니다.
비디오-비디오 편집 :확산 모델은 텍스트 프롬프트에서 이미지 및 비디오를 편집하는 다양한 방법을 가능하게 했습니다. 아래에서는 이러한 방법 중 하나인 SDEdit(SDE:Stochastic Differential Equations, 확률미분방정식)을 Sora에 적용합니다. 이 기술을 사용하면 Sora가 입력 비디오의 스타일과 환경을 제로샷으로(학습 없이) 변환할 수 있습니다.
비디오 연결: Sora를 사용하여 두 개의 입력 비디오 사이를 부드럽게 연결하고, 그사이를 점진적으로 이동하면서 완전히 다른 주제와 장면 구성을 가진 비디오 사이에 매끄러운 전환을 만들 수 있습니다.


비디오 연결 샘플	비디오 합성 샘플

새로운 시뮬레이션 능력

Sora는 비디오 모델이 대규모로 훈련될 때 새로운 능력을 나타낸다는 것을 보여줍니다. 이러한 능력은 Sora가 물리적 세계의 일부인 사람, 동물 및 환경의 일부를 모방할 수 있게 하고, 이러한 특성들은 3D, 객체 등에 대한 구체적인 지시없이도 발생합니다. 그것들은 순수하게 규모로부터 발생하는 현상입니다.

3D 일관성: Sora는 동적인 카메라 움직임을 가진 비디오를 생성할 수 있습니다. 카메라가 이동하고 회전함에 따라 사람과 장면 요소가 일관되게 3차원 공간을 통해 이동합니다.

시간적 일관성 및 물체 지속성: 비디오 생성 시스템의 중요한 도전 중 하나는 긴 시간 지속되는 비디오를 샘플링할 때 시간적 일관성을 유지하는 것입니다. Sora는 항상은 아니지만, 단거리 및 장거리 종속성을 효과적으로 모델링할 수 있습니다. 예를 들어, 사람, 동물 및 물체가 가려지거나 프레임을 벗어날 때에도 지속할 수 있습니다. 마찬가지로, 동일한 캐릭터의 여러 장면을 생성하여 비디오 전체에서 외관을 유지할 수 있습니다.
디지털 세계 시뮬레이션: Sora는 비디오 게임을 포함한 인공적인 프로세스를 시뮬레이션할 수도 있습니다. Sora는 마인크래프트의 플레이어를 제어하면서 세계와 그 동적 요소를 동시에 렌더링할 수 있습니다. 이러한 능력은 비디오 모델의 지속적인 확장이 물리적 및 디지털 세계, 그리고 그 안에 살고 있는 물체, 동물 및 사람의 시뮬레이터 개발로 이어지질 수 있다는 것을 의미합니다.

마치며

이 블로그를 통해 우리는 OpenAI에서 최근에 발표한 새로운 생성형 AI 모델인 Sora에 대해 알아보았습니다. Sora는 텍스트-조건부 확산 모델을 기반으로 하여 다양한 해상도, 종횡비, 그리고 길이를 가진 비디오 및 이미지를 생성할 수 있습니다. 이를 통해 Sora는 현실 세계를 사실적으로 시뮬레이션할 수 있는 가능성을 제시하며, 다양한 활용 가능성을 가지고 있습니다.

Sora는 시공간 패치와 확산 트랜스포머 등의 기술을 활용하여 비디오 및 이미지를 생성하며, 다양한 입력 형식에 대응할 수 있는 유연성을 가지고 있습니다. 또한, Sora는 학습되지 않은 새로운 시뮬레이션 능력을 보여주며, 물리적 및 디지털 세계에서의 다양한 측면을 모방할 수 있는 잠재력을 보여주었습니다.

마지막으로, Sora의 혁신적인 기술은 AI 기술이 더욱 발전하고 다양한 응용 분야로 확장될 수 있음을 보여주며, 우리의 디지털 세계에 새로운 차원을 열어줄 것으로 기대됩니다. 오늘의 내용은 여기까지입니다. 그럼 저는 다음시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.

2024.02.08 - [AI 논문 분석] - 뤼미에르: 구글의 텍스트 기반 비디오 생성의 새로운 기준

뤼미에르: 구글의 텍스트 기반 비디오 생성의 새로운 기준

안녕하세요! 오늘은 구글에서 최근 발표한 비디오 생성 AI, 뤼미에르에 대해서 알아보겠습니다. 뤼미에르는 시공간 U-Net 아키텍처를 기반으로 텍스트에서 비디오로의 변환을 위한 혁신적인 확산

fornewchallenge.tistory.com

저작자표시

'AI 언어 모델' 카테고리의 다른 글

클로드(Claude) 3: GPT-4와 제미나이를 뛰어넘은 언어 모델의 등장! (0)	2024.03.06
[Ollama 활용] 허깅페이스 Solar를 나만의 커스텀 언어 모델로 바꾸기 (5)	2024.03.05
벡터 데이터베이스와 Llama2를 활용한 arXiv 논문 자동검색 및 분석 (0)	2024.02.16
구글 제미나이 울트라 1.0, 과연 진정한 AI 혁신인가? 솔직 후기 공개! (6)	2024.02.12
LLaVA NeXT: 제미나이 프로를 뛰어넘는 오픈소스 멀티모달 AI! (4)	2024.02.08

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Sora: 현실 세계를 시뮬레이션하는 OpenAI 비디오 생성 모델

Sora 개요