안녕하세요! 오늘은 알리바바 그룹이 공개한 최신 개방형 비디오 모델, Wan2.1에 대해 알아보겠습니다. Wan2.1은 텍스트-비디오(T2V), 이미지-비디오(I2V) 등 다양한 생성 작업을 지원하는 모델로, 특히 T2V-1.3B 모델은 소비자용 GPU에서도 실행할 수 있으며, 중국어와 영어 텍스트 생성이 가능합니다. 또한, Wan-VAE를 활용해 비디오의 시간적 일관성을 보장하면서도 유연성과 확장성을 갖춘 1080P 해상도의 비디오를 인코딩 및 디코딩할 수 있으며, 비디오 확산 DiT(Diffusion Transformer) 기술을 적용하여 모델 병렬 처리 최적화를 통해 학습과 추론 속도를 더욱 향상시켰습니다. 이번 공개 버전에는 T2V-14B, I2V-14B, T2V-1.3B 모델이 포함되며, 허깅페이스(Hugging Face)와 ModelScope에서 무료로 다운로드할 수 있습니다. 이 블로그에서는 Wan2.1의 개요, 주요 특징 및 기능을 살펴보고, 직접 비디오 생성 테스트를 진행해 보겠습니다.

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
1. Wan2.1 개요
Wan2.1은 텍스트 입력을 기반으로 고품질 동영상을 생성하는 오픈소스 비디오 모델입니다. T2V-1.3B 모델은 8.19GB VRAM만 필요로 하므로 거의 모든 소비자 등급 GPU와 호환되며, RTX 4090에서 약 4분 안에 5초 분량의 480P 비디오를 생성할 수 있습니다. 또한, Wan2.1은 비디오의 시간적 흐름을 자연스럽게 유지하고, 갑작스러운 변화나 부자연스러운 전환 없이 일관성 있는 비디오를 생성할 수 있으며, 텍스트-비디오, 이미지-비디오, 비디오 편집, 텍스트-이미지 및 비디오-오디오 등 다양한 작업이 가능합니다. 공개된 Wan2.1 모델의 종류는 다음과 같습니다.
모델 종류
|
설명
|
지원 해상도
|
|
텍스트-비디오
|
고품질 비주얼과 상당한 움직임 역학을 생성. 중국어와 영어 텍스트를 모두 생성할 수 있는 유일한 비디오 모델.
|
480P, 720P
|
|
이미지-비디오
|
복잡한 시각적 장면과 움직임 패턴을 보여주는 비디오를 생성
|
480P, 720P
|
|
텍스트-비디오
|
거의 모든 소비자 등급 GPU에서 비디오 생성을 지원하며,
RTX 4090 GPU에서 5초 분량의 480P 비디오를 4분 만에 생성. |
480P
|
Wan2.1은 중국어와 영어 텍스트를 모두 생성할 수 있는 최초의 비디오 모델이며, 시간 정보를 보존하면서 모든 길이의 1080P 비디오를 인코딩 및 디코딩할 수 있는 강력한 비디오 VAE (Variational Autoencoder)인 Wan-VAE를 제공합니다. Wan-VAE는 비디오 생성을 위해 특별히 설계된 새로운 아키텍처로, 시공간 압축을 개선하고 메모리 사용량을 줄이며 시간적 인과 관계를 보장합니다. Wan2.1은 또한 T5 인코더를 통해 다국어 텍스트 입력을 벡터 형태로 변환하고 교차 주의(Cross-Attention)를 통해 텍스트 임베딩을 모델의 구조에 통합함으로써, 생성된 비디오 프레임이 텍스트 설명과 일관성을 유지하도록 합니다.
2. Wan2.1 특징 및 주요 기능
- SOTA (State-of-the-Art) 성능: Wan2.1은 허깅페이스 VBench 리더보드 순위에서 총 점수 86.22%로 Sora를 누르고, 1위를 기록하였으며, 여러 벤치마크에서 기존 오픈 소스 모델과 최첨단 상용 솔루션을 일관되게 능가합니다.

- 소비자 등급 GPU 지원: T2V-1.3B 모델은 8.19GB VRAM만 필요로 하므로 거의 모든 소비자 등급 GPU와 호환됩니다. RTX 4090에서 양자화와 같은 최적화 기술 없이 약 4분 안에 5초 분량의 480P 비디오를 생성할 수 있으며 성능은 일부 상용 모델과 비슷합니다.
- 다양한 작업: Wan2.1은 텍스트-비디오, 이미지-비디오, 비디오 편집, 텍스트-이미지 및 비디오-오디오 작업에서 탁월하여 비디오 생성 분야를 발전시킵니다.
- 시각적 텍스트 생성: Wan2.1은 중국어와 영어 텍스트를 모두 생성할 수 있는 최초의 비디오 모델이며 강력한 텍스트 생성을 통해 실제 응용 프로그램을 향상시킵니다.
- 강력한 비디오 VAE (Variational Autoencoder): Wan-VAE는 비디오 생성을 위해 특별히 설계된 새로운 VAE 아키텍처입니다. 다양한 전략을 결합하여 시공간 압축을 개선하고 메모리 사용량을 줄이며 시간적 인과 관계를 보장합니다. 또한 Wan-VAE는 과거 시간 정보를 잃지 않고 1080P 비디오를 인코딩 및 디코딩할 수 있어 비디오 생성 작업에 특히 적합합니다.
- 비디오 확산 DiT (Diffusion Transformer): Wan2.1 모델 아키텍처는 T5 인코더를 사용하여 다국어 텍스트 입력을 인코딩하고 각 트랜스포머 블록 내에서 교차 주의 (cross-attention)를 통해 텍스트를 모델 구조에 포함합니다. 또한 선형 레이어와 SiLU(Sigmoid Linear Unit) 레이어가 있는 MLP(Multi-Layer Perceptron)를 사용하여 시간 정보를 숫자벡터로 처리하고 6개의 매개변수를 개별적으로 예측해서 비디오 생성과정을 제어합니다.
3. Wan2.1 설치 방법
1) 리포지토리 복제: 아래 명령어로 Wan2.1 깃 허브 리포지토리를 복제합니다.
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

2) 종속성 설치: torch >= 2.4.0 버전을 확인하고, 아래 명령어로 종속성을 설치합니다.
pip install -r requirements.txt

3) 모델 다운로드: 🤗 huggingface-cli 또는 🤖 modelscope-cli를 사용하여 모델을 다운로드합니다.
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B


4. Wan2.1 테스트
다음은 Wan2.1 t2v-1.3B 모델을 사용해서 비디오를 생성해 보겠습니다.
- 단일 GPU 추론: 다음 명령어를 실행합니다. t2v-1.3B 모델이 지원하는 해상도는 480P(832*480) 입니다.
python generate.py --task t2v-1.3B --size "832*480" --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
비디오 생성 과정에서 토크나이저의 경로를 찾을 수 없다고 나오는 경우, Wan2.1/wan/text2video.py파일을 수정해서 토크나이저 경로를 "google/umt5-xxl"과 같이 설정해야 할 수도 있습니다.

메모리 부족 (OOM) 문제가 발생하면 --offload_model True 및 --t5_cpu 옵션을 사용하여 현재 계산에 필요한 모델 부분만 GPU 메모리에 로드하여 GPU 메모리 사용량을 줄일 수 있습니다. 예를 들어 RTX 4090 GPU에서는 다음을 사용합니다.
python generate.py --task t2v-1.3B --size "832*480" --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
Prompt:Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage. 편안한 복싱 장비와 밝은 장갑을 착용한 두 마리의 의인화된 고양이가 스포트라이트가 비추는 무대에서 격렬하게 싸웁니다. |
Prompt: A wide cinematic shot from the audience's perspective capturing a vibrant hip-hop crew dominating the stage. Comprising five dancers with urban streetwear, confident expressions, and synchronized movements, they perform under dynamic stage lighting with side-angled beams slicing through smoke effects. The energetic crowd surrounds them, amplifying the powerful atmosphere of collective motion and rhythmic unity. 무대를 지배하는 활기찬 힙합 크루를 포착한 관객의 관점에서 본 넓은 시네마틱 샷. 도시적인 스트리트웨어, 자신감 넘치는 표정, 동기화된 움직임을 가진 5명의 댄서로 구성된 그들은 연기 효과를 가르는 측면 각도의 빔과 함께 역동적인 무대 조명 아래에서 공연합니다. 활기찬 군중은 그들을 둘러싸고 있으며, 집단적인 움직임과 리듬의 강력한 분위기를 증폭시킵니다. |
Prompt: Sports photography full of dynamism, several motorcycles fiercely compete on the loess flying track, their wheels rolling up the dust in the sky. The motorcyclist is wearing professional racing clothes. The camera uses a high-speed shutter to capture moments, follows from the side and rear, and finally freezes in a close-up of a motorcycle, showcasing its exquisite body lines and powerful mechanical beauty, creating a tense and exciting racing atmosphere. Close up dynamic perspective, perfectly presenting the visual impact of speed and power. 역동성이 가득한 스포츠 사진, 여러 대의 오토바이가 황토비행장에서 치열하게 경쟁하며, 그들의 바퀴가 하늘에 먼지를 일으키며 굴러갑니다. 오토바이 운전자는 전문적인 레이싱 옷을 입고 있습니다. 카메라는 고속 셔터를 사용하여 순간을 포착하고, 측면과 후면에서 따라가며, 마지막으로 오토바이의 근접 촬영으로 얼어붙어 그 정교한 바디 라인과 강력한 기계적 아름다움을 선보이며, 긴장감 넘치고 흥미로운 레이싱 분위기를 조성합니다. 클로즈업 다이내믹한 관점, 속도와 힘의 시각적 영향을 완벽하게 제시합니다. |
Prompt: Film quality, professional quality, rich details. The video begins to show the surface of a pond, and the camera slowly zooms in to a close-up. The water surface begins to bubble, and then a blonde woman is seen coming out of the lotus pond soaked all over, showing the subtle changes in her facial expression, creating a dreamy atmosphere. 필름 품질, 전문적인 품질, 풍부한 디테일. 영상은 연못의 표면을 보여주기 시작하고, 카메라는 천천히 줌인하여 클로즈업됩니다. 물 표면이 거품이 일기 시작하고, 그 후 금발의 여성이 온몸이 젖은 채로 연꽃 연못에서 나오는 모습이 보이며, 얼굴 표정의 미묘한 변화를 보여주며 몽환적인 분위기를 조성합니다. |
Prompt: In a cozy kitchen, a golden retriever wearing a white chef's hat and a blue apron stands at the table, holding a sharp kitchen knife and skillfully slicing fresh tomatoes. Its tail sways gently, and its gaze is focused and gentle. There are already several neatly arranged tomatoes on the wooden chopping board in front of me. The kitchen has soft lighting, with various kitchen utensils hanging on the walls and several pots of green plants placed on the windowsill. 아늑한 주방에서, 하얀 요리사 모자와 파란색 앞치마를 입은 골든 리트리버가 테이블에 서서 날카로운 주방 칼을 들고 신선한 토마토를 능숙하게 썰고 있습니다. 꼬리는 부드럽게 흔들리고, 눈빛은 집중되고 온화합니다. 내 앞의 나무 도마에는 이미 여러 개의 깔끔하게 정리된 토마토가 있습니다. 주방은 부드러운 조명이 비추고 있으며, 벽에는 다양한 주방 용품이 걸려 있고, 창틀에는 여러 개의 녹색 식물이 놓여 있습니다. |
Prompt: A lone diver, equipped with a flashlight, explores the dimly lit interior of a sunken pirate galleon. Accidentally, he disturbs a cache of ancient gunpowder barrels, causing the ship's interior to erupt in a muffled, underwater explosion. Debris and bubbles billow outwards, briefly illuminating the ghostly wreck and casting eerie shadows in the dark ocean depths. The diver's expression is one of surprise and urgency as they navigate the chaotic scene. 손전등을 장착한 외로운 다이버가 침몰한 해적 갤리온의 어둑한 내부를 탐험합니다. 실수로 그는 고대 화약통의 은닉처를 교란시켜 배의 내부가 묵직한 수중 폭발로 터지게 합니다. 파편과 거품이 바깥으로 부풀어 오르며 유령 같은 난파선을 잠시 비추고 어두운 바다 심연에 기이한 그림자를 드리웁니다. 다이버의 표정은 혼돈스러운 장면을 헤쳐나가는 동안 놀라움과 긴급함을 나타냅니다. |
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
5. 맺음말
오늘은 알리바바의 오픈소스 비디오 생성모델 Wan2.1에 대한 내용을 살펴보았는데요, 특히 RTX 4090과 같은 소비자용 GPU에서도 실행이 가능한 T2V-1.3B 모델을 통해 고품질의 비디오를 생성할 수 있다는 점에서 AI 비디오 생성의 대중화와 기술의 발전을 체감할 수 있었습니다.
여러분도 Wan2.1 모델을 체험해 보시길 추천드리면서 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 혹시 GPU 성능이 부족한 분들은 Lightning AI를 사용해 보시면 될 것 같습니다. 자세한 내용은 아래 링크를 참고하세요.
2024.06.02 - [AI 도구] - ⚡️🆓Lightning AI: 무료 GPU 클라우드 기반 AI 개발 플랫폼 Ollama 가이드
⚡️🆓Lightning AI: 무료 GPU 클라우드 기반 AI 개발 플랫폼 Ollama 가이드
안녕하세요! 오늘은 Lightning AI라는 클라우드 컴퓨팅 기반 AI 개발 플랫폼을 소개해 드리겠습니다. Lightning AI는 머신러닝(ML)과 인공지능(AI) 프로젝트를 빠르고 효율적으로 개발, 프로토타입, 훈련,
fornewchallenge.tistory.com
'AI 언어 모델' 카테고리의 다른 글
🎯QwQ-32B: 20배 작은 모델로 DeepSeek-R1 따라잡은 강화 학습 모델 (10) | 2025.03.08 |
---|---|
🐪🤖 QwQ-Max-Preview: 알리바바의 최신 추론 모델 심층 분석 ! (10) | 2025.03.05 |
🌍🚀세계 최초 하이브리드 추론 모델 Claude 3.7 Sonnet과 Claude Code 분석 (4) | 2025.02.26 |
🔍🤖 Grok-3: 일론 머스크가 극찬한 "지구에서 가장 똑똑한 AI 챗봇" (4) | 2025.02.19 |
🐋DeepSeek-VL2: 고급 멀티모달 이해를 위한 MoE 비전-언어 모델 (6) | 2025.02.09 |