안녕하세요! 오늘은 중국의 알리바바 클라우드에서 만든 Qwen2.5-Omni에 대해서 알아보겠습니다. 2025년 3월 27일, 공개된 이 모델은 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티를 이해하고 동시에 텍스트와 자연스러운 음성 응답을 스트리밍 방식으로 생성할 수 있는 멀티모달 모델로서, 혁신적인 아키텍처와 새로운 위치 임베딩 알고리즘을 통해 OmniBench에서 최첨단 성능을 달성했습니다. 이 블로그에서는 Qwen2.5-Omni의 주요 특징, 벤치마크 결과, 이용 방법 및 성능 테스트를 자세히 살펴보겠습니다.
1. Qwen2.5-Omni 개요
Qwen2.5-Omni는 다양한 모달리티를 통합적으로 처리하고 텍스트와 자연스러운 음성 응답을 실시간 스트리밍 방식으로 생성하는 단일 모델입니다. 기존의 언어 모델(LLM)과 언어-오디오-언어 모델(LALM), 언어-비전-언어 모델(LVLM)의 발전을 토대로, Qwen2.5-Omni는 텍스트, 이미지, 음성, 영상 등 다양한 정보를 한 번에 이해하고, 글과 자연스러운 음성으로 동시에 응답하여 사람이 소통하는 것처럼 만드는 것을 목표로 합니다
Qwen2.5-Omni의 핵심 특징은 다음과 같습니다:
- 통합된 멀티모달 모델: 텍스트, 이미지, 오디오, 비디오를 포함한 모든 모달리티를 인지하고 동시에 텍스트와 자연스러운 음성 응답을 스트리밍 방식으로 생성합니다.
- 새로운 위치 임베딩 알고리즘 (TMRoPE): 오디오와 비디오의 시간 정보를 명시적으로 통합하여 동기화하는 TMRoPE (Time-aligned Multimodal RoPE)라는 새로운 위치 임베딩 알고리즘을 제시합니다. 이 기능은 비디오와 오디오가 함께 입력될 때 이들의 시간적 흐름을 맞춤으로써, 모델이 비디오와 오디오를 정확하게 이해하도록 합니다.
- Thinker-Talker 아키텍처: 실시간 이해와 음성 생성을 용이하게 하는 Thinker-Talker 아키텍처를 제안합니다. Thinker는 텍스트, 오디오, 비디오를 이해하고 텍스트를 생성하는 두뇌 역할을 하며, Talker는 Thinker의 고수준 표현과 텍스트를 받아 실시간으로 음성 토큰을 생성하는 입 역할을 함으로써, 동시적인 텍스트와 음성 생성을 가능하게 합니다
- 뛰어난 성능: 유사한 크기의 단일 모달리티 모델과 비교했을 때 모든 모달리티에서 강력한 성능을 보여줍니다. 특히 음성 명령 이해 능력이 크게 향상되어 순수 텍스트 입력과 유사한 성능 수준을 달성했습니다. OmniBench와 같은 다중 모달리티 통합 작업에서 최첨단 성능을 기록했으며, 콘텐츠 일관성과 화자 유사성을 측정하는 seed-tts-eval 벤치마크에서 강력한 음성 생성 능력을 입증했습니다.
2. Qwen2.5-Omni 특징 및 주요 기능
Qwen2.5-Omni는 기존 모델들과 차별화되는 여러 가지 특징과 주요 기능을 갖추고 있습니다.
2.1. Thinker-Talker 아키텍처
Qwen2.5-Omni는 Thinker-Talker 아키텍처를 채택하여 텍스트 생성과 스트리밍 음성 생성을 동시에 수행합니다.
- Thinker: 텍스트, 오디오, 비디오 모달리티의 입력을 처리하고 이해하여 고수준의 표현과 해당 텍스트를 생성하는 "뇌" 역할을 합니다. Thinker는 정보 추출을 용이하게 하는 오디오 및 이미지 인코더와 함께 트랜스포머 디코더로 구성됩니다.
- Talker: Thinker에서 생성된 고수준 표현과 텍스트를 스트리밍 방식으로 입력받아 음성 토큰을 유연하게 출력하는 "입" 역할을 합니다. 학습 및 추론 과정에서 Talker는 Thinker의 고차원 표현을 직접 받고 Thinker의 모든 과거 컨텍스트 정보를 공유합니다.
이러한 설계를 통해 전체 아키텍처는 응집력 있는 단일 모델로 작동하여, 다양한 입력을 이해하고 텍스트와 음성으로 동시에 응답하는 복잡한 작업을 하나의 효율적인 시스템 내에서 처리할 수 있는 엔드-투-엔드 학습 및 추론이 가능합니다.
2.2. TMRoPE (Time-aligned Multimodal RoPE)
비디오 입력의 타임스탬프를 오디오와 동기화하기 위해 Qwen2.5-Omni는 TMRoPE (Time-aligned Multimodal RoPE)라는 새로운 위치 임베딩 방식을 제안합니다. 이 방식은 비디오를 시간 순서대로 보여주기 위해, 오디오와 비디오 장면을 번갈아 가며 배치합니다.
2.3. 스트리밍 처리
- 블록 단위 스트리밍 처리 방식: 긴 멀티모달 데이터(오디오, 비디오)를 작은 블록으로 나누어 순차적으로 처리하는 방식입니다. 이렇게 하면 모델이 실시간으로 정보를 더 효율적으로 이해하고 스트리밍 입력을 용이하게 할 수 있습니다.
- 슬라이딩 윈도우 DiT: 음성 토큰을 실시간으로 파형으로 변환하는 기술입니다. 제한된 범위의 이전 및 이후 블록만을 참조하여 초기 지연 시간을 줄이고 끊김 없는 스트리밍 오디오 생성을 가능하게 합니다.
2.4. 다양한 모달리티 처리
Qwen2.5-Omni는 다양한 입력을 이해하기 위해 먼저 컴퓨터가 처리할 수 있는 형태로 바꿉니다.
- 텍스트: Qwen 토크나이저를 사용하여 작은 의미 단위(토큰)로 나뉩니다.
- 음성: 1초에 16,000번 샘플링되고, 사람이 듣는 방식과 유사한 멜 스펙트로그램(mel-spectrogram)으로 변환됩니다. 이때 Qwen2-Audio의 인코더를 사용하여 약 40ms 단위로 처리합니다.
- 이미지 및 비디오: Qwen2.5-VL의 비전 인코더를 통해 분석됩니다. 이 인코더는 이미지와 비디오를 모두 잘 이해하며, 비디오는 프레임 속도를 조절하여 처리하고, 비디오 정보와 일관성을 유지하기 위해 이미지는 두 번 복사하여 처리됩니다.
위와 같은 과정을 통해 텍스트, 음성, 이미지, 비디오는 모두 컴퓨터가 처리할 수 있는 일련의 숫자 표현으로 변환되어 모델이 이해할 수 있게 됩니다
3. Qwen2.5-Omni 벤치마크 결과
Qwen2.5-Omni는 다양한 벤치마크에서 유사한 크기의 단일 모달리티 모델 및 Gemini-1.5 Pro와 같은 폐쇄형 모델과 비교하여 강력한 성능을 입증했습니다. 특히 여러 모달리티의 통합이 필요한 OmniBench와 같은 작업에서 최첨단 성능을 달성했습니다.
단일 모달리티 작업에서도 음성 인식 (Common Voice), 번역 (CoVoST2), 오디오 이해 (MMAU), 이미지 추론 (MMMU, MMStar), 비디오 이해 (MVBench), 음성 생성 (Seed-tts-eval 및 주관적 자연스러움) 등 다양한 분야에서 뛰어난 성과를 보였습니다.
3.1. 텍스트 → 텍스트 성능
Qwen2.5-Omni는 MMLU-Pro, MMLU-redux, MATH, GSM8K, MBPP, MultiPL-E, LiveCodeBench 등 대부분의 벤치마크에서 Qwen2-7B를 능가하는 뛰어난 텍스트 처리 능력을 보여주었습니다. 전반적인 성능은 유사한 크기의 다른 선도적인 대규모 언어 모델인 Qwen2-7B와 Qwen2.5-7B 사이에 위치합니다.
3.2. 오디오 → 텍스트 성능
오디오 이해, 오디오 추론, 음성 채팅 벤치마크에서 Qwen2.5-Omni는 최첨단 모델들과 비슷하거나 더 나은 성능을 달성했습니다. Fleurs_zh, CommonVoice_en/zh/yue/fr, CoVoST2_en-de/zh-en 테스트 세트에서 Whisper-large-v3, Qwen2-Audio, MinMo 및 기타 Omni 모델을 능가하는 뛰어난 ASR 및 S2TT 성능을 보였습니다. 음악 및 VSC와 같은 일반 오디오 이해 작업에서도 최첨단 성능을 달성했으며, MMAU 벤치마크의 사운드, 음악 및 음성 하위 집합에서 뛰어난 오디오 추론 능력을 입증했습니다. VoiceBench에서 인상적인 평균 점수 74.12를 기록하여 유사한 크기의 다른 오디오 언어 모델 및 Omni 모델을 능가했으며, 음성 상호 작용에서 강력한 능력을 보여주었습니다.
3.3. 이미지 → 텍스트 성능
Image → Text 능력 평가에서 Qwen2.5-Omni는 최신 최첨단 대규모 비전 언어 모델인 Qwen2.5-VL-7B와 비슷한 성능을 보였으며, MMMU, MathVision, MMBench-V1.1-EN, TextVQA, DocVQA, ChartQA에서 다른 오픈 소스 Omni 모델보다 더 나은 결과를 얻었습니다. 또한 대부분의 벤치마크에서 GPT-4o-mini를 능가하는 뛰어난 이미지 이해 능력을 입증했습니다. 시각적 접지 (visual grounding, 언어적 표현을 이미지 내의 특정 영역이나 객체와 정확하게 연결할 수 있는 능력) 평가에서도 박스 접지부터 포인트 접지까지 대부분의 벤치마크에서 다른 선도적인 LVLM (Gemini, Grounding-DINO 포함)을 능가했으며, 개방형 어휘 객체 감지에서 42.2mAP의 우수한 성능을 달성하여 강력한 시각적 접지 능력을 보여주었습니다.
3.4. 비디오 → 텍스트 성능
비디오 이해 능력 평가에서도 Qwen2.5-Omni는 다른 최첨단 오픈 소스 Omni 모델 및 GPT-4o-Mini를 능가했으며, Qwen2.5-VL-7B와 비교하여 더 좋거나 경쟁력 있는 결과를 얻어 뛰어난 비디오 이해 성능을 입증했습니다.
3.5. 멀티모달 → 텍스트 성능
OmniBench 벤치마크에서 Qwen2.5-Omni는 다른 Omni 모델들을 큰 차이로 능가하는 최첨단 성능을 달성하여 멀티모달 이해 능력의 우수성을 입증했습니다.
3.6. X → 음성 성능
제로샷 음성 생성 평가에서 Qwen2.5-Omni는 최첨단 TTS 시스템과 견줄 만한 뛰어난 성능을 보였습니다. 특히 인컨텍스트 학습( In-Context Learning, 모델이 명시적인 파인튜닝 없이 주어진 프롬프트 내의 예시들로부터 새로운 작업을 학습하거나 특정 맥락에 적응하는 능력)을 통해 강력한 음성 이해 및 생성 능력을 입증했으며, 단일 화자 음성 생성 평가에서는 화자 미세 조정을 통해 인간 수준에 가까운 자연스러운 음성을 생성하는 능력을 보여주었습니다.
4. Qwen2.5-Omni 이용 방법
Qwen2.5-Omni는 다양한 플랫폼과 도구를 통해 편리하게 이용할 수 있습니다.
4.1. 플랫폼
- Hugging Face: https://huggingface.co/Qwen/Qwen2.5-Omni-7B 에서 모델 카드, 파일, 커뮤니티 정보 등을 확인할 수 있으며, 🤗 Transformers 라이브러리를 통해 사용할 수 있습니다.
- ModelScope: https://modelscope.cn/organization/qwen 에서 모델을 다운로드하고 사용할 수 있습니다.
- DashScope: https://dashscope.aliyuncs.com/ 에서 API 서비스를 통해 Qwen2.5-Omni를 경험해 볼 수 있습니다.
- GitHub: https://github.com/QwenLM/Qwen2.5-Omni 에서 코드, 문서, 이슈 등을 확인할 수 있습니다.
- Qwen Chat: https://qwen.aliyun.com/ 에서 Qwen2.5-Omni-7B 모델을 직접 선택하여 실시간 상호 작용을 경험할 수 있습니다. 음성/영상 통화 기능을 통해 멀티모달 입력 및 음성 출력을 테스트해 볼 수 있습니다.
4.2. 허깅페이스 Demo 페이지
🤗 허깅페이스 데모 페이지에 접속하여 Qwen2.5-Omni를 사용해서 다양한 기능을 테스트해 볼 수 있습니다.
https://huggingface.co/spaces/Qwen/Qwen2.5-Omni-7B-Demo
Qwen2.5 Omni 7B Demo - a Hugging Face Space by Qwen
huggingface.co
5. Qwen2.5-Omni 성능 테스트
다음은 Qwen2.5-Omni의 성능을 테스트해 보았습니다. 테스트는 비디오, 이미지, 오디오 입력에 대한 텍스트/오디오 출력의 품질을 확인해 보고, 수학과 추론 성능을 테스트하였습니다.
1) 단일 비디오 및 이미지 이해성능
입력 | 출력 |
Explain this video |
The video shows a Rubik's cube on a dark background. There are buttons labeled "Scramble", "Solve" and "Reset View" on the left side. The cube starts with different colored squares on each face, like green, yellow, blue, etc. Then it rotates in various directions. It seems to be demonstrating how to scramble or solve the cube using these functions. If you have any other questions about this video or anything else, feel free to ask! (해당 영상은 어두운 배경에 루빅스 큐브가 보입니다. 왼쪽에는 "Scramble", "Solve" 및 "Reset View"라고 표시된 버튼이 있습니다. 큐브는 각 면에 녹색, 노란색, 파란색 등 다양한 색상의 사각형으로 시작합니다. 그런 다음 다양한 방향으로 회전합니다. 이러한 기능을 사용하여 큐브를 섞거나 해결하는 방법을 보여주는 것 같습니다. 이 영상에 대해 다른 질문이 있거나 다른 도움이 필요하면 언제든지 물어보세요!) |
![]() Describe this image |
This picture is really nice. It shows a woman standing at the beach. She has long brown hair that looks like it's blowing in the wind. Her skin is tanned from being out in the sun. She s wearing a white dress and smiling brightly. In the background, there s the ocean with waves coming in. It gives off such a relaxed and happy vibe. What do you think about it? (이 그림은 정말 멋져요. 해변에 서 있는 여자가 보여요. 그녀는 바람에 휘날리는 긴 갈색 머리를 가지고 있어요. 그녀의 피부는 햇빛에 그을려져 있어요. 그녀는 흰색 드레스를 입고 밝게 웃고 있어요. 배경에는 파도가 치는 바다가 보여요. 정말 편안하고 행복한 분위기를 자아내요. 어떻게 생각하세요?) |
2) 혼합 멀티모달(오디오, 이미지, 비디오) 동시 이해성능
입력 |
![]() |
오디오, 이미지, 비디오 중에서 태양계 공전 애니메이션을 나타낸것은 어떤거야? | |
출력 |
Well, among audio, image, and video, the video definitely represents the animation of the solar system orbiting. You know, videos can show movement and changes over time, just like the orbits of planets around the sun. So, if you're looking for something dynamic and visual, a video would be your best bet. What kind of animation were you thinking about specifically?
(음, 오디오, 이미지, 비디오 중에서 비디오는 확실히 태양계 궤도의 애니메이션을 나타냅니다. 아시다시피, 비디오는 태양 주위의 행성 궤도와 마찬가지로 시간 경과에 따른 움직임과 변화를 보여줄 수 있습니다. 따라서, 동적이고 시각적인 것을 찾고 있다면 비디오가 가장 적합할 것입니다. 어떤 종류의 애니메이션을 구체적으로 생각하고 계셨나요?) |
다음은 Qwen2.5-Omni의 수학과 추론성능을 테스트해 보겠습니다. 테스트는 허깅페이스 데모사이트에서 진행하였으며, 모델의 특성상, 코딩 성능 테스트는 하지 않았습니다. 또한 Qwen2.5-Omni는 한국어로 질문하였을 때는 틀린 경우가 많아서, 모든 테스트는 영어로 진행하였습니다.
1) 수학 테스트:
No. | 문제 구분 | 문제 | Qwen2.5-Omni |
1 | 기초 대수 문제 | There are two numbers 𝑥 x and 𝑦 y. The equation they satisfy is 3 𝑥 + 4 𝑦 = 12 3x+4y=12, and 𝑥 − 2 𝑦 = 1 x−2y=1. Find the values of 𝑥 x and 𝑦 y | Pass |
2 | 기하학 문제 | Find the area of a circle with a radius of 7 cm. Calculate with 𝜋 = 3.14159 π=3.14159. | Pass |
3 | 확률 문제 | Find the probability of getting a sum of 7 when two dice are rolled. | Pass |
4 | 수열 문제 | Find the 10th term of the arithmetic sequence with the first term of 3 and the common difference of 5. | Pass |
5 | 최적화 문제 | The perimeter of a certain rectangle is 36 cm. What should the length and width of the rectangle be to maximize its area? | Pass |
6 | 복합 문제 | Find the following limit in the complex plane. lim[n→∞] (1 + i/n)^(n^2) where i is the imaginary unit (i^2 = -1). | Fail |
수학 테스트에서는 기초 대수, 기하학, 확률, 수열, 최적화, 복합문제 등 여섯 문제 중 다섯 문제를 성공하였습니다.
No. | 문제 | Qwen2.5-Omni |
1 | 160 students in 5th and 6th grades participated in tree planting. As a result of planting an average of 5 trees each by 6th graders and an average of 3 trees each by 5th graders, a total of 560 trees were planted. How many 5th and 6th graders participated in tree planting? |
Pass |
2 | Betty is saving money for a new purse. The purse costs $100. Betty only has half the money she needs. Her parents decide to give her $15 for that purpose, and her grandparents give her twice as much as her parents. How much more money does Betty need to buy the purse? | Pass |
3 | A national elementary school math competition was held, and three people, Young-hee, Chul-soo, and Jin-ho, participated. They are students from Seoul, Busan, and Incheon, and they received first, second, and third place awards, respectively. When you know the following, where is Jin-ho from and what place did he get? 1) Young-hee is not a player from Seoul. 2) Chul-soo is not a player from Busan. 3) The player from Seoul is not first place. 4) The player from Busan got second place. 5) Chul-soo is not third place. |
Pass |
4 | There are three murderers in a room. A person enters the room and kills one of them. No one leaves the room. How many murderers are left in the room? Explain the reasoning process step by step. | Fail |
5 | A marble is put in a glass. The glass is then turned upside down and put on a table. Then the glass is picked up and put in a microwave. Where's the marble? Explain your reasoning step by step. | Fail |
6 | There are 5 big buses lined up on the road, and the destination of each car is written on the back of each car. The drivers know that 2 of the 5 cars are going to city A, and the other 3 are going to city B, but they can only see the destination of the car in front of them. The guide thought that these few drivers were all smart and did not tell them the destination of their car, but asked them to guess it. First, he asked the third driver to guess his destination, and he looked at the signs on the two cars in front of him and said, "I don't know." After hearing this, the second driver also thought about it and said, "I don't know." After hearing the two drivers, the first driver thought about it and accurately said his destination. Where is the destination that the first driver said? |
Pass |
Qwen2.5-Omni의 테스트 종합결과는 다음과 같습니다.
구분 | 코딩 테스트 결과 | 수학 테스트 결과 | 추론 테스트 결과 |
Qwen2.5-Omni | 미시행 | 83.33 | 66.67 |
6. 맺음말
Qwen2.5-Omni는 텍스트와 실시간 음성을 포함한 다양한 모달리티를 이해하고 생성할 수 있도록 설계된 통합 모델로서, 인공 일반 지능 (AGI)을 향한 중요한 진전을 나타냅니다. 비디오 통합을 강화하기 위해 오디오 및 비디오 타이밍을 정렬하는 TMRoPE라는 새로운 위치 임베딩 방법을 도입했으며, Thinker-Talker 프레임워크는 다양한 모달리티 간의 간섭을 최소화하면서 실시간 음성 생성을 지원합니다.
테스트하면서 느낀 점은 자연스러운 음성 합성이 가장 돋보였고, Omni 모델임에도 수학과 복잡한 추론문제도 성공한 점이 인상적이었습니다. AI 모델이 점점 사람을 닮아가고 있는것 같습니다. 여러분도 Qwen2.5-Omni 모델을 한 번씩 체험해 보시길 추천드리면서, 저는 그럼 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.
2025.01.31 - [AI 언어 모델] - 🔥Qwen2.5 Max: DeepSeek-V3를 앞선 알리바바의 대규모 MoE 모델
🔥Qwen2.5 Max: DeepSeek-V3를 앞선 알리바바의 대규모 MoE 모델
안녕하세요! 오늘은 알리바바 클라우드가 새롭게 공개한 대규모 MoE(Mixture-of-Experts) 모델, Qwen2.5-Max에 대해 살펴보겠습니다. Qwen2.5-Max는 20조 개 이상의 토큰으로 학습된 거대한 언어 모델로, MoE 아
fornewchallenge.tistory.com
'AI 언어 모델' 카테고리의 다른 글
🐪🖼️ Llama 4: Meta 최초의 MoE 기반 개방형 멀티모달 AI (2) | 2025.04.06 |
---|---|
🤖🔍QVQ-Max: 생각하고 이해하는 알리바바의 최첨단 시각적 추론 AI (6) | 2025.03.31 |
🔥♊Gemini 2.5 Pro-Exp: LMArena 1위! 구글의 최신 플래그십 AI 모델 (12) | 2025.03.29 |
🐳 DeepSeek V3-0324 공개! 오픈소스 LLM의 새로운 강자 등장 (8) | 2025.03.25 |
🏯🧠Hunyuan-T1: GPT 4.5 뛰어넘은 세계 최초 Hybrid-Transformer-Mamba MoE 모델 (8) | 2025.03.23 |