안녕하세요! 오늘은 샤오미(Xiaomi)가 새롭게 공개한 차세대 추론 중심 언어 모델, MiMo-7B 시리즈에 대해 알아보겠습니다. 이 모델은 수학 문제 해결과 코드 추론 등 복잡한 사고를 요하는 작업에 특화된 LLM입니다. 특히 MiMo-7B-RL은 70억 개의 파라미터로 구성된 비교적 경량 모델임에도, 수학 및 프로그래밍 벤치마크에서 320억 파라미터 이상의 모델들과 비슷하거나 능가하는 성능을 보여줍니다. MiMo-7B는 사전 학습부터 강화 학습까지 전 과정에 걸쳐 '추론 능력 극대화'라는 목표로 설계되었으며, 생성 속도 향상과 예측 정확도 개선을 위한 다중 토큰 예측(MTP) 기술이 적용되었습니다. 이번 블로그에서는 MiMo-7B 시리즈의 전체 라인업부터 주요 기술 특징, 벤치마크 성능 비교, 그리고 로컬 테스트 결과까지 살펴보겠습니다.
1. MiMo-7B 개요
MiMo-7B는 샤오미의 LLM 코어 팀에서 개발한 추론 중심 언어 모델 시리즈입니다. 이 모델의 핵심 목표는 사전 학습(pre-training)부터 사후 학습(post-training)까지 전 과정에서 모델의 추론 잠재력(reasoning potential)을 최대한 끌어내는 것입니다. 샤오미는 MiMo-7B 시리즈의 네 가지 주요 체크포인트(checkpoint)를 공개했습니다:
- MiMo-7B-Base: 순수 사전 학습을 거친 기본 모델로, 탁월한 추론 잠재력을 지니고 있습니다.
- MiMo-7B-SFT: 기본 모델에 지도 미세 조정(Supervised Fine-Tuning, SFT)을 적용한 모델입니다. 사후 학습의 시작점 역할을 하며, RL 학습의 성능 향상에 기여합니다.
- MiMo-7B-RL-Zero: 기본 모델(Base)에서 직접 강화 학습(Reinforcement Learning, RL)을 수행한 모델입니다.
- MiMo-7B-RL: SFT 모델에서 강화 학습(RL)을 수행한 모델로, 수학 및 코드 추론 작업에서 가장 우수한 성능을 보여줍니다.
MiMo-7B 모델의 주요 사양은 다음과 같습니다:
매개변수 수 | 아키텍처 | 컨텍스트 길이 | 학습 토큰 수: |
70억 개 (7B) | 표준 디코더 전용 트랜스포머 | 32,768 토큰 | 약 25조 토큰 |
- 아키텍처: 표준 디코더 전용(decoder-only) 트랜스포머 기반. 최신 모델에 사용되는 그룹형 쿼리 어텐션(grouped query attention), 특정 정규화 레이어, 활성화 함수, 위치 임베딩 등의 개선 사항이 적용되었습니다.
2. MiMo-7B 특징 및 주요 기능
MiMo-7B의 뛰어난 추론 능력은 사전 학습과 사후 학습 단계 모두에 걸친 혁신적인 접근 방식에서 비롯됩니다.
1) 추론에 최적화된 사전 학습: 샤오미 팀은 모델이 처음부터 추론 능력을 갖추도록 설계했습니다.
- 고품질 데이터: 수학 방정식, 코드 스니펫, 단계별 논증이 담긴 포럼 토론 등 추론 패턴을 포함하는 고품질 데이터를 수집하고 추출하기 위해 데이터 처리 도구를 개선했습니다. 표준 도구로 종종 손상되는 이러한 데이터를 보존하는 맞춤형 HTML 추출 도구와 PDF 파싱 도구를 사용하고, URL 및 MinHash 기술을 사용한 빠른 데이터 중복 제거를 구현했습니다.
- 합성 추론 데이터: 다른 고급 AI 모델, 특히 추론 능력이 뛰어난 모델이 생성한 합성 데이터를 활용했습니다. STEM 콘텐츠, 수학 문제, 코딩 챌린지 등 추론이 필요한 작업이 포함된 합성 데이터를 통해 모델의 학습 효과를 높였습니다.
2) 다중 토큰 예측 (Multi-Token Prediction, MTP): 사전 학습 단계에 추가 학습 목표로 MTP를 도입했습니다. 이는 모델이 바로 다음 토큰뿐만 아니라 여러 개의 미래 토큰을 동시에 예측하도록 학습시키는 것입니다. 이를 통해 모델은 앞으로 나올 내용을 예측하는 표현을 개발하도록 장려되며, 이는 생성 속도 향상과 예측 정확도 개선으로 이어질 수 있습니다.
3) 정교한 사후 학습 (강화 학습): 사전 학습으로 구축된 강력한 추론 기반을 더욱 날카롭게 다듬기 위해 사후 학습을 진행했습니다.
- 지도 미세 조정 (SFT): 약 50만 개의 고품질의 다양한 예제를 사용하여 모델에게 원하는 출력을 직접 보여주었습니다. SFT는 이후 강화 학습의 더 나은 시작점 역할을 했습니다. 형식 학습에만 치중한 가벼운 SFT는 효과가 없었으며, 실제 추론을 가르치는 실질적인 SFT가 중요함을 확인했습니다.
- 강화 학습 (RL): 검증 가능한 수학 및 코드 문제 약 13만 개를 엄선하여 RL 학습에 사용했습니다. 문제의 품질과 검증 가능성이 중요하며, 모델이 실제 문제를 해결하는 대신 보상 시스템의 허점을 파고드는 '보상 해킹(reward hacking)'을 방지하기 위해 규칙 기반 검증기(rule-based verifiers)를 사용했습니다.
- 테스트 난이도 기반 코드 보상: 코딩 문제의 경우, 테스트 케이스를 난이도별로 그룹화하고, 어려운 테스트 케이스를 해결할수록 더 높은 보상을 주는 부분 보상 시스템을 도입했습니다. 이는 통과/실패로만 보상하는 방식(sparse reward)으로는 학습이 어려운 문제를 모델이 효율적으로 학습하도록 돕는 중요한 기능입니다.
- 적응형 학습: 학습 과정에서 모델에게 너무 쉬워진 문제들은 학습 효율을 위해 샘플링 빈도를 조절하는 쉬운 데이터 리샘플링 전략을 사용했습니다. 또한 모델이 학습하는 데 어려움을 겪는 프롬프트에 집중하는 동적 샘플링(dynamic sampling)과 탐색을 장려하는 clip higher 전략 등 RL 프로세스를 신중하게 조정했습니다.
4) 온디바이스/엣지 환경 최적화: 7B 모델이라는 작은 크기와 최적화된 설계를 통해 스마트폰, 태블릿, IoT 기기 등 온디바이스 및 엣지 환경에서의 실행 가능성에 초점을 맞췄습니다. 이는 다른 AI 기업들과 차별화되는 MiMo-7B의 강점 중 하나입니다.
5) 완전한 오픈 소스: MiMo-7B 시리즈는 모델 가중치와 기술 보고서가 모두 공개되어 누구나 다운로드하고 활용할 수 있습니다. 이는 연구자와 개발자들이 MiMo-7B를 기반으로 추가적인 연구 및 응용을 진행할 수 있도록 지원하는 중요한 기여입니다.
이러한 특징들은 MiMo-7B가 단순히 언어를 잘 다루는 것을 넘어, 복잡한 문제를 이해하고 해결하는 강력한 추론 능력을 갖추도록 만들었습니다.
3. MiMo-7B 벤치마크 결과
샤오미는 다양한 벤치마크를 통해 MiMo-7B 시리즈, 특히 최종 모델인 MiMo-7B-RL의 성능을 입증했습니다. 특히 7B 모델이 더 큰 규모의 모델들과 경쟁하거나 능가하는 결과는 주목할 만합니다.
MiMo-7B-Base 모델 성능: 사전 학습만 거친 MiMo-7B-Base 모델도 이미 강력한 성능을 보였습니다.
- BBH (Big Bench Hard): 75.2점 기록. 다른 오픈소스 7B 모델들을 능가했습니다.
- SuperGPQA: 대학원 수준의 질문으로 구성된 이 벤치마크에서도 좋은 성능을 보였습니다.
- LiveCodebench v5: 코딩 성능 32.9점.
- AIME 2024: 수학 문제 32.9점.
- Pass@K: 첫 번째 답변 외에 K번째 시도 내에 정답을 맞힐 확률을 나타내는 Pass@K 지표에서도 경쟁 모델보다 꾸준히 높은 점수를 기록하며, 모델의 잠재력과 심층적인 추론 메커니즘의 강력함을 시사했습니다.
- 긴 컨텍스트 처리: 32K 컨텍스트 창 내에서 정보를 찾는 Ruler 벤치마크에서 거의 완벽한 정확도를 보였으며, 긴 컨텍스트에 걸쳐 추론하는 작업에서도 좋은 성능을 보였습니다.
SFT와 RL을 거친 최종 모델인 MiMo-7B-RL은 수학 및 코드 분야에서 특히 인상적인 결과를 달성했습니다.
벤치마크 | MiMo-7B-Base | MiMo-7B-SFT | MiMo-7B-RL-Zero | MiMo-7B-RL | OpenAI o1-mini | Qwen 2.5-32B-RL-Zero | DeepSeek-R1-Zero-32B |
MATH500 (Pass@1) |
37.4 | 93.0 | 93.6 | 95.8 | 90.0 | 90.6 | 93.9 |
AIME 2024 (Pass@1) |
32.9 | 58.7 | 56.4 | 68.2 | 63.6 | 50.0 | 69.7 |
AIME 2025 (Pass@1) |
24.3 | 44.3 | 46.3 | 55.4 | 50.7 | 32.4 | 48.2 |
LiveCodebench v5 (Pass@1) |
32.9 | 52.3 | 49.1 | 57.8 | 53.8 | 41.9 | 53.1 |
LiveCodebench v6(Pass@1) | 29.1 | 45.5 | 42.9 | 49.3 | 46.8 | 39.1 | - |
MiMo-7B-RL은 다음과 같은 결과를 보여주었습니다:
- 수학: AIME 2025에서 55.4점을 기록하며 OpenAI의 o1-mini보다 4.7점 높은 점수를 달성했습니다. MATH500에서는 95.8점, AIME 2024에서는 68.2점을 기록하며 다른 모델들을 능가했습니다.
- 코드: LiveCodebench v5에서 57.8점, LiveCodebench v6에서 49.3점을 기록했습니다. 특히 V6 벤치마크에서는 320억 개 매개변수 모델인 Qwen2.5-32B-RL-Zero보다 10점 이상 높은 점수를 기록하며, 샤오미 접근 방식의 효과성을 입증했습니다.
- 일반 능력: GPQA Diamond, DROP, IF-Eval 등 일반 능력 벤치마크에서도 경쟁력 있는 성능을 유지하며, 전문 분야 강화가 일반 능력을 저해하지 않았음을 보여주었습니다.
MiMo-7B-RL이 Base 모델에서 RL을 시작한 MiMo-7B-RL-Zero보다 최종 성능이 더 높았다는 점은, SFT 단계가 강화 학습이 구축될 수 있는 더 나은 기반을 제공함을 시사합니다. 일부 커뮤니티 논평에서는 이러한 벤치마크 결과에 대해 회의적인 시각(e.g., 테스트 데이터에 과적합되었을 가능성, 벤치마크가 현실 성능을 완전히 반영하지 못할 수 있다는 우려)도 존재하지만, 전반적으로 7B 모델이 이 정도 수준의 결과를 냈다는 사실 자체는 매우 인상적이라는 평가가 지배적입니다.
4. MiMo-7B 로컬 사용방법
MiMo-7B는 허깅페이스(HuggingFace) 저장소를 통해 공개되어 있으며, GGUF와 같은 경량화 형식으로 변환되어 Ollama, LM Studio, llama.cpp 등 로컬 추론 엔진에서도 사용할 수 있습니다. 아래 링크에서 MiMo-7B -RL GGUF 모델의 양자화 버전을 다운로드 하실수 있습니다.
https://huggingface.co/jedisct1/MiMo-7B-RL-GGUF/tree/main
jedisct1/MiMo-7B-RL-GGUF at main
huggingface.co
아래 화면과 같이 LM studio에서 MiMo-7B-RL 모델의 GGUF 버전을 다운로드 하신후 대화하실 수 있습니다.
아래 레포지토리를 복제하시면 답변 접기 기능, LaTeX 수식 렌더링 기능, LM studio API 연동 기능이 구현된 MiMo-7B-RL 챗봇 웹 애플리케이션을 사용하실 수 있습니다.
https://github.com/jmpark333/MiMo-7b-Chatbot
GitHub - jmpark333/MiMo-7b-Chatbot
Contribute to jmpark333/MiMo-7b-Chatbot development by creating an account on GitHub.
github.com
1) LM Studio 실행: 로컬 머신에서 LM Studio를 실행하고 mimo-7b-rl 모델을 로드한 후 API 서버를 시작합니다.
2) 필요 라이브러리 설치: pip install streamlit requests
3) Streamlit 앱 실행: streamlit run app.py
이제 웹 브라우저에서 Streamlit 앱에 접속하여 챗봇과 대화할 수 있습니다.
##주요 기능
- Streamlit 기반 UI: 사용자와 챗봇 간의 대화를 위한 웹 인터페이스를 제공합니다.
- LM Studio 연동: 로컬 머신에서 실행 중인 LM Studio API (http://127.0.0.1:1234/v1/chat/completions)와 통신하여 모델 응답을 가져옵니다.
- 대화 기록 관리: Streamlit의 세션 상태(st.session_state)를 사용하여 현재 세션의 대화 기록을 유지합니다.
- 스트리밍 응답: 모델의 응답을 실시간으로 받아와 사용자에게 점진적으로 표시합니다 (stream=True). 이를 통해 사용자는 응답이 생성되는 과정을 볼 수 있습니다.
- 생각/답변 분리 및 접기: 모델 응답 내 <think>...</think> 태그로 감싸진 부분을 별도의 접을 수 있는 섹션으로 표시합니다. 이를 통해 모델의 "생각" 과정을 확인하거나 숨길 수 있습니다.
- 영어 응답 강제: 시스템 프롬프트를 통해 챗봇이 항상 영어로 답변하도록 설정되어 있습니다.
- LaTeX 수식 렌더링: 모델 응답에 포함된 LaTeX 수식을 자동으로 감지하고 st.latex()를 사용하여 수식을 아름답게 렌더링합니다. 인라인 수식($...$)과 디스플레이 수식($$...$$)을 모두 지원합니다.
##최근 업데이트 (2025-05-06)
LaTeX 수식 렌더링 기능 개선:
모델 응답에 포함된 LaTeX 수식을 자동으로 감지하고 적절히 렌더링하는 기능 추가
수식과 일반 텍스트를 분리하여 각각 최적의 방식으로 렌더링
분수(\frac{}{}), 괄호(\left(, \right)), 박스(\boxed{}) 등 다양한 수식 표현 지원
인라인 수식($...$)과 디스플레이 수식($$...$$) 모두 지원
5. MiMo-7B-RL 성능 테스트
다음은 MiMo-7B-RL의 코딩, 수학, 추론 성능을 테스트해 보겠습니다. 코딩 성능은 코딩 교육 사이트 edabit.com의 Python, JavaScript, C++ 문제를 통해 테스트하고, 수학 문제는 기하학, 확률, 수열, 최적화, 복합 문제 등으로 구성된 6개의 문제를 사용했습니다. 모든 평가 항목은 재시도 없이 첫 번째 시도의 채점 결과를 그대로 반영하였습니다.
1) 코딩 테스트
MiMo-7B-RL | Medium | Hard | Very Hard | Expert |
Python | Pass | Pass | Pass | Pass |
JavaScript | Pass | Pass | Pass | Pass |
C++ | Pass | Pass | Pass | Fail |
코딩 테스트 결과, MiMo-7B-RL는 C++ Expert 난이도를 제외하고 모든 난이도 문제를 성공하였습니다. 7B모델이 Python과 JavaScript Expert 난이도를 성공한 것은 상당히 인상적입니다.
2) 수학 테스트
No. | 문제 구분 | 문제 | MiMo-7B-RL |
1 | 기초 대수 문제 | 두 숫자 𝑥 x와 𝑦 y가 있습니다. 이들이 만족하는 식은 3 𝑥 + 4 𝑦 = 12 3x+4y=12이며, 𝑥 − 2 𝑦 = 1 x−2y=1입니다. 𝑥 x와 𝑦 y의 값을 구하세요 | Pass |
2 | 기하학 문제 | 반지름이 7cm인 원의 넓이를 구하세요. 𝜋 = 3.14159 π=3.14159로 계산하세요. | Pass |
3 | 확률 문제 | 주사위를 두 번 던졌을 때, 두 숫자의 합이 7이 될 확률을 구하세요. | Pass |
4 | 수열 문제 | 첫 번째 항이 3이고, 공차가 5인 등차수열의 10번째 항을 구하세요. | Pass |
5 | 최적화 문제 | 어떤 직사각형의 둘레가 36cm입니다. 이 직사각형의 넓이를 최대화하려면 가로와 세로의 길이는 각각 얼마여야 하나요? | Pass |
6 | 복합 문제 | 복소평면에서 다음 극한값을 구하시오. lim[n→∞] (1 + i/n)^(n^2) 여기서 i는 허수단위 (i^2 = -1)입니다. | Pass |
수학 테스트에서 MiMo-7B-RL는 기초 대수, 기하학, 확률, 수열, 최적화, 복합문제 등 여섯 문제를 모두 성공하였습니다.
3) 추론 테스트
No. | 문제 | MiMo-7B-RL |
1 | 5학년과 6학년 학생 160명이 나무 심기에 참가하였습니다. 6학년 학생들이 각각 평균5그루,5학년 학생들이 각각 평균 3그루씩 심은 결과 모두 560그루를 심었습니다. 나무심기에 참가한 5,6학년 학생은 각각 몇명일까요? | Pass |
2 | 베티는 새 지갑을 위해 돈을 모으고 있습니다. 새 지갑의 가격은 $100입니다. 베티는 필요한 돈의 절반만 가지고 있습니다. 그녀의 부모는 그 목적을 위해 $15를 주기로 결정했고, 할아버지와 할머니는 그녀의 부모들의 두 배를 줍니다. 베티가 지갑을 사기 위해 더 얼마나 많은 돈이 필요한가요? | Pass |
3 | 전국 초등학생 수학경시대회가 열렸는데 영희,철수,진호 세사람이 참가했습니다. 그들은 서울,부산,인천에서 온 학생이고 각각 1등,2등,3등 상을 받았습니다. 다음과 같은 사항을 알고 있을때 진호는 어디에서 온 학생이고 몇등을 했습니까? 1) 영희는 서울의 선수가 아닙니다. 2) 철수는 부산의 선수가 아닙니다. 3)서울의 선수는 1등이 아닙니다. 4) 부산의 선수는 2등을 했습니다. 5)철수는 3등이 아닙니다. | Pass |
4 | 방 안에는 살인자가 세 명 있습니다. 어떤 사람이 방에 들어와 그중 한 명을 죽입니다. 아무도 방을 나가지 않습니다. 방에 남아 있는 살인자는 몇 명입니까? 단계별로 추론 과정을 설명하세요. | Fail |
5 | A marble is put in a glass. The glass is then turned upside down and put on a table. Then the glass is picked up and put in a microwave. Where's the marble? Explain your reasoning step by step. | Pass |
6 | 도로에 5대의 큰 버스가 차례로 세워져 있는데 각 차의 뒤에 모두 차의 목적지가 적혀져 있습니다. 기사들은 이 5대 차 중 2대는 A시로 가고, 나머지 3대는 B시로 간다는 사실을 알고 있지만 앞의 차의 목적지만 볼 수 있습니다. 안내원은 이 몇 분의 기사들이 모두 총명할 것으로 생각하고 그들의 차가 어느 도시로 가야 하는지 목적지를 알려 주지 않고 그들에게 맞혀 보라고 하였습니다. 먼저 세번째 기사에게 자신의 목적지를 맞혀 보라고 하였더니 그는 앞의 두 차에 붙여 놓은 표시를 보고 말하기를 "모르겠습니다." 라고 말하였습니다. 이것을 들은 두번째 기사도 곰곰히 생각해 보더니 "모르겠습니다." 라고 말하였습니다. 두명의 기사의 이야기를 들은 첫번째 기사는 곰곰히 생각하더니 자신의 목적지를 정확하게 말하였습니다. 첫번째 기사가 말한 목적지는 어디입니까? | Fail (답변시간 2h 초과) |
MiMo-7B-RL는 추론 성능 테스트에서 6문제중 2문제를 제외하고 모두 성공하였습니다. 하지만 버스 추론 문제에서는 추론에 2시간 넘게 걸리면서, 복잡한 문제에 대한 실질적인 활용성은 다소 아쉬운 모습을 보였습니다.
테스트 결과, MiMo-7B-RL 모델은 생각시간이 1문제 당 보통 5분 이상씩 소요되었지만 상당한 답변 정확도를 보여주었습니다. 이러한 7B 모델의 작은 크기와 온디바이스 환경 최적화는 클라우드 API 호출 없이 로컬 장치에서 직접 실행하는 것을 가능하게 할 수 있으며, 이는 비용 절감 및 개인 정보 보호 측면에서도 상당한 이점을 제공합니다.
6. 맺음말
샤오미의 MiMo-7B 시리즈는 AI 추론 모델 개발에 있어 모델 크기가 절대적인 성능을 결정하지 않음을 명확히 보여주는 사례입니다. MiMo-7B-RL은 7B 모델임에도 불구하고 최신 32B 모델 및 OpenAI o1-mini와 같은 강력한 경쟁자들과 어깨를 나란히 하거나 특정 벤치마크에서 이를 능가하는 성과를 달성했습니다.
샤오미가 MiMo-7B 시리즈를 오픈 소스로 공개한 것은 AI 커뮤니티와 특히 온디바이스 AI 및 엣지 컴퓨팅 환경에서의 추론 모델 개발에 새로운 가능성을 제시합니다. MiMo-7B는 작지만 강력한 AI 모델의 등장을 알리는 신호탄이며, 앞으로 이러한 효율적인 모델들이 AI 분야에 어떤 변화를 가져올지 기대됩니다.
오늘 블로그는 여기까지입니다. 그럼 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.
2025.05.02 - [AI 언어 모델] - 🧠🔁Qwen3: 생각 모드 전환하는 알리바바의 하이브리드 추론 모델
🧠🔁Qwen3: 생각 모드 전환하는 알리바바의 하이브리드 추론 모델
오늘은 Alibaba가 새롭게 공개한 차세대 언어 모델, Qwen3 시리즈에 대해 알아보겠습니다. 이 모델들은 이전 세대 Qwen2.5를 뛰어넘는 진화된 AI 모델로, 단순한 언어 이해를 넘어선 하이브리드 추론
fornewchallenge.tistory.com
'AI 언어 모델' 카테고리의 다른 글
🐋딥시크-R1-0528: 더욱 깊어진 사고력으로 Gemini 2.5를 따라잡다 (12) | 2025.06.01 |
---|---|
🏆Claude 4: Gemini 2.5 Pro를 능가하는 앤트로픽의 차세대 언어 모델 (22) | 2025.05.25 |
🧠🔁Qwen3: 생각 모드 전환하는 알리바바의 하이브리드 추론 모델 (5) | 2025.05.02 |
🧠💰Gemini 2.5 Flash: 생각 모드 및 추론 예산 제어하는 차세대 AI (7) | 2025.04.21 |
🔍🧬📊o3, o4-mini: GPT-4o에 이은 OpenAI의 차세대 추론 모델 (6) | 2025.04.18 |