안녕하세요! 오늘은 DeepSeek AI에서 개발한 최신 추론 모델 DeepSeek-R1에 대해 알아보겠습니다. DeepSeek-R1은 순수 강화 학습(Pure Reinforcement Learning)을 통해 언어 모델의 추론 능력을 혁신적으로 향상시킨 모델로, 기존 지도 학습 방식과 달리, 보상(Reward) 기반으로 학습하며, 스스로 복잡한 문제를 해결하는 사고 능력을 발전시키는 데 성공했습니다. 특히, 사고 연쇄(Chain-of-Thought, CoT) 과정을 자연스럽게 학습하여 자기 검증, 반성, 긴 CoT 생성 등 고급 추론 기능을 탑재했습니다. 이 블로그에서는 DeepSeek-R1의 주요 특징, 벤치마크 결과, 사용방법에 대해 알아보고, 코드 및 수학 문제 해결 능력을 비롯한 다양한 성능 테스트를 통해 이 모델에 대해 살펴보겠습니다.
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
1. DeepSeek-R1 개요
DeepSeek-R1은 DeepSeek AI에서 개발한 첫 번째 추론 모델로, 강화 학습(Reinforcement Learning, RL)을 통해 언어 모델의 추론 능력을 향상시키는 데 초점을 맞추고 있습니다. 이 모델은 기존의 지도 학습(Supervised Fine-Tuning, SFT) 방식에 의존하지 않고, 순수 강화 학습(Pure RL) 과정을 통해 스스로 추론 능력을 발전시키는 데 성공했습니다. 이러한 접근 방식은 모델이 복잡한 문제를 해결하기 위한 사고 연쇄(Chain-of-Thought, CoT) 과정을 스스로 학습하도록 유도하며, 자기 검증, 반성, 긴 CoT 생성과 같은 능력을 자연스럽게 습득하게 합니다.
강화 학습(Reinforcement Learning, RL)은 환경과의 상호작용을 통해 최적의 행동 전략을 학습하는 머신러닝 기법입니다. 다른 학습 방식과 달리 명시적인 정답 데이터가 주어지지 않고, 대신 "보상(reward)"을 통해 학습합니다. 에이전트(agent)가 환경(environment)에서 행동(action)을 선택하고, 그 결과로 보상과 새로운 상태(state)를 얻으며, 이를 반복하며 누적 보상을 최대화하는 정책(policy)을 학습합니다.
모 델 | 총 파라미터 수 | 활성화된 매개변수 | 컨텍스트 길이 | 다운로드 |
DeepSeek-R1-Zero | 6,710B | 37B | 128K | https://huggingface.co/deepseek-ai/DeepSeek-R1-Zero |
DeepSeek-R1 | 6,710B | 37B | 128K | https://huggingface.co/deepseek-ai/DeepSeek-R1 |
DeepSeek-R1은 초기 모델인 DeepSeek-R1-Zero를 기반으로 개발되었습니다. DeepSeek-R1-Zero는 SFT 없이 대규모 RL 학습을 통해 놀라운 추론 능력을 보여주었지만, 가독성 문제와 언어 혼합과 같은 문제가 발생하였다고 합니다.
이러한 문제를 해결하고 추론 성능을 더욱 향상시키기 위해, DeepSeek-R1은 다단계 학습과 안정적이고 효율적으로 학습을 시작할 수 있도록 돕는 초기 학습 데이터인 콜드 스타트(Cold Start) 데이터를 통합하여 개발되었습니다.
DeepSeek-R1은 OpenAI-o1-1217 모델과 비교 가능한 추론 성능을 달성했으며, 연구 커뮤니티를 지원하기 위해 DeepSeek-R1-Zero, DeepSeek-R1, 그리고 DeepSeek-R1 교사 모델의 출력 데이터를 활용하여 작은 모델을 학습시킨, 6개의 증류 모델(1.5B, 7B, 8B, 14B, 32B, 70B)을 오픈 소스로 공개했습니다.
증류 모델 | Base Model | Download |
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-70B |
2. DeepSeek-R1 특징 및 주요 기능
DeepSeek-R1은 다음과 같은 주요 특징과 기능을 가지고 있습니다:
- 순수 강화 학습 기반 추론 능력 향상: 기존의 SFT에 의존하지 않고 순수 강화 학습만을 사용하여 언어 모델의 추론 능력을 향상시킵니다.
- 자기 진화 능력: RL 과정을 통해 모델 스스로 복잡한 추론 문제를 해결하기 위한 사고 연쇄를 학습하고, 자기 검증 및 반성과 같은 고급 추론 행동을 자발적으로 개발합니다.
- Cold-start 데이터 활용: 초기 RL 학습의 불안정성을 해소하기 위해 고품질의 Cold-start 데이터를 사용하여 모델을 초기화합니다.
- 다단계 학습 파이프라인: 모델의 추론 능력 및 일반적인 능력을 향상시키기 위해 두 단계의 RL과 두 단계의 SFT를 통합한 다단계 학습 파이프라인을 사용합니다.
- 가독성 및 언어 일관성: 콜드 스타트 데이터와 언어 일관성 보상(Language Consistency Reward)을 통해 추론 과정의 가독성을 향상시키고, 언어 혼합 문제를 줄입니다.
- 지식 증류: 대형 모델의 추론 패턴을 소형 모델로 증류하여 더 효율적인 모델을 개발합니다.
- 다양한 작업 수행 능력: 창의적 글쓰기, 일반 질의응답, 편집, 요약 등 다양한 작업에서 뛰어난 성능을 보입니다.
- 긴 문맥 이해 능력: 긴 문맥을 이해해야 하는 작업에서 DeepSeek-V3 모델보다 뛰어난 성능을 보여줍니다.
- 코드 및 수학 문제 해결: 코드 대회 및 수학 문제 해결 작업에서 전문가 수준의 성능을 보입니다.
3. DeepSeek-R1 벤치마크 결과
DeepSeek-R1은 다양한 벤치마크에서 탁월한 성능을 입증했습니다. DeepSeek-R1은 수학 및 코딩 관련 작업에서 OpenAI-o1-1217과 비슷하거나 약간 더 나은 성능을 보입니다. 특히, AIME 2024와 MATH-500에서는 매우 경쟁력 있는 결과를 보여줍니다. 반면, 일반 지식 및 언어 이해 능력에서는 OpenAI-o1-1217보다 약간 낮은 성능을 보입니다. 그러나, DeepSeek-R1은 다양한 벤치마크에서 전반적으로 강력한 성능을 보이며, 특히 긴 맥락 이해와 다양한 작업에서 뛰어난 능력을 보여줍니다.
추론 작업 벤치마크 결과:
- AIME 2024: 미국에서 주최하는 초청 수학 시험에서 DeepSeek-R1은 AIME 2024에서 79.8%의 Pass@1 점수를 획득하여 OpenAI-o1-1217 모델을 약간 능가합니다.
- MATH-500: 수학문제 해결능력 평가지표인 MATH-500에서 DeepSeek-R1은 97.3%의 점수를 달성하여 OpenAI-o1-1217과 동등한 수준의 성능을 보여줍니다.
- Codeforces: 온라인 코딩 대회에서 상위 3.7%의 성능을 보여주는 2029 Elo 레이팅을 달성하며, 코드 경쟁 분야에서 전문가 수준의 성능을 입증했습니다.
지식 벤치마크 결과:
- MMLU: MMLU에서 90.8%의 점수를 기록하며 DeepSeek-V3 모델을 크게 능가합니다.
- MMLU-Pro: MMLU-Pro에서 84.0%의 점수를 달성하며 DeepSeek-V3 모델보다 뛰어난 성능을 보여줍니다.
- GPQA Diamond: GPQA Diamond에서 71.5%의 점수를 기록하여 DeepSeek-V3 모델을 능가합니다.
기타 벤치마크 결과:
- AlpacaEval 2.0: 승률 87.6%를 기록하며, 창의적인 글쓰기 및 일반 질의응답 작업에서 뛰어난 능력을 보여줍니다.
- Long-Context: 긴 문맥 이해 작업에서 DeepSeek-V3 모델을 크게 능가합니다.
6개 증류 모델의 벤치마크 결과는 다음과 같습니다.
- DeepSeek-R1-Distill-Qwen-7B: AIME 2024에서 55.5%의 점수를 달성하여 QwQ-32B-Preview 모델을 능가합니다.
- DeepSeek-R1-Distill-Qwen-32B: AIME 2024에서 72.6%, MATH-500에서 94.3%, LiveCodeBench에서 57.2%의 점수를 기록하여 기존 오픈 소스 모델보다 뛰어난 성능을 보여줍니다.
4. DeepSeek-R1 사용방법
위 사이트에서 채팅창 아래 DeepThink (R1) 버튼을 클릭하고 대화하면 됩니다.
2) DeepSeek API를 이용한 DeepSeek-R1 사용 방법
DeepSeek API를 사용하려면 DeepSeek AI의 공식 웹사이트에서 API 키를 발급받고, API 문서를 참고하여 설정을 해야 하며, API 호출 시 model=deepseek-reasoner를 설정하여 DeepSeek-R1 모델을 유료로 사용할 수 있습니다.
DeepSeek API의 가격은 다음과 같이 o1 모델에 비해 매우 저렴합니다.
- 입력 토큰 (캐시 히트): 100만 토큰 당 $0.14
- 입력 토큰 (캐시 미스): 100만 토큰 당 $0.55
- 출력 토큰: 100만 토큰 당 $2.19
API 가이드: DeepSeek API 가이드는 다음 링크에서 확인할 수 있습니다.
https://api-docs.deepseek.com/guides/reasoning_model
Reasoning Model (deepseek-reasoner) | DeepSeek API Docs
deepseek-reasoner is a reasoning model developed by DeepSeek. Before delivering the final answer, the model first generates a Chain of Thought (CoT) to enhance the accuracy of its responses. Our API provides users with access to the CoT content generated b
api-docs.deepseek.com
3) Ollama를 이용한 DeepSeek-R1 사용 방법
Ollama를 먼저 설치해야 하며, Ollama 공식 웹사이트에서 운영체제에 맞는 설치 파일을 다운로드하여 설치할 수 있습니다. Ollama 모델사이트에서 다음과 같은 DeepSeek-R1과 증류 모델을 무료로 다운로드할 수 있습니다.
- ollama run deepseek-r1:1.5b (1.5B Qwen DeepSeek R1)
- ollama run deepseek-r1:7b (7B Qwen DeepSeek R1)
- ollama run deepseek-r1:8b (8B Llama DeepSeek R1)
- ollama run deepseek-r1:14b (14B Qwen DeepSeek R1)
- ollama run deepseek-r1:32b (32B Qwen DeepSeek R1)
- ollama run deepseek-r1:70b (70B Llama DeepSeek R1)
- ollama run deepseek-r1:671b (671B DeepSeek R1)
Ollama에서 다운로드한 모델은 아래 화면과 같이 OpenWebUI에서 대화할 수 있습니다.
5. DeepSeek-R1 성능 테스트
다음은 DeepSeek-R1의 코딩, 수학, 추론성능을 테스트해 보겠습니다. 코딩 테스트는 edabit.com 코딩 교육 사이트의 파이썬, 자바 스크립트, C++코딩 시험문제로 테스트하고, 수학 문제는 기하학, 확률, 수열, 최적화, 복합 문제 등으로 구성된 6개의 문제를 사용했습니다. 모든 평가 항목은 재시도 없이 첫 번째 시도의 채점 결과를 그대로 반영하였습니다.
1) 코딩 테스트 결과
DeepSeek-R1/Pass@1 | Medium | Hard | Very Hard | Expert |
Python | Pass | Pass | Pass | Pass |
JavaScript | Pass | Pass | Pass | Pass |
C++ | Pass | Pass | Pass | Pass |
코딩 테스트 결과 DeepSeek-R1은 파이썬, 자바 스크립트, C++ 코딩 시험문제 모든 난이도 문제를 성공하였습니다.
2) 수학 테스트
No. | 문제 구분 | 문제 | DeepSeek-R1 |
1 | 기초 대수 문제 | 두 숫자 𝑥 x와 𝑦 y가 있습니다. 이들이 만족하는 식은 3 𝑥 + 4 𝑦 = 12 3x+4y=12이며, 𝑥 − 2 𝑦 = 1 x−2y=1입니다. 𝑥 x와 𝑦 y의 값을 구하세요 | Pass |
2 | 기하학 문제 | 반지름이 7cm인 원의 넓이를 구하세요. 𝜋 = 3.14159 π=3.14159로 계산하세요. | Pass |
3 | 확률 문제 | 주사위를 두 번 던졌을 때, 두 숫자의 합이 7이 될 확률을 구하세요. | Pass |
4 | 수열 문제 | 첫 번째 항이 3이고, 공차가 5인 등차수열의 10번째 항을 구하세요. | Pass |
5 | 최적화 문제 | 어떤 직사각형의 둘레가 36cm입니다. 이 직사각형의 넓이를 최대화하려면 가로와 세로의 길이는 각각 얼마여야 하나요? | Pass |
6 | 복합 문제 | 복소평면에서 다음 극한값을 구하시오. lim[n→∞] (1 + i/n)^(n^2) 여기서 i는 허수단위 (i^2 = -1)입니다. | Pass |
수학 테스트 결과 DeepSeek-R1은 기초 대수, 기하학, 확률, 수열, 최적화, 복합문제 등 6문제를 모두 성공하였습니다.
3) 추론 성능 테스트


No. | 문제 | DeepSeek-R1 |
1 | 5학년과 6학년 학생 160명이 나무 심기에 참가하였습니다. 6학년 학생들이 각각 평균5그루,5학년 학생들이 각각 평균 3그루씩 심은 결과 모두 560그루를 심었습니다. 나무심기에 참가한 5,6학년 학생은 각각 몇명일까요? |
Pass |
2 | 베티는 새 지갑을 위해 돈을 모으고 있습니다. 새 지갑의 가격은 $100입니다. 베티는 필요한 돈의 절반만 가지고 있습니다. 그녀의 부모는 그 목적을 위해 $15를 주기로 결정했고, 할아버지와 할머니는 그녀의 부모들의 두 배를 줍니다. 베티가 지갑을 사기 위해 더 얼마나 많은 돈이 필요한가요? | Pass |
3 | 전국 초등학생 수학경시대회가 열렸는데 영희,철수,진호 세사람이 참가했습니다. 그들은 서울,부산,인천에서 온 학생이고 각각 1등,2등,3등 상을 받았습니다. 다음과 같은 사항을 알고 있을때 진호는 어디에서 온 학생이고 몇등을 했습니까? 1) 영희는 서울의 선수가 아닙니다. 2) 철수는 부산의 선수가 아닙니다. 3)서울의 선수는 1등이 아닙니다. 4) 부산의 선수는 2등을 했습니다. 5)철수는 3등이 아닙니다. | Pass |
4 | 방 안에는 살인자가 세 명 있습니다. 어떤 사람이 방에 들어와 그중 한 명을 죽입니다. 아무도 방을 나가지 않습니다. 방에 남아 있는 살인자는 몇 명입니까? 단계별로 추론 과정을 설명하세요. | Pass |
5 | A marble is put in a glass. The glass is then turned upside down and put on a table. Then the glass is picked up and put in a microwave. Where's the marble? Explain your reasoning step by step. | Pass |
6 | 도로에 5대의 큰 버스가 차례로 세워져 있는데 각 차의 뒤에 모두 차의 목적지가 적혀져 있습니다. 기사들은 이 5대 차 중 2대는 A시로 가고, 나머지 3대는 B시로 간다는 사실을 알고 있지만 앞의 차의 목적지만 볼 수 있습니다. 안내원은 이 몇 분의 기사들이 모두 총명할 것으로 생각하고 그들의 차가 어느 도시로 가야 하는지 목적지를 알려 주지 않고 그들에게 맞혀 보라고 하였습니다. 먼저 세번째 기사에게 자신의 목적지를 맞혀 보라고 하였더니 그는 앞의 두 차에 붙여 놓은 표시를 보고 말하기를 "모르겠습니다." 라고 말하였습니다. 이것을 들은 두번째 기사도 곰곰히 생각해 보더니 "모르겠습니다." 라고 말하였습니다. 두명의 기사의 이야기를 들은 첫번째 기사는 곰곰히 생각하더니 자신의 목적지를 정확하게 말하였습니다. 첫번째 기사가 말한 목적지는 어디입니까? | Pass |
추론 성능 테스트에서 DeepSeek-R1는 모든 문제를 성공하였습니다
DeepSeek-R1 모델의 테스트를 종합한 결과, 코딩뿐 아니라, 수학과 추론에서도 매우 우수한 성능을 보였습니다.
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
6. 맺음말
DeepSeek-R1은 순수 강화 학습을 통해 언어 모델의 추론 능력을 크게 향상시킬 수 있음을 보여주었습니다. 콜드 스타트 데이터와 다단계 학습 파이프라인을 통해 모델의 성능과 가독성을 개선했으며, 지식 증류를 통해 소형 모델에서도 강력한 추론 능력을 구현할 수 있음을 입증했습니다. DeepSeek-R1은 다양한 벤치마크에서 최고 수준의 성능을 달성했으며, 창의적 글쓰기, 일반 질의응답, 긴 문맥 이해 등 다양한 작업에서 뛰어난 능력을 보여줍니다.
오픈소스 모델이 상용모델의 성능을 따라잡는 속도가 점점 빨라지고 있습니다. DeepSeek-R1 모델을 사용해 본 후기는 다음과 같습니다.
- 생각 토큰이 상당히 많이 소비된다.
- o1 모델보다 매우 저렴하고 성능이 우수하다.
- 증류된 소형 모델들도 뛰어난 성능을 보여준다.
오늘은 o1 모델을 뛰어넘은 오픈소스 모델 DeepSeek-R1에 대해 알아보았습니다. 여러분도 직접 DeepSeek-R1의 우수한 성능을 체험해 보시면 좋을 것 같습니다. 그럼 저는 다음 시간에 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.
2024.12.29 - [AI 언어 모델] - 🐋DeepSeek-V3: o1-preview 따라잡은 현재 가장 강력한 오픈 소스 모델
🐋DeepSeek-V3: o1-preview 따라잡은 현재 가장 강력한 오픈 소스 모델
안녕하세요! 오늘은 DeepSeek-AI에서 개발한 최첨단 AI 모델 DeepSeek-V3에 대해 알아보겠습니다. DeepSeek-V3는 무려 6710억 개의 파라미터를 보유한 Mixture-of-Experts(MoE) 기반 언어 모델로, 인공지능 연구와
fornewchallenge.tistory.com
'AI 언어 모델' 카테고리의 다른 글
🔥Qwen2.5 Max: DeepSeek-V3를 앞선 알리바바의 대규모 MoE 모델 (8) | 2025.01.31 |
---|---|
🎨🤖Janus: DeepSeek AI의 최신 멀티모달 생성 모델 분석 (6) | 2025.01.30 |
🚀⚡Codestral 25.01: 2배 빠른 속도로 업그레이드 된 최첨단 코딩 모델! (6) | 2025.01.17 |
🐋DeepSeek-V3: o1-preview 따라잡은 현재 가장 강력한 오픈 소스 모델 (16) | 2024.12.29 |
📊마이크로소프트 Phi-4: 14B 매개변수로 GPT-4o를 넘어서다 (32) | 2024.12.28 |