안녕하세요! 오늘은 Mistral AI에서 새롭게 발표한 Codestral 25.01에 대해 알아보겠습니다. 2025년 1월 13일에 공개된 이 모델은 코드 생성, 코드 수정, 테스트 생성 등 다양한 작업에서 탁월한 성능을 발휘하며, 80개 이상의 프로그래밍 언어를 지원합니다. 특히, 중간 채우기(FIM) 작업에서 업계 최고 수준의 성능을 자랑하며, 빠른 코드 완성과 효율적인 개발 프로세스를 가능하게 합니다. 이번 블로그에서는 Codestral 25.01의 특징과 주요 기능, 벤치마크 결과에 대해 알아보고, 자체 테스트를 통해 성능을 확인해 보겠습니다.
https://mistral.ai/news/codestral-2501/
Codestral 25.01
Code at the speed of Tab. Available today in Continue.dev and soon on other leading AI code assistants.
mistral.ai
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
1. Codestral 25.01 개요
Codestral은 Mistral AI가 개발한 최첨단 코딩 모델로, 기존 모델은 올해 5월에 공개되었습니다. 80개 이상의 프로그래밍 언어에 능통하고, 낮은 지연 시간과 다양한 활용 사례에 최적화되어 있으며, 중간 채우기(FIM), 코드 수정, 테스트 생성과 같은 작업을 지원함으로써 많은 개발자들이 이미 Codestral을 유능한 코딩 동반자로 사용하여 생산성을 향상시키고 있습니다. 기존 모델에 대한 내용은 아래 포스팅을 참고하시기 바랍니다.
2024.05.31 - [AI 언어 모델] - 🌟코딩 혁신: Codestral - 미스트랄이 만든 AI 코드 생성 끝판왕!🚀
🌟코딩 혁신: Codestral - 미스트랄이 만든 AI 코드 생성 끝판왕!🚀
안녕하세요! 오늘은 미스트랄의 새로운 코드 생성 언어 모델 Codestral에 대해서 알아보겠습니다. Codestral은 Python, Java, C, C++, JavaScript, Bash를 포함한 80개 이상의 프로그래밍 언어로 학습되었으며, Sw
fornewchallenge.tistory.com
새롭게 출시된 Codestral 25.01은 기존 모델보다 더욱 효율적인 아키텍처와 향상된 토크나이저를 갖추고 있어, 코드 생성 및 완성 속도가 약 2배 빨라졌습니다. 이 모델은 컨텍스트 윈도우의 크기가 256k로 이전 모델의 32k보다 크게 증가하였고, 비슷한 크기의 모델 중에서 우수한 코딩 성능을 자랑하며, FIM에서도 높은 수준을 보여줍니다.
항목 | Codestral 22B | Codestral 25.01 |
출시일 | 2024년 5월29일 | 2025년 1월17일 |
지원 프로그래밍 언어 | 80개 이상 | |
주요 기능 | 코드 생성, 수정, 최적화 | |
HumanEval 점수 (Python) | 81.1% | 86.6% |
HumanEvalFIM 점수 (average) | 82.1% | 85.9% |
컨텍스트 윈도우 크기 | 32k | 256k |

2. Codestral 25.01 특징 및 주요 기능
Codestral 25.01의 특징과 주요 기능은 아래와 같습니다.
주요 특징:
- 향상된 속도: 기존 모델 대비 코드 생성 및 완성 속도 2배 향상
- 다양한 언어 지원: 80개 이상의 프로그래밍 언어 지원
- 최적화된 성능: 낮은 지연 시간 및 높은 빈도의 사용 사례에 최적화
- 다양한 작업 지원: 중간 채우기(FIM), 코드 수정, 테스트 생성 등 다양한 작업 지원
- 최고 수준의 FIM 성능: 해당 모델 크기의 등급에서 FIM 사용 사례 최고 성능
주요 기능:
- 코드 자동 완성: 개발자가 코드를 작성하는 동안 실시간으로 코드 제안
- 코드 수정: 코드 오류를 감지하고 수정 제안
- 테스트 코드 생성: 작성된 코드에 대한 테스트 코드 생성
- 중간 채우기(FIM): 코드의 중간 부분을 채우는 기능, 코드 자동 완성에 핵심적인 역할
Codestral 25.01은 특히 FIM(Fill-in-the-Middle, 중간 채우기) 작업에서 뛰어난 성능을 보입니다. Continue.dev의 공동 창업자 Ty Dunn은 "AI 코드 어시스턴트에서 코드 완성은 작업의 상당 부분을 차지하며, 중간 채우기(FIM)에 뛰어난 모델이 필요합니다. Codestral 25.01은 이 분야에서 상당한 진전을 보여줍니다. Mistral AI의 새로운 모델은 더 정확한 제안을 훨씬 더 빠르게 제공할 수 있습니다. 이는 정확하고 효율적인 소프트웨어 개발의 핵심 요소입니다. 이것이 바로 Codestral이 개발자에게 추천하는 자동 완성 모델인 이유입니다."라고 언급했습니다.
Continue
Amplified developers, AI-enhanced development · The leading open-source AI code assistant. You can connect any models and any context to build custom autocomplete and chat experiences inside the IDE
www.continue.dev
3. Codestral 25.01 벤치마크 결과
Mistral AI는 새로운 Codestral 모델의 성능을 검증하기 위해, 100B 미만의 파라미터를 가진 동급 최고의 FIM 작업 모델들과 벤치마크 테스트를 수행했습니다. 그 결과, Codestral 25.01은 종합적으로 뛰어난 성능을 입증했습니다.
1) 전반적인 성능:
- Codestral 25.01은 HumanEval, CruxEval, LiveCodeBench, RepoBench, CanItEdit 테스트에서 경쟁 모델들을 능가하는 성능을 보여주었습니다.
- 특히 HumanEval (평균) 및 HumanEvalFIM (평균) 점수에서 가장 높은 결과를 기록하여, 코드 생성 및 중간 채우기 작업에서 뛰어난 성능을 입증했습니다.
Model | Python | Average on several languages | ||||||
Context length |
HumanEval | MBPP | CruxEval | LiveCodeBench | RepoBench | HumanEval (average) |
HumanEvalFIM (average) |
|
Codestral-2501 | 256k | 86.6% | 80.2% | 55.5% | 37.9% | 38.0% | 71.4% | 85.9% |
Codestral-2405 22B | 32k | 81.1% | 78.2% | 51.3% | 31.5% | 34.0% | 65.6% | 82.1% |
Codellama 70B instruct | 4k | 67.1% | 70.8% | 47.3% | 20.0% | 11.4% | 55.3% | - |
DeepSeek Coder 33B instruct | 16k | 77.4% | 80.2% | 49.5% | 27.0% | 28.4% | 65.1% | 85.3% |
DeepSeek Coder V2 lite | 128k | 83.5% | 83.2% | 49.7% | 28.1% | 20.0% | 65.9% | 84.1% |
2) 언어별 성능:
- Codestral 25.01은 HumanEval 점수와 Python, Java, Javascript, Bash, C# 등의 다양한 언어에서 경쟁 모델들을 앞서는 성능을 보여주었습니다.
Model | HumanEval Python |
HumanEval C++ |
HumanEval Javascript |
HumanEval Typescript |
HumanEval C# |
HumanEval (average) |
Codestral-2501 | 86.6% | 78.9% | 82.6% | 82.4% | 53.2% | 71.4% |
Codestral-2405 22B | 81.1% | 68.9% | 71.4% | 74.8% | 43.7% | 65.6% |
Codellama 70B instruct | 67.1% | 56.5% | 62.7% | 61.0% | 46.8% | 55.3% |
DeepSeek Coder 33B instruct | 77.4% | 65.8% | 73.3% | 77.4% | 49.4% | 65.1% |
DeepSeek Coder V2 lite | 83.5% | 68.3% | 80.8% | 82.4% | 46.8% | 65.9% |
3) FIM 성능:
- FIM (single line exact match): 생성된 코드가 정확히 한 줄과 일치하는지 여부를 평가하는 지표에서 Codestral 25.01은 HumanEvalFIM 평균 점수와 Python, Java, JS에서 경쟁 모델보다 가장 높은 점수를 기록했습니다.
Model | HumanEvalFIM Python |
HumanEvalFIM Java |
HumanEvalFIM JS |
HumanEvalFIM (average) |
Codestral-2501 | 80.2% | 89.6% | 87.96% | 85.89% |
Codestral-2405 22B | 77.0% | 83.2% | 86.08% | 82.07% |
OpenAI FIM API* | 80.0% | 84.8% | 86.5% | 83.7% |
DeepSeek Chat API | 78.8% | 89.2% | 85.78% | 84.63% |
DeepSeek Coder V2 lite | 78.7% | 87.8% | 85.90% | 84.13% |
DeepSeek Coder 33B instruct | 80.1% | 89.0% | 86.80% | 85.3% |
- FIM pass@1: 모델이 첫 번째 시도에서 코드의 중간 부분을 정확히 채울 확률을 측정하는 지표에서 Codestral 25.01은 HumanEvalFIM 평균 점수와 Python, Java, JS에서 가장 높은 점수를 기록하여, FIM 작업에서 우수한 성능을 보여주었습니다.
Model | HumanEvalFIM Python | HumanEvalFIM Java | HumanEvalFIM JS | HumanEvalFIM (average) |
Codestral-2501 | 92.5% | 97.1% | 96.1% | 95.3% |
Codestral-2405 22B | 90.2% | 90.1% | 95.0% | 91.8% |
OpenAI FIM API* | 91.1% | 91.8% | 95.2% | 92.7% |
DeepSeek Chat API | 91.7% | 96.1% | 95.3% | 94.4% |
4. Codestral 25.01 사용 방법
Codestral 25.01은 개발자들에게 IDE / IDE 플러그인 파트너를 통해 전 세계적으로 배포되고 있습니다. 코드 자동 완성 시 응답 품질과 속도의 차이를 직접 느낄 수 있으며, 각 모델 선택기에서 Codestral 25.01을 선택하여 사용할 수 있습니다.
1) IDE / IDE 플러그인:
- Continue.dev에서 VS Code 또는 JetBrains를 통해 무료로 사용 가능
- 각 IDE의 모델 선택기에서 Codestral 25.01 선택

2) 엔터프라이즈 사용:
- 데이터 및 모델 상주가 필요한 엔터프라이즈 사용 환경인 경우, 로컬 또는 VPC 내에서 배포 가능
- Codestral API를 통해 자체 통합 구축 가능
- Google Cloud의 Vertex AI, Azure AI Foundry에서 비공개 미리 보기로 사용 가능하며, 곧 Amazon Bedrock에서도 제공 예정
https://docs.mistral.ai/capabilities/code_generation/#codestral
Code generation | Mistral AI Large Language Models
Codestral
docs.mistral.ai
3) API 사용:
- la Plateforme에서 codestral-latest를 사용하여 API에 접근
- Codestral 문서를 통해 자세한 정보 확인

Codestral API를 사용하기 위한 Endpoint는 아래와 같습니다.
Completion Endpoint: https://codestral.mistral.ai/v1/fim/completions
Chat Endpoint: https://codestral.mistral.ai/v1/chat/completions
4. Codestral 25.01 성능 테스트
다음은 Codestral의 코딩, 수학, 추론성능을 테스트해 보겠습니다. 현재 Codestral API Key는 홈페이지에서 사용요청 후, 이메일 인증을 통해 받을 수 있으며, Mistral의 Le Chat을 통해서는 API Key 없이 바로 이용할 수 있습니다. 코딩 테스트는 edabit.com 코딩 교육 사이트의 파이썬, 자바 스크립트, PHP 코딩 시험문제로 테스트하고, 수학 문제는 기하학, 확률, 수열, 최적화, 복합 문제 등으로 구성된 6개의 문제를 사용했습니다. 모든 평가 항목은 재시도 없이 첫 번째 시도의 채점 결과를 그대로 반영하였습니다.
Learn to Code with 10,000+ Interactive Challenges
Learn to code with fun, bite-sized challenges. Earn XP, unlock achievements and level up. It's like Duolingo for learning to code.
edabit.com
1) 코딩 테스트 결과






Codestral 25.01/Pass@1 | Medium | Hard | Very Hard | Expert |
Python | Pass | Pass | Pass | Pass |
JavaScript | Pass | Pass | Pass | Pass |
C++ | Pass | Pass | Pass | Fail |
코딩 테스트 결과 Codestral 25.01은 C++ Expert를 제외한 Python, JavaScript 모든 난이도 문제를 성공하였습니다.
2) 수학 테스트


No. | 문제 구분 | 문제 | Codestral 25.01 |
1 | 기초 대수 문제 | 두 숫자 𝑥 x와 𝑦 y가 있습니다. 이들이 만족하는 식은 3 𝑥 + 4 𝑦 = 12 3x+4y=12이며, 𝑥 − 2 𝑦 = 1 x−2y=1입니다. 𝑥 x와 𝑦 y의 값을 구하세요 | Pass |
2 | 기하학 문제 | 반지름이 7cm인 원의 넓이를 구하세요. 𝜋 = 3.14159 π=3.14159로 계산하세요. | Pass |
3 | 확률 문제 | 주사위를 두 번 던졌을 때, 두 숫자의 합이 7이 될 확률을 구하세요. | Pass |
4 | 수열 문제 | 첫 번째 항이 3이고, 공차가 5인 등차수열의 10번째 항을 구하세요. | Pass |
5 | 최적화 문제 | 어떤 직사각형의 둘레가 36cm입니다. 이 직사각형의 넓이를 최대화하려면 가로와 세로의 길이는 각각 얼마여야 하나요? | Pass |
6 | 복합 문제 | 복소평면에서 다음 극한값을 구하시오. lim[n→∞] (1 + i/n)^(n^2) 여기서 i는 허수단위 (i^2 = -1)입니다. | Pass |
수학 테스트 결과 Codestral 25.01은 기초 대수, 기하학, 확률, 수열, 최적화, 복합문제 등 6문제를 모두 성공하였습니다.
3) 추론 성능 테스트


No. | 문제 | Codestral 25.01 |
1 | 5학년과 6학년 학생 160명이 나무 심기에 참가하였습니다. 6학년 학생들이 각각 평균5그루,5학년 학생들이 각각 평균 3그루씩 심은 결과 모두 560그루를 심었습니다. 나무심기에 참가한 5,6학년 학생은 각각 몇명일까요? |
Pass |
2 | 베티는 새 지갑을 위해 돈을 모으고 있습니다. 새 지갑의 가격은 $100입니다. 베티는 필요한 돈의 절반만 가지고 있습니다. 그녀의 부모는 그 목적을 위해 $15를 주기로 결정했고, 할아버지와 할머니는 그녀의 부모들의 두 배를 줍니다. 베티가 지갑을 사기 위해 더 얼마나 많은 돈이 필요한가요? | Pass |
3 | 전국 초등학생 수학경시대회가 열렸는데 영희,철수,진호 세사람이 참가했습니다. 그들은 서울,부산,인천에서 온 학생이고 각각 1등,2등,3등 상을 받았습니다. 다음과 같은 사항을 알고 있을때 진호는 어디에서 온 학생이고 몇등을 했습니까? 1) 영희는 서울의 선수가 아닙니다. 2) 철수는 부산의 선수가 아닙니다. 3)서울의 선수는 1등이 아닙니다. 4) 부산의 선수는 2등을 했습니다. 5)철수는 3등이 아닙니다. | Pass |
4 | 방 안에는 살인자가 세 명 있습니다. 어떤 사람이 방에 들어와 그중 한 명을 죽입니다. 아무도 방을 나가지 않습니다. 방에 남아 있는 살인자는 몇 명입니까? 단계별로 추론 과정을 설명하세요. | Fail |
5 | A marble is put in a glass. The glass is then turned upside down and put on a table. Then the glass is picked up and put in a microwave. Where's the marble? Explain your reasoning step by step. | Pass |
6 | 도로에 5대의 큰 버스가 차례로 세워져 있는데 각 차의 뒤에 모두 차의 목적지가 적혀져 있습니다. 기사들은 이 5대 차 중 2대는 A시로 가고, 나머지 3대는 B시로 간다는 사실을 알고 있지만 앞의 차의 목적지만 볼 수 있습니다. 안내원은 이 몇 분의 기사들이 모두 총명할 것으로 생각하고 그들의 차가 어느 도시로 가야 하는지 목적지를 알려 주지 않고 그들에게 맞혀 보라고 하였습니다. 먼저 세번째 기사에게 자신의 목적지를 맞혀 보라고 하였더니 그는 앞의 두 차에 붙여 놓은 표시를 보고 말하기를 "모르겠습니다." 라고 말하였습니다. 이것을 들은 두번째 기사도 곰곰히 생각해 보더니 "모르겠습니다." 라고 말하였습니다. 두명의 기사의 이야기를 들은 첫번째 기사는 곰곰히 생각하더니 자신의 목적지를 정확하게 말하였습니다. 첫번째 기사가 말한 목적지는 어디입니까? | Pass |
추론 성능 테스트에서는 살인자 문제를 제외하고 모두 성공하였습니다
Codestral 25.01 모델의 테스트를 종합한 결과, 코딩뿐 아니라, 수학과 추론에서도 우수한 성능을 보였습니다.
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
5. 맺음말
Codestral 25.01은 코드 생성 분야의 혁신적인 발전을 보여주는 모델입니다. 이전 모델보다 향상된 속도와 성능은 개발자들의 생산성을 크게 향상시킬 수 있으며, 특히 FIM 작업에서 뛰어난 성능은 코드 자동 완성 기능을 한층 더 발전시킬 수 있을 것으로 보입니다.
Codestral 25.01을 사용해 본 후기는 다음과 같습니다.
- 응답속도가 기존 모델보다 매우 빠르다.
- VSCode, API 등을 통해 무료로 사용이 가능하다.
- DeepSeek-V3의 대안이 될 수 있다.
여러분도 VSCode나 API를 통해서 LMsys 코파일럿 아레나 리더보드에서 1위를 차지한 Codestral 25.01의 코딩 성능을 체험해 보시길 추천드리면서 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.

2024.07.18 - [AI 언어 모델] - 미스트랄 Codestral Mamba:🐍Mamba 아키텍처로 무장한 코드 생성 AI
미스트랄 Codestral Mamba:🐍Mamba 아키텍처로 무장한 코드 생성 AI
안녕하세요! 오늘은 미스트랄의 새로운 코드 생성 언어 모델, Codestral Mamba에 대해서 알아보겠습니다. Codestral Mamba는 프랑스의 Mistral AI 팀이 개발한 Mixtral 패밀리의 후속작으로, 특히 코드 생산성
fornewchallenge.tistory.com
'AI 언어 모델' 카테고리의 다른 글
🎨🤖Janus: DeepSeek AI의 최신 멀티모달 생성 모델 분석 (6) | 2025.01.30 |
---|---|
🐋DeepSeek-R1: OpenAI-o1 뛰어넘은 오픈소스 추론 모델이 무료! (6) | 2025.01.23 |
🐋DeepSeek-V3: o1-preview 따라잡은 현재 가장 강력한 오픈 소스 모델 (16) | 2024.12.29 |
📊마이크로소프트 Phi-4: 14B 매개변수로 GPT-4o를 넘어서다 (32) | 2024.12.28 |
✨Gemini 2.0 Flash Thinking: OpenAI o1과 경쟁할 추론 모델의 등장! (76) | 2024.12.20 |