안녕하세요! 오늘은 OpenAI에서 새롭게 공개한 최신 모델, o3-mini에 대해 살펴보겠습니다. o3-mini는 비용 효율적인 추론을 목표로 개발된 AI 모델로, STEM(과학, 기술, 공학, 수학) 분야에서 강력한 성능을 발휘하며, 특히 수학, 코딩, 과학 분야에서 뛰어난 추론 능력을 제공합니다. o3-mini는 이전 모델인 o1-mini의 장점을 유지하면서도 더 빠르고 정확한 응답 속도를 자랑합니다. 또한, 다양한 개발자 기능과 추론 옵션을 제공하여 AI 활용도를 더욱 높였습니다. 이 블로그에서는 o3-mini의 주요 특징, 벤치마크 결과를 살펴보고, 실제 성능 테스트를 통해 강력한 추론모델, DeepSeek-R1과 비교해 보겠습니다.
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
1. o3-mini 개요
OpenAI에서 새롭게 선보이는 o3-mini는 비용 효율적인 추론을 목표로 개발된 최신 모델입니다. 2024년 12월에 Preview 버전이 공개되었으며, 현재 ChatGPT와 API를 통해 이용 가능합니다. o3-mini는 소형 모델의 가능성을 확장하여, 뛰어난 STEM(과학, 기술, 공학, 수학) 능력을 제공합니다. 특히 과학, 수학, 코딩 분야에서 강력한 성능을 자랑하며, 기존 모델인 o1-mini의 저비용과 낮은 지연 시간을 그대로 유지합니다.
위 그래프는 o1-mini와 o3-mini의 첫 번째 토큰 생성까지 걸리는 평균 시간을 비교한 것으로, o3-mini가 o1-mini보다 더 빠른 응답 시간을 보여주고 있습니다. o3-mini의 API 가격은 다음 표에서 보는 것처럼 입력 토큰 1백만 토큰당 $1.10, 캐시된 입력 토큰은 1백만 토큰당 $0.55, 출력 토큰 1백만 토큰당 $4.40로 o1-mini와 같습니다. 참고로 Batch API를 사용하는 경우 입력 및 출력 비용을 50% 절감할 수 있으며, DeepSeek-R1은 제공하지 않습니다.
모델 | 입력 토큰 (1M당)/Batch API | 캐시된 입력 토큰 (1M당) | 출력 토큰 (1M당) /Batch API |
OpenAI o3-mini/o1-mini | $1.10/ $0.55 | $0.55 | $4.40/$2.20 |
DeepSeek-R1 | $0.55/미제공 | $0.14 | $2.19/미제공 |
2. o3-mini 특징 및 주요 기능
o3-mini는 o1-mini와 비교하여 다양한 개선점과 새로운 기능을 제공합니다. 주요 특징과 기능은 다음과 같습니다.
- 향상된 접근성: o3-mini는 ChatGPT 무료 사용자에게도 제공되며, 메시지 작성창에서 '논리적 설명'을 선택하거나 응답을 다시 생성하여 사용할 수 있습니다. 이는 추론 모델이 무료 사용자에게 처음으로 제공되는 사례입니다.
- 추론 노력 옵션: 사용자는 낮음, 중간, 높음의 세 가지 추론 노력 옵션 중에서 선택할 수 있습니다. 이를 통해 특정 사용 사례에 맞게 모델을 최적화할 수 있으며, 복잡한 문제 해결 시에는 "더 열심히 생각"하도록 설정하거나, 응답 시간이 중요할 때는 속도를 우선시할 수 있습니다.
추론 노력 옵션 | 성능 수준 | 응답 속도 | 특징 |
Low | o1-mini와 유사 | 가장 빠름 | 빠른 응답이 필요할 때, 복잡하지 않은 작업에 적합 |
Medium | o1과 유사 | 빠름 | 속도와 정확도의 균형, o1-mini 기본 설정 |
High | o1을 능가 | 느림 | 가장 높은 정확도, 복잡하고 어려운 작업에 적합, Pro 사용자에게 무제한 제공 |
- 시각 기능 미지원: o3-mini는 시각 기능을 지원하지 않으므로, 시각적 추론 작업은 기존 모델인 o1을 사용해야 합니다.
- 검색 기능: o3-mini는 검색 기능을 통해 최신 정보를 찾고 관련 웹 소스 링크를 제공할 수 있습니다. 이는 초기 단계의 프로토타입이지만, 추후 추론 모델 전반에 걸쳐 검색 기능을 통합하기 위한 노력의 일환입니다.
- 유료 사용자 추가 기능: ChatGPT Plus, Team, Pro 사용자는 o3-mini를 사용할 수 있으며, Enterprise 사용자는 일주일 후에 이용 가능합니다. o3-mini는 모델 선택기에서 o1-mini를 대체하며, 더 높은 속도 제한과 낮은 지연 시간을 제공합니다. 특히 Plus 및 Team 사용자의 경우 일일 메시지 제한이 50개에서 150개로 증가합니다.
- 고급 추론 모드: 모든 유료 사용자는 모델 선택기에서 o3-mini-high를 선택하여 더 높은 수준의 지능을 활용할 수 있습니다. o3-mini-high는 응답 생성 시간이 조금 더 걸리지만 더 복잡한 문제에 대한 정확도를 높일 수 있습니다. Pro 사용자는 o3-mini 및 o3-mini-high 모두에 무제한으로 액세스 할 수 있습니다.
3. o3-mini 벤치마크 결과
o3-mini는 다양한 평가에서 뛰어난 성능을 입증했습니다.
- STEM 분야: o3-mini는 수학, 코딩, 과학 분야에서 o1과 동등한 성능을 보이며, 응답 속도는 더 빠릅니다. 전문가 테스트 결과, o3-mini는 o1-mini보다 더 정확하고 명확한 답변을 생성하며, 추론 능력도 향상된 것으로 나타났습니다. o1-mini와 비교했을 때, 테스터들은 o3-mini의 응답을 56% 더 선호했으며, 어려운 실제 질문에 대한 주요 오류가 39% 감소한 것으로 관찰되었습니다.
- 경쟁 수학(AIME 2024): 낮은 추론 노력으로는 o1-mini와 비슷한 성능을 보이지만, 중간 추론 노력으로는 o1과 비슷한 성능을, 높은 노력으로는 o1-mini와 o1을 능가하는 성능을 보입니다.
- 박사 수준의 과학 문제(GPQA Diamond): 낮은 추론 노력으로 o1-mini보다 높은 성능을 보이며, 높은 추론 노력으로는 o1과 비슷한 성능을 보입니다.
- 연구 수준의 수학(FrontierMath): 높은 추론 노력으로 o1-mini보다 더 나은 성능을 보이며, Python 도구를 사용할 때 첫 번째 시도에서 문제의 32% 이상을 해결했습니다. 이는 어려운 (T3) 문제의 28% 이상을 포함합니다.
- 경쟁 코딩(Codeforces): 추론 노력이 증가함에 따라 Elo 점수가 향상되었으며, 중간 추론 노력으로 o1과 동등한 성능을 보입니다.
- 소프트웨어 엔지니어링(SWE-bench Verified): o3-mini는 높은 추론 노력으로 SWEbench-verified에서 가장 높은 성능을 보이는 모델입니다.
- LiveBench 코딩: o3-mini는 중간 추론 노력에서도 o1-high를 능가하며, 높은 추론 노력으로 주요 지표에서 훨씬 더 강력한 성능을 달성했습니다.
- 일반 지식: o3-mini는 일반 지식 영역에서 o1-mini보다 더 나은 성능을 보입니다.
- 인간 선호도 평가: 외부 전문가 평가 결과, o3-mini는 특히 STEM 분야에서 o1-mini보다 더 정확하고 명확한 답변을 제공하는 것으로 나타났습니다.
- 속도 및 효율성: o3-mini는 o1과 비슷한 수준의 지능을 유지하면서도 더 빠른 성능과 효율성을 제공합니다. A/B 테스트 결과, o3-mini는 o1-mini보다 24% 더 빠른 응답 속도를 보였으며, 평균 응답 시간은 7.7초 대 10.16초입니다. 또한, o3-mini는 o1-mini보다 첫 번째 토큰까지의 시간이 평균 2500ms 더 빠릅니다.
- 안전성: o3-mini는 사용자 프롬프트에 응답하기 전에 인간이 작성한 안전 사양에 대해 추론하도록 학습되어 안전하게 반응하도록 설계되었습니다. o3-mini는 GPT-4o보다 안전성 및 탈옥 평가에서 뛰어난 성능을 보입니다.
4. o3-mini 성능 테스트
다음은 o3-mini의 코딩, 수학, 추론 성능을 테스트해 보겠습니다. 테스트는 https://chatgpt.com/사이트에서 진행하였으며, 코딩은 코딩 교육 사이트 edabit.com의 Python, JavaScript, C++ 문제를 통해 테스트하고, 수학 문제는 기하학, 확률, 수열, 최적화, 복합 문제 등으로 구성된 6개의 문제를 사용했습니다. 모든 평가 항목은 재시도 없이 첫 번째 시도의 채점 결과를 그대로 반영하였습니다.
1) 코딩 테스트
o3-mini | Medium | Hard | Very Hard | Expert |
Python | Pass | Pass | Pass | Pass |
JavaScript | Pass | Pass | Pass | Pass |
C++ | Pass | Pass | Pass | Fail |
코딩 테스트 결과 o3-mini는 C++ Expert 난이도를 제외하고 모든 난이도 문제를 성공하였습니다.
2) 수학 테스트
No. | 문제 구분 | 문제 | o3-mini |
1 | 기초 대수 문제 | 두 숫자 𝑥 x와 𝑦 y가 있습니다. 이들이 만족하는 식은 3 𝑥 + 4 𝑦 = 12 3x+4y=12이며, 𝑥 − 2 𝑦 = 1 x−2y=1입니다. 𝑥 x와 𝑦 y의 값을 구하세요 | Pass |
2 | 기하학 문제 | 반지름이 7cm인 원의 넓이를 구하세요. 𝜋 = 3.14159 π=3.14159로 계산하세요. | Pass |
3 | 확률 문제 | 주사위를 두 번 던졌을 때, 두 숫자의 합이 7이 될 확률을 구하세요. | Pass |
4 | 수열 문제 | 첫 번째 항이 3이고, 공차가 5인 등차수열의 10번째 항을 구하세요. | Pass |
5 | 최적화 문제 | 어떤 직사각형의 둘레가 36cm입니다. 이 직사각형의 넓이를 최대화하려면 가로와 세로의 길이는 각각 얼마여야 하나요? | Pass |
6 | 복합 문제 | 복소평면에서 다음 극한값을 구하시오. lim[n→∞] (1 + i/n)^(n^2) 여기서 i는 허수단위 (i^2 = -1)입니다. | Pass |
수학 테스트에서는 기초 대수, 기하학, 확률, 수열, 최적화, 복합문제 등 6문제를 모두 성공하였습니다.
3) 추론 테스트
No. | 문제 | o3-mini |
1 | 5학년과 6학년 학생 160명이 나무 심기에 참가하였습니다. 6학년 학생들이 각각 평균5그루,5학년 학생들이 각각 평균 3그루씩 심은 결과 모두 560그루를 심었습니다. 나무심기에 참가한 5,6학년 학생은 각각 몇명일까요? |
Pass |
2 | 베티는 새 지갑을 위해 돈을 모으고 있습니다. 새 지갑의 가격은 $100입니다. 베티는 필요한 돈의 절반만 가지고 있습니다. 그녀의 부모는 그 목적을 위해 $15를 주기로 결정했고, 할아버지와 할머니는 그녀의 부모들의 두 배를 줍니다. 베티가 지갑을 사기 위해 더 얼마나 많은 돈이 필요한가요? | Pass |
3 | 전국 초등학생 수학경시대회가 열렸는데 영희,철수,진호 세사람이 참가했습니다. 그들은 서울,부산,인천에서 온 학생이고 각각 1등,2등,3등 상을 받았습니다. 다음과 같은 사항을 알고 있을때 진호는 어디에서 온 학생이고 몇등을 했습니까? 1) 영희는 서울의 선수가 아닙니다. 2) 철수는 부산의 선수가 아닙니다. 3)서울의 선수는 1등이 아닙니다. 4) 부산의 선수는 2등을 했습니다. 5)철수는 3등이 아닙니다. | Pass |
4 | 방 안에는 살인자가 세 명 있습니다. 어떤 사람이 방에 들어와 그중 한 명을 죽입니다. 아무도 방을 나가지 않습니다. 방에 남아 있는 살인자는 몇 명입니까? 단계별로 추론 과정을 설명하세요. | Pass |
5 | A marble is put in a glass. The glass is then turned upside down and put on a table. Then the glass is picked up and put in a microwave. Where's the marble? Explain your reasoning step by step. | Fail |
6 | 도로에 5대의 큰 버스가 차례로 세워져 있는데 각 차의 뒤에 모두 차의 목적지가 적혀져 있습니다. 기사들은 이 5대 차 중 2대는 A시로 가고, 나머지 3대는 B시로 간다는 사실을 알고 있지만 앞의 차의 목적지만 볼 수 있습니다. 안내원은 이 몇 분의 기사들이 모두 총명할 것으로 생각하고 그들의 차가 어느 도시로 가야 하는지 목적지를 알려 주지 않고 그들에게 맞혀 보라고 하였습니다. 먼저 세번째 기사에게 자신의 목적지를 맞혀 보라고 하였더니 그는 앞의 두 차에 붙여 놓은 표시를 보고 말하기를 "모르겠습니다." 라고 말하였습니다. 이것을 들은 두번째 기사도 곰곰히 생각해 보더니 "모르겠습니다." 라고 말하였습니다. 두명의 기사의 이야기를 들은 첫번째 기사는 곰곰히 생각하더니 자신의 목적지를 정확하게 말하였습니다. 첫번째 기사가 말한 목적지는 어디입니까? | Pass |
추론 성능 테스트에서는 구슬 문제를 제외하고 모두 성공하였습니다.
블로그의 테스트를 종합한 결과, o3-mini는 DeepSeek-R1보다 약간 낮은 점수인 91.67점을 기록하였습니다.
구분 | 코딩 테스트 결과 | 수학 테스트 결과 | 추론 테스트 결과 | 평균 |
o3-mini | 91.67 | 100 | 83.33 | 91.67 |
DeepSeek-R1 | 100 | 100 | 100 | 100 |
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
5. 맺음말
OpenAI o3-mini는 비용 효율성과 높은 성능을 동시에 제공하는 혁신적인 AI 모델입니다. 특히 STEM 분야에서 뛰어난 능력을 보여주며, 개발자와 일반 사용자 모두에게 높은 수준의 AI 경험을 제공합니다. 다양한 개발자 기능과 유연한 추론 옵션을 통해 사용자의 요구에 맞게 최적화할 수 있으며, ChatGPT 무료 사용자에게도 접근성을 확대하여 더 많은 사람들이 고품질의 AI 기술을 이용할 수 있도록 하였습니다.
o3-mini를 테스트해 본 후기는 다음과 같습니다.
- 시각적 추론 기능을 지원하지 않으므로, 시각적 추론 작업은 o1을 사용해야 한다.
- Batch API를 사용하지 않으면 API 가격이 DeepSeek-R1보다 비싸다.
- 추론 노력 옵션의 구분은 사실상 무의미하다.
오늘 블로그는 여기까지입니다. o3-mini는 DeepSeek에게 받은 충격으로 부랴부랴 내놓은 느낌이 드네요. 정식버전에서는 더 많은 혁신을 기대해 봅니다. 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.
2025.01.23 - [AI 언어 모델] - 🐋DeepSeek-R1: OpenAI-o1 뛰어넘은 오픈소스 추론 모델이 무료!
🐋DeepSeek-R1: OpenAI-o1 뛰어넘은 오픈소스 추론 모델이 무료!
안녕하세요! 오늘은 DeepSeek AI에서 개발한 최신 추론 모델 DeepSeek-R1에 대해 알아보겠습니다. DeepSeek-R1은 순수 강화 학습(Pure Reinforcement Learning)을 통해 언어 모델의 추론 능력을 혁신적으로 향상시
fornewchallenge.tistory.com
'AI 언어 모델' 카테고리의 다른 글
✨Gemini 2.0 패밀리: 최대 200만 토큰 지원하는 구글의 최신 AI 모델군 (4) | 2025.02.07 |
---|---|
🔓Mistral Small 3: GPT-4o-mini를 대체할 오픈소스 언어 모델 (12) | 2025.02.06 |
🔥Qwen2.5 Max: DeepSeek-V3를 앞선 알리바바의 대규모 MoE 모델 (8) | 2025.01.31 |
🎨🤖Janus: DeepSeek AI의 최신 멀티모달 생성 모델 분석 (7) | 2025.01.30 |
🐋DeepSeek-R1: OpenAI-o1 뛰어넘은 오픈소스 추론 모델이 무료! (6) | 2025.01.23 |