🔥♊Gemini 2.5 Pro-Exp: LMArena 1위! 구글의 최신 플래그십 AI 모델

안녕하세요! 오늘은 Google의 최신 플래그십 모델, Gemini 2.5 Pro-Exp에 대해 알아보겠습니다. Gemini 2.5 Pro-Exp는 기존 Gemini 1.5 Pro 모델 대비 언어 이해, 멀티모달 처리, 코드 작성, 추론 능력에서 더욱 향상된 성능으로 LMArena 리더보드 1위를 차지하였으며, 특히 긴 컨텍스트 처리와 복잡한 문제 해결 능력이 강화된 점이 주목받고 있습니다. 이번 블로그에서는 Gemini 2.5 Pro의 주요 특징, 성능 벤치마크, 사용방법, 그리고 실제 테스트 결과를 살펴보고, 이 모델이 어떤 차별점을 가지고 있는지 분석해 보겠습니다.

1. Gemini 2.5 Pro Exp 개요

이번에 공개된 Gemini 2.5 Pro Exp는 사고 능력이 내장된 Gemini 2.5 제품군의 첫 번째 모델로, Gemini 1.5 Pro와 비교하여 언어 이해 및 멀티모달 작업에서 더 높은 정확도를 가지며, 효율적인 연산 능력, 향상된 코딩 및 추론 능력, 더 긴 컨텍스트 창을 제공하고, 2025년 1월까지의 최신 데이터로 학습되어 더욱 확장된 지식 기반을 제공합니다.

구 분	Gemini 1.5 Pro	Gemini 2.5 Pro-Exp-03-25
입력 컨텍스트 길이	2,097,152	1,048,576(2백만개로 증가 예정)
지식 기준점	2024년 8월	2025년 1월
출력 토큰 한도	8,192	65,536

Gemini 2.5 Pro Exp는 인간 선호도를 측정하는 LMArena 리더보드에서 상당한 점수 차이로 1위를 차지했으며, 2위인 Grok-3 Preview를 상당한 차이로 앞섰습니다. 이는 특히 실제 코딩 작업에서 매우 유망한 모델임을 시사합니다.

Gemini 2.5 Pro Experimental 03-25 LMArena 리더보드

2. 특징 및 주요 기능

Gemini 2.5 Pro Exp는 이전 모델에서 한 단계 더 나아간 향상된 추론 능력으로, 응답하기 전에 스스로의 생각을 거쳐 추론하는 능력을 통해 향상된 성능과 정확성을 제공하며, 사용자는 모델의 사고 과정을 확인할 수 있습니다.

3L, 5L 뭁통으로 4L물을 계량하는 방법에 대한 Gemini 2.5 Por-Exp 답변

Gemini 2.5 Pro Exp는 또한 네이티브 멀티모달리티 (native multimodality) 기능을 강화하여, 텍스트, 오디오, 이미지, 비디오, 심지어 전체 코드 저장소를 포함한 다양한 정보 소스에서 복잡한 문제를 이해하고 처리할 수 있습니다. 아래 화면과 같이 비주얼 스튜디오 코드 등에서 코딩 보조로 사용하여 코드 실행 결과를 이미지로 캡처해서 입력하면, 부족한 기능을 보완하여 코드를 작성해 주므로, 에러내용을 자세히 설명하지 않아도 쉽게 코드를 구현할 수 있습니다.

비주얼 스튜디오 코드에서 Gemini 2.5 Pro Exp를 활용하여 Rubik's 큐브 시뮬레이터를 구현하는 과정

3. Gemini 2.5 Pro 벤치마크 결과

Gemini 2.5 Pro Exp-03-25은 추론, 지식, 과학, 수학 등 다양한 벤치마크에서 우수한 성능을 입증했습니다. 주요 벤치마크 결과는 다음과 같습니다:

Humanity’s Last Exam (HLE): 새롭게 만들어진 최고 난이도 벤치마크, HLE에서 도구 사용 없이 18.8%의 점수를 기록하여 OpenAI의 o3 mini (14.0%) 및 Anthropic의 Claude 3.7 Sonnet (8.9%)을 크게 능가했습니다.
GPQA diamond (과학): 과학 벤치마크인 GPQA diamond에서 84.0%의 점수로 1위를 차지하며, GPT-4.5 (79.7%)를 약 5% 차이로 앞서는 등 다른 모든 모델보다 뛰어난 성능을 보였습니다.
AIME 2025 (수학): 수학 벤치마크인 AIME 2025에서 86.7%의 점수를 기록하여 GPT-4.5 (86.5%)와 거의 동일한 수준을 보였으며, Claude 3.7 Sonnet 및 Grok 3 Beta를 크게 앞섰습니다. 다만, DeepSeek-R1 (93.3%)에는 다소 뒤처지는 결과를 보였습니다.
SWE-bench Verified (에이전트 기반 코딩): 에이전트 기반 코드 평가 벤치마크인 SWE-bench Verified에서 맞춤형 에이전트 설정으로 63.8%의 점수를 기록했습니다. 이는 이전 모델 대비 상당한 개선을 보여줍니다.

이러한 벤치마크 결과는 Gemini 2.5 Pro-Exp가 고급 추론, 과학적 지식, 수학 능력 및 코딩 능력 등 다양한 분야에서 뛰어난 성능을 발휘함을 보여줍니다.

4. Gemini 2.5 Pro 사용방법

Gemini 2.5 Pro-Exp-03-25는 현재 다음과 같은 방법으로 이용할 수 있습니다:

Google AI Studio: Google AI Studio에서 모델 선택 드롭다운 상자를 통해 Gemini 2.5 Pro -Exp-03-25를 선택하여 액세스 할 수 있습니다. Google AI Studio는 최신 모델을 사용하여 빌드할 수 있는 개발 환경을 제공합니다.
Gemini 앱 (Advanced 사용자): Gemini Advanced 구독자는 Gemini 앱 또는 웹 인터페이스에서 Gemini 2.5 Pro -Exp-03-25모델을 직접 사용해 볼 수 있습니다.
OpenRouter, Requesty: OpenRouter와 Requesty에서 API 방식으로 google/gemini-2.5-pro-exp-03-25 모델을 사용할 수 있으며, 아래 화면처럼 OpenWebUI와 같은 인터페이스에서 연결하여 무료로 활용할 수 있습니다.

허깅페이스 스페이스: "osanseviero/InstantCoder" 허깅페이스 스페이스에서 gemini-2.5-pro-exp-03025 모델을 활용해서 무료로 App을 만들어 보실 수 있습니다.

5. Gemini 2.5 Pro 성능 테스트

Gemini 2.5 Pro Exp-03-25의 성능을 직접 확인하기 위해 몇 가지 테스트를 진행해 보았습니다.

3D 인터랙티브 태양계 애니메이션: 사용자가 자유롭게 확대, 축소, 회전하며 탐색할 수 있는 태양계를 만들고, 각 행성의 공전 애니메이션을 구현하도록 요청한 결과, Gemini 2.5 Pro는 한 번에 성공하지 못했으나, 여러 번의 피드백과 에러 수정을 통해 아래 동영상과 같이 구현에 성공하였습니다.

요청 프롬프트
Create a single-page, interactive, fully 3D solar system exploration web app using pure HTML, CSS, SVG, and JavaScript, enhanced with WebGL
Real-time interactive Solar System animation with Sun and eight planets (Mercury, Venus, Earth, Mars, Jupiter, Saturn, Uranus, Neptune).
User should be able to smoothly navigate by zooming and rotating around the solar system. When a user zooms in or moves close to a planet, a simple informational popup appears automatically next to the planet displaying concise planet details (name, orbit, rotation period, moons, unique features).
No external textures/images allowed—use purely procedural shading, gradients, SVG-based visuals and animations, or fully procedural/WebGL shaders for visuals.
Maintain clean and optimized code for smooth performance.
Prioritize interactivity, visual appeal, smooth animations, and an intuitive user interface.
Additionally, implement planetary orbits with accurate relative speeds around the Sun, ensuring that each planet follows its elliptical trajectory at a speed proportional to its actual orbital period.

Rubik's 큐브 시뮬레이터: 크기 조정이 가능한 정육면체 큐브의 색을 섞은 후, 전체 면의 색을 다시 맞추는 시뮬레이터 구현에서는 반나절이 넘는 시간 동안의 디버깅에도 Gemini 2.5 Pro는 빨간색과 주황색 면은 결국 구현하지 못하였으며, 면을 맞추는 기능을 완전하게 구현하지 못하였습니다.

요청 프롬프트
Ursina 엔진을 사용하여 Python으로 3D Rubik's Cube 시뮬레이터 코드를 작성해 주세요. 다음 요구 사항을 충족해야 합니다:
*큐브 생성:
기본 크기는 3x3x3이지만, 사용자가 UI를 통해 1x1부터 9x9까지 크기를 조정할 수 있어야 합니다.
큐브는 각 면에 대해 표준 Rubik's Cube 색상(흰색, 노란색, 빨간색, 주황색, 초록색, 파란색)을 사용해야 합니다.
내부 큐비(보이지 않는 부분)는 렌더링하지 않아 성능을 최적화해야 합니다.
*큐브 회전:
표준 Rubik's Cube 표기법(U, D, L, R, F, B, 그리고 ', 2와 같은 수정자)을 지원해야 합니다.
특정 면을 회전할 때 부드러운 애니메이션(예: 0.15초 지속)이 적용되어야 합니다.
회전 중에는 다른 동작이 실행되지 않도록 잠금 메커니즘이 있어야 합니다.
*기능:
"Scramble" 버튼: 큐브를 무작위로 섞는 기능(최소 20~30개 무작위 동작).
"Solve" 버튼: 스크램블 동작을 역순으로 실행해 원래 상태로 복원.
카메라 컨트롤: 마우스 오른쪽 버튼으로 회전, 스크롤로 줌 인/아웃 가능.
*UI:
큐브 크기를 입력할 수 있는 텍스트 필드와 "Set" 버튼.
"Scramble", "Solve", "Reset View" 버튼을 포함한 패널.
입력 오류(예: 음수, 비숫자)에 대한 기본 예외 처리가 포함되어야 합니다.
*최적화 및 안정성:
부동소수점 오류를 피하기 위해 위치와 회전을 반올림 처리.
큰 큐브 크기(예: 9x9)에서도 실행 가능하도록 메모리와 렌더링 최적화.
*추가 요구 사항:
코드에 주석을 추가하여 주요 로직을 설명해 주세요.
실행 전에 pip install ursina가 필요하다는 점을 코드 상단에 명시해 주세요.
최종 결과물은 완전한 Python 파일로 제공되며, 실행 시 오류 없이 3D Rubik's Cube를 시뮬레이션할 수 있어야 합니다. 현재 날짜는 2025년 3월 26일이며, 최신 Ursina 버전을 기준으로 작성해 주세요.

구면 내에서 튀는 100개의 노란색 공 생성 스크립트: Gemini 2.5 Pro는 천천히 회전하는 구 내에서 노란색 공이 머무르면서 충돌 감지를 처리하는 스크립트를 p5.js로 구현하는 데 성공하였습니다.

write a script for 100 bouncing yellow balls within a sphere, make sure to handle collision detection properly. make the sphere slowly rotate. make sure balls stays within the sphere. implement it in p5.js
구면 내에서 100개의 튀는 노란색 공에 대한 스크립트를 작성해줘, 충돌 감지를 제대로 처리해야 해. 구가 천천히 회전하도록 해줘. 공이 구 안에 머무르도록 해줘. p5.js로 구현해줘

구면 내에서 튀는 100개의 노란색 공 생성 스크립트 생성하는 Gemini 2.5 Pro

Gemini 2.5 Pro-Exp-03-25가 생성한 구면 내 100개의 노란색 공 생성 스크립트 실행결과

지구-화성 탐사궤도 애니메이션 생성: 우주선이 지구에서 출발해서 화성까지 갔다가 돌아오는 애니메이션 구현은 여러 번의 디버깅 끝에 간략화된 물리법칙이 적용된 결과물을 생성하였습니다.

Generate code for an animated 3D plot of a launch from earth landing on mars and then back to earth at the next launch window
지구에서 화성에 착륙한 후 다음 발사 창에서 지구로 돌아오는 애니메이션 3D 플롯에 대한 코드를 생성해줘

지구-화성 탐사궤도 애니메이션 구현 에러 수정하는 Gemini 2.5 Pro

Gemini 2.5 Pro Experimental 03-25 가 생성한 지구-화성 탐사궤도 애니메이션 코드 실행결과

Gemini 2.5 Pro Exp-03-25가 생성한 지구-화성 탐사궤도 애니메이션 코드를 Grok-3가 평가한 결과는 아래와 같습니다.

종합 평가
이 코드는 천문학적 시뮬레이션의 기본 틀을 잘 잡아내며, 중력과 궤도 역학을 이해하기 위한 훌륭한 출발점입니다. 그러나 실제 우주 임무를 재현하려면 Delta-V와 발사 타이밍의 정밀한 조정이 필요합니다. 현재 상태로는 교육용 데모나 개념 증명으로는 훌륭하지만, 실용적인 궤적 설계에는 추가 작업이 필요합니다.

다음은 Gemini 2.5 Pro Exp-03-25의 코딩, 수학, 추론 성능을 테스트해 보겠습니다. 코딩 성능은 코딩 교육 사이트 edabit.com의 Python, JavaScript, C++ 문제를 통해 테스트하고, 수학 문제는 기하학, 확률, 수열, 최적화, 복합 문제 등으로 구성된 6개의 문제를 사용했습니다. 모든 평가 항목은 재시도 없이 첫 번째 시도의 채점 결과를 그대로 반영하였습니다.

1) 코딩 테스트

Gemini 2.5 Pro Exp의 JavaScript Expert 난이도 답변화면

Gemini 2.5 Pro Exp-03-25 Python Expert 난이도: Pass

Gemini 2.5 Pro Exp-03-25 JavaScript Expert 난이도: Pass

Gemini 2.5 Pro Exp-03-25 C++ Expert 난이도: Pass

Gemini 2.5 Pro-Exp	Medium	Hard	Very Hard	Expert
Python	Pass	Pass	Pass	Pass
JavaScript	Pass	Pass	Pass	Pass
C++	Pass	Pass	Pass	Pass

코딩 테스트 결과, Gemini 2.5 Pro-Exp는 Python, JavaScript, C++ 모든 난이도 문제를 성공하였습니다.

2) 수학 테스트

No.	문제 구분	문제	Gemini 2.5 Pro-Exp
1	기초 대수 문제	두 숫자 𝑥 x와 𝑦 y가 있습니다. 이들이 만족하는 식은 3 𝑥 + 4 𝑦 = 12 3x+4y=12이며, 𝑥 − 2 𝑦 = 1 x−2y=1입니다. 𝑥 x와 𝑦 y의 값을 구하세요	Pass
2	기하학 문제	반지름이 7cm인 원의 넓이를 구하세요. 𝜋 = 3.14159 π=3.14159로 계산하세요.	Pass
3	확률 문제	주사위를 두 번 던졌을 때, 두 숫자의 합이 7이 될 확률을 구하세요.	Pass
4	수열 문제	첫 번째 항이 3이고, 공차가 5인 등차수열의 10번째 항을 구하세요.	Pass
5	최적화 문제	어떤 직사각형의 둘레가 36cm입니다. 이 직사각형의 넓이를 최대화하려면 가로와 세로의 길이는 각각 얼마여야 하나요?	Pass
6	복합 문제	복소평면에서 다음 극한값을 구하시오. lim[n→∞] (1 + i/n)^(n^2) 여기서 i는 허수단위 (i^2 = -1)입니다.	Pass

수학 테스트에서는 기초 대수, 기하학, 확률, 수열, 최적화, 복합문제 등 여섯 문제를 모두 성공하였습니다.

3) 추론 테스트

No.	문제	Gemini 2.5 Pro-Exp
1	5학년과 6학년 학생 160명이 나무 심기에 참가하였습니다. 6학년 학생들이 각각 평균5그루,5학년 학생들이 각각 평균 3그루씩 심은 결과 모두 560그루를 심었습니다. 나무심기에 참가한 5,6학년 학생은 각각 몇명일까요?	Pass
2	베티는 새 지갑을 위해 돈을 모으고 있습니다. 새 지갑의 가격은 $100입니다. 베티는 필요한 돈의 절반만 가지고 있습니다. 그녀의 부모는 그 목적을 위해 $15를 주기로 결정했고, 할아버지와 할머니는 그녀의 부모들의 두 배를 줍니다. 베티가 지갑을 사기 위해 더 얼마나 많은 돈이 필요한가요?	Pass
3	전국 초등학생 수학경시대회가 열렸는데 영희,철수,진호 세사람이 참가했습니다. 그들은 서울,부산,인천에서 온 학생이고 각각 1등,2등,3등 상을 받았습니다. 다음과 같은 사항을 알고 있을때 진호는 어디에서 온 학생이고 몇등을 했습니까? 1) 영희는 서울의 선수가 아닙니다. 2) 철수는 부산의 선수가 아닙니다. 3)서울의 선수는 1등이 아닙니다. 4) 부산의 선수는 2등을 했습니다. 5)철수는 3등이 아닙니다.	Pass
4	방 안에는 살인자가 세 명 있습니다. 어떤 사람이 방에 들어와 그중 한 명을 죽입니다. 아무도 방을 나가지 않습니다. 방에 남아 있는 살인자는 몇 명입니까? 단계별로 추론 과정을 설명하세요.	Pass
5	A marble is put in a glass. The glass is then turned upside down and put on a table. Then the glass is picked up and put in a microwave. Where's the marble? Explain your reasoning step by step.	Pass
6	도로에 5대의 큰 버스가 차례로 세워져 있는데 각 차의 뒤에 모두 차의 목적지가 적혀져 있습니다. 기사들은 이 5대 차 중 2대는 A시로 가고, 나머지 3대는 B시로 간다는 사실을 알고 있지만 앞의 차의 목적지만 볼 수 있습니다. 안내원은 이 몇 분의 기사들이 모두 총명할 것으로 생각하고 그들의 차가 어느 도시로 가야 하는지 목적지를 알려 주지 않고 그들에게 맞혀 보라고 하였습니다. 먼저 세번째 기사에게 자신의 목적지를 맞혀 보라고 하였더니 그는 앞의 두 차에 붙여 놓은 표시를 보고 말하기를 "모르겠습니다." 라고 말하였습니다. 이것을 들은 두번째 기사도 곰곰히 생각해 보더니 "모르겠습니다." 라고 말하였습니다. 두명의 기사의 이야기를 들은 첫번째 기사는 곰곰히 생각하더니 자신의 목적지를 정확하게 말하였습니다. 첫번째 기사가 말한 목적지는 어디입니까?	Pass

Gemini 2.5 Pro-Exp는 추론 성능 테스트도 모두 성공하였습니다. 아래 화면은 OpenRouter API를 활용하여 만든 자체 프로그램으로 테스트한 결과입니다.

Gemini-2.5-pro-exp-0325 수학경시대회 추론문제 테스트 결과

Gemini 2.5-pro-exp-0325 수학 및 추론성능 테스트 결과

4) 이미지 인식 테스트

참고로 경쟁 모델 Grok 3는 오른쪽 하단의 워터마크까지 설명하는 디테일을 보였습니다.

6. 맺음말

Gemini 2.5 Pro Exp-03-25는 향상된 추론 능력, 멀티모달 지원, 긴 컨텍스트 처리 성능을 바탕으로 AI 모델의 새로운 기준을 제시하고 있습니다. 특히, 다양한 벤치마크에서 입증된 성능은 실용성과 확장성을 동시에 갖춘 모델로서의 가능성을 보여줍니다. 하지만 실제 복잡한 시뮬레이션 구현 테스트에서는 한계를 보이며 개선이 필요한 부분도 확인되었습니다.

오늘 블로그에서 소개해드린 프롬프트를 참고하셔서, 구글의 대표적인 언어 모델, Gemini를 여러분도 한 번씩 체험해 보시면 좋은 경험이 될 것 같습니다. 그럼 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.

2025.02.07 - [AI 언어 모델] - ✨Gemini 2.0 패밀리: 최대 200만 토큰 지원하는 구글의 최신 AI 모델군

✨Gemini 2.0 패밀리: 최대 200만 토큰 지원하는 구글의 최신 AI 모델군

안녕하세요! 오늘은 Google에서 공개한 최신 멀티모달 AI 모델, Gemini 2.0 업데이트에 대해 살펴보겠습니다. 이번 Gemini 모델의 업데이트는 이전 모델 대비 성능과 효율성을 대폭 개선했으며, 사용자

fornewchallenge.tistory.com

저작자표시

'AI 언어 모델' 카테고리의 다른 글

🤖🔍QVQ-Max: 생각하고 이해하는 알리바바의 최첨단 시각적 추론 AI (6)	2025.03.31
👀👂🗣️✍️Qwen2.5-Omni: 보고, 듣고, 말하고, 쓰는 차세대 멀티모달 모델! (1)	2025.03.30
🐳 DeepSeek V3-0324 공개! 오픈소스 LLM의 새로운 강자 등장 (8)	2025.03.25
🏯🧠Hunyuan-T1: GPT 4.5 뛰어넘은 세계 최초 Hybrid-Transformer-Mamba MoE 모델 (8)	2025.03.23
🤖🔍📊EXAONE Deep: LG AI의 오픈소스 추론 능력 강화 모델 (8)	2025.03.22