📊마이크로소프트 Phi-4: 14B 매개변수로 GPT-4o를 넘어서다

안녕하세요! 오늘은 마이크로소프트에서 새롭게 발표한 AI 언어 모델 Phi-4에 대해 소개드리겠습니다. Phi-4는 140억 개의 매개변수를 가진 대규모 언어 모델(LLM)로, 기존 Phi 모델 제품군의 최신작입니다. Phi-4는 STEM(과학, 기술, 공학, 수학) 분야에서 교사 모델인 GPT-4o를 능가하는 답변 능력을 보이며, 매개변수 크기 대비 우수한 성능으로 컴퓨팅 자원이 제한적인 환경에서 매우 유용할 수 있습니다. 이 블로그에서는 Phi-4의 특징과 주요 기능에 대해 알아보고, 벤치마크 결과와 활용 방법에 대해 알아보도록 하겠습니다.

https://huggingface.co/NyxKrage/Microsoft_Phi-4

NyxKrage/Microsoft_Phi-4 · Hugging Face

Phi-4 Phi-4 is a state-of-the-art open model built upon a blend of synthetic datasets, data from filtered public domain websites, and acquired academic books and Q&A datasets. The goal of this approach was to ensure that small capable models were trained w

huggingface.co

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

1. Phi-4 개요

최근 마이크로소프트에서 공개한 140억 파라미터의 언어 모델 Phi-4는 기존의 Phi 모델 제품군을 잇는 모델로, 데이터 품질에 중점을 둔 훈련 방식을 통해 성능을 크게 향상시켰습니다. 특히, Phi-4는 웹 콘텐츠나 코드와 같은 유기적인 데이터 소스 외에도 합성 데이터를 전략적으로 활용하여 모델을 훈련시킨다는 점이 특징입니다.

Phi-4는 이전 모델인 Phi-3의 아키텍처를 크게 변경하지 않았지만, 향상된 데이터, 훈련 커리큘럼, 그리고 혁신적인 후처리 방식을 통해 뛰어난 성능을 달성했습니다. Phi-4의 가장 큰 특징은 STEM(과학, 기술, 공학, 수학) 분야의 질문 답변 능력에서 교사 모델인 GPT-4o를 능가한다는 점입니다.

위 매개변수 대비 효율성 그래프는 가로축에 "Active Parameters (Billions)" 즉, 모델의 활성 매개변수 수를 나타내고, 세로축에 "MMLU Aggregate"라는 성능 지표를 나타냅니다. MMLU는 대규모 다중 작업 언어 이해 벤치마크로, 이 값이 높을수록 모델의 성능이 좋다는 것을 의미합니다.

Phi-4 모델은 그래프에서 볼 수 있듯이, 적은 매개변수로도 다른 모델들과 비슷하거나 더 나은 성능을 낼 수 있습니다. 그래프에서 "Frontier for small but mighty models"라고 표시된 것처럼, Phi-4는 작은 모델 크기로도 강력한 성능을 제공하는 모델의 선두 주자라고 할 수 있습니다. 요약하자면, Phi-4 모델은 효율성이 매우 높은 모델이며, 매개변수 수 대비 성능이 중요한 경우에 좋은 선택이 될 수 있습니다.

Phi-4 모델 주요 기능:

뛰어난 STEM 분야 QA 능력: 수학, 과학 등의 분야에서 GPT-4o를 능가하는 수준의 질문 답변 능력을 제공합니다.
강력한 추론 능력: 복잡한 문제에 대한 단계별 추론을 통해 일관성 있는 결과물을 생성합니다.
다양한 형식의 데이터 처리: 웹 데이터, 코드, 과학 자료 등 다양한 형식의 데이터를 효과적으로 처리합니다.
긴 맥락 처리 능력: 최대 16K 토큰의 긴 맥락을 처리하여 문서 전체에 걸친 추론을 지원합니다.
지식 기반 및 추론 능력 강화: 필터링된 웹 데이터와 합성 데이터를 통해 지식 및 추론 능력 모두를 향상시켰습니다.
안전성 강화: 유해하거나 부적절한 콘텐츠 생성을 줄이기 위한 안전 조치가 강화되어 있습니다.
다국어 지원: 독일어, 스페인어, 프랑스어, 포르투갈어, 이탈리아어, 힌디어 및 일본어를 포함한 다양한 언어를 처리할 수 있습니다.

2. Phi-4-14B 벤치마크 결과

Phi-4는 다양한 벤치마크에서 동급 모델 또는 더 큰 모델과 비교하여 뛰어난 성능을 보여줍니다. 특히, GPQA(대학원 수준 STEM Q&A) 및 MATH(수학 경시대회) 벤치마크에서 교사 모델인 GPT-4o를 능가하는 점이 주목할 만합니다.

주요 벤치마크 결과:

MMLU: 다양한 분야에 대한 지식을 측정하는 벤치마크에서 84.8%의 높은 정확도를 기록했습니다.
GPQA: 대학원 수준의 STEM 질문에 대한 답변 능력에서 56.1%의 정확도를 보여주며 GPT-4o를 능가했습니다.
MATH: 수학 경시대회 문제 해결 능력에서 80.4%의 정확도를 기록하며 뛰어난 수학적 추론 능력을 입증했습니다.
HumanEval: 코드 생성 능력 평가에서 82.6%의 높은 정확도를 기록했습니다.
MGSM: 수학 문제 해결 능력 평가에서 80.6%의 정확도를 기록했습니다.
SimpleQA: 간단한 질문에 대한 답변 능력에서 3.0%의 정확도를 보였지만, 이는 모델의 환각 현상을 줄이기 위한 의도적인 설계의 결과입니다.
HumanEval+: HumanEval보다 더 어려운 코드 생성 평가에서 82.8%의 높은 정확도를 기록했습니다.

2024년 11월 AMC 10/12 테스트 결과:

AMC 10/12는 10학년(고1)과 12학년(고3) 학생을 대상으로 하는 미국 수학 경시대회(American Mathematics Competition)로, 전 세계 중고등학생들을 대상으로 합니다.
Phi-4 모델은 이 차트에서 가장 높은 성능을 보여주고 있습니다. 2024년 11월 AMC 10/12 테스트에서 91.8점을 기록했으며, 이는 다른 모든 모델들보다 높은 점수입니다
두 번째로 높은 성능을 보인 Gemini Pro 1.5 (89.8점)보다 2점가량 높습니다
특히 작은 모델(Small model) 카테고리에 속함에도 불구하고 큰 모델들보다 더 좋은 성능을 보였으며, 오차 범위(error bar)가 상당히 작고, 성능이 안정적이고 일관성 있다는 것을 알 수 있습니다.

3. Phi-4-14B 활용 방법

Phi-4-14B 모델은 허깅페이스, glhf 사이트와 OpenWebUI 등을 통해 활용하실 수 있습니다.

a. 로컬 다운로드: https://huggingface.co/matteogeniaccio/phi-4/tree/main 링크에 접속한 후, phi-4-Q4_K_M.gguf(9.05 GB), phi-4-Q6_K.gguf(12 GB), phi-4-Q8_0.gguf(15.6GB), phi-4_f16.gguf(29.3GB) 중에 시스템 성능에 따라 모델을 선택해서 로컬에 다운로드하여 활용하거나, OpenWebUI에서 "Ollama.com에서 모델 가져오기" 입력창에 "hf.co/matteogeniaccio/phi-4"를 입력하여 다운로드하면 됩니다. 자세한 방법은 아래 이전 포스트를 참고하세요.

2024.12.10 - [AI 언어 모델] - 🤖EXAONE-3.5: 한국어와 영어를 지원하는 LG의 최신 대규모 언어 모델

🤖EXAONE-3.5: 한국어와 영어를 지원하는 LG의 최신 대규모 언어 모델

안녕하세요! 오늘은 LG AI Research에서 개발한 최신 AI 모델 EXAONE 3.5에 대해 소개해드리겠습니다. EXAONE 3.5는 Instruction-tuned 대규모 언어 모델로, 세 가지 크기로 제공되며, 긴 맥락 이해 능력과 명령

fornewchallenge.tistory.com

b. glhf.chat: https://glhf.chat/ 사용자 입력창에 "https://huggingface.co/NyxKrage/Microsoft_Phi-4"를 입력한 후, "NyxKrage/Microsoft_Phi-4" 모델을 선택하고 모델의 부팅이 완료되면 Ph-4 모델과 대화할 수 있습니다.

c. OpenWebUI: glhf API 연결방식을 이용해서 OpenWebUI에서 Phi-4 모델과 대화하실 수 있습니다.

https://github.com/open-webui/open-webui?tab=readme-ov-file#how-to-install-

GitHub - open-webui/open-webui: User-friendly AI Interface (Supports Ollama, OpenAI API, ...)

User-friendly AI Interface (Supports Ollama, OpenAI API, ...) - open-webui/open-webui

github.com

base_url: https://glhf.chat/api/openai/v1
model_name: hf:NyxKrage/Microsoft_Phi-4
api_key: 발급받은 glhf API Key

아래 화면과 같이 API 정보를 입력하고 저장한 후, 새 채팅창을 열어서 Phi-4 모델을 선택하고 대화하면 됩니다.

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

4. Phi-4 성능 테스트

다음은 Phi-4-14B의 코딩, 수학, 추론 성능을 테스트해 보겠습니다. 코딩 성능은 코딩 교육 사이트 edabit.com의 Python, JavaScript, C++ 문제를 통해 테스트하고, 수학 문제는 기하학, 확률, 수열, 최적화, 복합 문제 등으로 구성된 6개의 문제를 사용했습니다. 모든 평가 항목은 재시도 없이 첫 번째 시도의 채점 결과를 그대로 반영하였습니다.

Phi-4-14B	Medium	Hard	Very Hard	Expert
Python	Pass	Pass	Pass	Pass
JavaScript	Pass	Pass	Pass	Pass
C++	Pass	Pass	Pass	Fail

코딩 테스트 결과 C++ Expert 난이도를 제외하고 모든 문제를 성공하였습니다.

No.	문제 구분	문제	Phi-4-14B
1	기초 대수 문제	두 숫자 𝑥 x와 𝑦 y가 있습니다. 이들이 만족하는 식은 3 𝑥 + 4 𝑦 = 12 3x+4y=12이며, 𝑥 − 2 𝑦 = 1 x−2y=1입니다. 𝑥 x와 𝑦 y의 값을 구하세요	Pass
2	기하학 문제	반지름이 7cm인 원의 넓이를 구하세요. 𝜋 = 3.14159 π=3.14159로 계산하세요.	Pass
3	확률 문제	주사위를 두 번 던졌을 때, 두 숫자의 합이 7이 될 확률을 구하세요.	Pass
4	수열 문제	첫 번째 항이 3이고, 공차가 5인 등차수열의 10번째 항을 구하세요.	Pass
5	최적화 문제	어떤 직사각형의 둘레가 36cm입니다. 이 직사각형의 넓이를 최대화하려면 가로와 세로의 길이는 각각 얼마여야 하나요?	Pass
6	복합 문제	복소평면에서 다음 극한값을 구하시오. lim[n→∞] (1 + i/n)^(n^2) 여기서 i는 허수단위 (i^2 = -1)입니다.	Pass

수학 테스트에서는 기초 대수, 기하학, 확률, 수열, 최적화, 복합문제 등 6문제를 모두 성공하였습니다.

No.	문제	Phi-4-14B
1	5학년과 6학년 학생 160명이 나무 심기에 참가하였습니다. 6학년 학생들이 각각 평균5그루,5학년 학생들이 각각 평균 3그루씩 심은 결과 모두 560그루를 심었습니다. 나무심기에 참가한 5,6학년 학생은 각각 몇명일까요?	Pass
2	베티는 새 지갑을 위해 돈을 모으고 있습니다. 새 지갑의 가격은 $100입니다. 베티는 필요한 돈의 절반만 가지고 있습니다. 그녀의 부모는 그 목적을 위해 $15를 주기로 결정했고, 할아버지와 할머니는 그녀의 부모들의 두 배를 줍니다. 베티가 지갑을 사기 위해 더 얼마나 많은 돈이 필요한가요?	Pass
3	전국 초등학생 수학경시대회가 열렸는데 영희,철수,진호 세사람이 참가했습니다. 그들은 서울,부산,인천에서 온 학생이고 각각 1등,2등,3등 상을 받았습니다. 다음과 같은 사항을 알고 있을때 진호는 어디에서 온 학생이고 몇등을 했습니까? 1) 영희는 서울의 선수가 아닙니다. 2) 철수는 부산의 선수가 아닙니다. 3)서울의 선수는 1등이 아닙니다. 4) 부산의 선수는 2등을 했습니다. 5)철수는 3등이 아닙니다.	Pass
4	방 안에는 살인자가 세 명 있습니다. 어떤 사람이 방에 들어와 그중 한 명을 죽입니다. 아무도 방을 나가지 않습니다. 방에 남아 있는 살인자는 몇 명입니까? 단계별로 추론 과정을 설명하세요.	Fail
5	A marble is put in a glass. The glass is then turned upside down and put on a table. Then the glass is picked up and put in a microwave. Where's the marble? Explain your reasoning step by step.	Pass
6	도로에 5대의 큰 버스가 차례로 세워져 있는데 각 차의 뒤에 모두 차의 목적지가 적혀져 있습니다. 기사들은 이 5대 차 중 2대는 A시로 가고, 나머지 3대는 B시로 간다는 사실을 알고 있지만 앞의 차의 목적지만 볼 수 있습니다. 안내원은 이 몇 분의 기사들이 모두 총명할 것으로 생각하고 그들의 차가 어느 도시로 가야 하는지 목적지를 알려 주지 않고 그들에게 맞혀 보라고 하였습니다. 먼저 세번째 기사에게 자신의 목적지를 맞혀 보라고 하였더니 그는 앞의 두 차에 붙여 놓은 표시를 보고 말하기를 "모르겠습니다." 라고 말하였습니다. 이것을 들은 두번째 기사도 곰곰히 생각해 보더니 "모르겠습니다." 라고 말하였습니다. 두명의 기사의 이야기를 들은 첫번째 기사는 곰곰히 생각하더니 자신의 목적지를 정확하게 말하였습니다. 첫번째 기사가 말한 목적지는 어디입니까?	Pass

추론 성능 테스트에서는 살인자 문제를 제외하고 모두 성공하였습니다.

구분	분야	Phi-4 답변	결과
코딩 문제	Python Expert		Pass
코딩 문제	JavaScript Expert		Pass
코딩 문제	C++ Expert		Fail
수학 문제	기초 대수 문제		Pass
수학 문제	기하학 문제		Pass
수학 문제	확률 문제		Pass
수학 문제	수열 문제		Pass
수학 문제	최적화 문제		Pass
수학 문제	복합 문제		Pass
추론 문제	5,6학년 학생 문제		Pass
추론 문제	베티 지갑 문제		Pass
추론 문제	수학경시대회 문제		Pass
추론 문제	살인자 문제		Fail
추론 문제	구슬 문제		Pass
추론 문제	버스 문제		Pass

5. 맺음말

Phi-4는 데이터 품질에 집중하여 훈련된 강력한 언어 모델로, 특히 STEM 분야에서 뛰어난 성능을 보여줍니다. 합성 데이터, 고품질 유기 데이터, 그리고 혁신적인 후처리 기술을 통해 기존 모델의 한계를 뛰어넘었으며, 작은 모델 크기로도 강력한 성능을 제공합니다.

뛰어난 성능과 더불어 안전성 및 다국어 지원 등의 추가 기능까지 제공하며, 다양한 분야에서 활용될 가능성을 가진 Phi-4는 앞으로 다양한 응용 분야에서 혁신적인 변화를 가져올 것으로 기대됩니다.

오늘 블로그는 여기까지입니다. 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.

2024.08.24 - [AI 언어 모델] - 🤖마이크로소프트 Phi-3.5 시리즈: 소형 MoE 모델의 혁신

🤖마이크로소프트 Phi-3.5 시리즈: 소형 MoE 모델의 혁신

안녕하세요! 오늘은 마이크로소프트의 최신 모델 Phi-3.5 시리즈에 대해 알아보겠습니다. Phi-3.5는 세 가지 다른 버전(MoE-instruct, Mini-instruct, Vision-instruct)으로 출시되었으며, 이전 버전인 Phi-3 모델

fornewchallenge.tistory.com

저작자표시

'AI 언어 모델' 카테고리의 다른 글

🚀⚡Codestral 25.01: 2배 빠른 속도로 업그레이드 된 최첨단 코딩 모델! (6)	2025.01.17
🐋DeepSeek-V3: o1-preview 따라잡은 현재 가장 강력한 오픈 소스 모델 (16)	2024.12.29
✨Gemini 2.0 Flash Thinking: OpenAI o1과 경쟁할 추론 모델의 등장! (76)	2024.12.20
👀🔊🤖 Gemini 2.0 출시: 보고 듣고 말하는 멀티모달 라이브 챗봇을 지금 만나보세요. (14)	2024.12.14
🤖EXAONE-3.5: 한국어와 영어를 지원하는 LG의 최신 대규모 언어 모델 (115)	2024.12.10