본문 바로가기
AI 언어 모델

🤖마이크로소프트 Phi-3.5 시리즈: 소형 MoE 모델의 혁신

by James AI Explorer 2024. 8. 24.
    728x90

    안녕하세요! 오늘은 마이크로소프트의 최신 모델 Phi-3.5 시리즈에 대해 알아보겠습니다. Phi-3.5는 세 가지 다른 버전(MoE-instruct, Mini-instruct, Vision-instruct)으로 출시되었으며, 이전 버전인 Phi-3 모델과 비교해서 MoE(Mixture of Experts) 아키텍처 도입, 다국어 능력 향상, 멀티모달 능력 추가 등을 통해 더 적은 자원을 사용하면서도 높은 성능을 유지하고, 다양한 작업에서 더 높은 효율성을 발휘합니다. 이 블로그에서는 Phi-3.5 개요, 특징 및 주요 기능, 성능평가 결과에 대해 알아보고, Phi-3.5- MoE-instruct코딩 및 추론성능을 실제로 테스트해 보겠습니다. 

    🤖마이크로소프트 Phi-3.5 시리즈: 소형 MoE 모델의 혁신

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

    Phi-3.5 개요 및 특징

    Phi-3.5는 경량화와 고성능을 동시에 추구하며, 특히 추론 능력에 중점을 둔 고품질 데이터를 바탕으로 구축되었습니다.  Phi-3.5 모델군은 다국어 지원과 128K 토큰의 긴 문맥 처리 능력이 특징입니다. 이 모델들은 지도 학습 미세 조정, 근접 정책 최적화(Proximal Policy Optimization), 직접 선호도 최적화(Direct Preference Optimization) 등 개선 과정을 거쳐 정확한 지시 이행과 강력한 안전 조치를 보장합니다. Phi-3.5 모델군은 다음과 같이 세 가지 주요 모델로 구성됩니다:

    모델 파라미터 수 훈련 토큰 수 특징
    Phi-3.5-MoE-instruct 16x3.8B 4.9Trillion 2개 전문가 사용 시 6.6B 활성 파라미터
    Phi-3.5-mini-instruct 3.8B 3.4Trillion Phi-3 Mini와 동일한 토크나이저 사용
    Phi-3.5-vision-instruct 4.2B 500Billion 시각 정보 처리 능력 추가

     

    이 모델들은 모두 HuggingFace에서 공개적으로 사용할 수 있어, 연구자들과 개발자들이 쉽게 접근하고 활용할 수 있습니다. Phi-3.5 모델군의 주요 특징과 기능은 다음과 같습니다:

    • 고품질 데이터 중심 훈련: Phi-3.5 모델들은 엄선된 공개 문서, 고품질 교육 데이터, 코드, 그리고 추론 능력 향상을 위한 특별히 제작된 합성 데이터 데이터로 훈련되었습니다. 특히 수학, 코딩, 상식적 추론, 세계 일반 지식(과학, 일상 활동, 마음 이론 등) 교육을 위한 합성 데이터가 사용되었습니다.
    • 다국어 지원: 훈련 데이터의 약 10%가 다국어 데이터로 구성되어 있어, Phi-3.5 모델들은 다양한 언어에 대한 이해와 생성 능력을 갖추고 있습니다. 이는 글로벌 사용자들에게 폭넓은 활용 가능성을 제공합니다.
    • 긴 문맥 이해: 모든 Phi-3.5 모델은 128K 토큰의 긴 문맥을 처리할 수 있습니다. 이는 매우 긴 문서나 대화를 한 번에 이해하고 처리할 수 있음을 의미하며, 복잡한 작업이나 장문의 분석에 특히 유용합니다.
    • 효율적인 파라미터 사용: 특히 Phi-3.5-MoE-instruct 모델은 MoE(Mixture of Experts) 구조를 채택하여, 총 60.8B 파라미터 중 실제 추론 시에는 6.6B 파라미터만 활성화됩니다. 이는 대규모 모델의 성능을 유지하면서도 계산 효율성을 크게 향상시킵니다.
    • 다양한 능력: 이 모델들은 텍스트 생성, 질문 답변, 코드 생성, 수학 문제 해결, 추론 등 다양한 작업에서 뛰어난 성능을 보입니다. 특히 추론과 수학 능력에서 두각을 나타냅니다.
    • 시각 정보 처리: Phi-3.5-vision-instruct 모델은 이미지 처리 능력을 갖추고 있어, 텍스트와 이미지를 결합한 멀티모달 작업을 수행할 수 있습니다. 이는 과학적 시각 추론, 차트/표/다이어그램 이해 등의 작업에 활용될 수 있습니다.
    728x90

    Phi-3.5 벤치마크 결과

    Phi-3.5 모델군은 다양한 벤치마크에서 탁월한 성능을 보여주고 있습니다. Phi-3.5 시리즈는 각기 다른 강점을 지닌 모델들로, Mini-Instruct는 수학, 추론, 다국어 작업에서 안정적 성능을 보이며, MoE-Instruct는 복잡한 추론과 다국어 작업에서 탁월하고 긴 문맥 이해와 코드 생성에서도 우수합니다. Vision-Instruct는 시각적 지능과 과학 지식 추론에서 뛰어나지만, 시각적 수학 추론에서 개선의 여지가 있습니다.

     

    1. Phi-3.5-Mini-Instruct:

    • 텍스트 벤치마크: GSM8K에서 86.2점, ARC Challenge에서 84.6점을 기록하여 수학과 추론 능력에서 뛰어난 성과를 보였습니다. BigBench Hard CoT와 MMLU에서 69점을 획득하여 일반적인 작업에서도 안정적인 성능을 보여줍니다. HumanEval에서 62.8점, MBPP에서 69.6점을 받아 코드 생성 작업에서도 준수한 능력을 입증했습니다.
    • 다국어 성능: MEGA XCOPA에서 63.1점, MEGA XStoryCloze에서 73.5점을 기록하여 다국어 및 내러티브 이해 작업에서 강점을 보였습니다. 전체 평균 55.2점으로, 다양한 작업에서 일관된 성능을 보여주었습니다.
    • 긴 문맥 이해: RULER 벤치마크에서 4K 컨텍스트에서 94.3% 정확도를 보였으며, 컨텍스트 길이가 증가함에 따라 성능이 점진적으로 감소했지만 평균 84.1%의 견고한 성능을 유지했습니다. RepoQA 벤치마크에서 평균 77점을 기록하여 다중 언어 코드 이해 작업에서 안정적인 성능을 보여주었습니다.

    Phi-3.5-Mini-Instruct 벤치마크 결과

    2. Phi-3.5-MoE-Instruct:

    • 텍스트 벤치마크: ARC Challenge에서 91점, OpenBookQA에서 89.6점을 획득하여 복잡한 추론 작업에서 뛰어난 성능을 보였습니다. 다국어 MMLU에서 69.9점을 기록하여 다국어 작업에서 강점을 보였습니다. - MBPP에서 80.8점, HumanEval에서 70.7점을 받아 코딩 능력에서도 우수한 성과를 보여주었습니다.
    • 다국어 성능: 다국어 MMLU에서 69.9점, MEGA XCOPA에서 76.6점을 기록하여 다국어 이해력에서 탁월한 성능을 보였습니다. 전체 평균 65.8점으로, 복잡하고 다국어적이며 맥락적인 도전에서 선두적인 위치를 차지했습니다. MGSM에서 58.7점, MEGA TyDi QA에서 67.1점을 받아 복잡한 논리 기반 질문 처리에 효과적임을 보여주었습니다.
    • 긴 문맥 이해: RULER 벤치마크에서 모든 컨텍스트 길이에서 일관되게 높은 성능을 보였으며, 특히 4K에서 94.8%, 64K에서 85.7%의 정확도를 기록했습니다. RepoQA 벤치마크에서 평균 85점을 기록하여 긴 문맥의 코드 이해 작업에서 최고의 성능을 보여주었습니다.

    Phi-3.5-MoE-Instruct 벤치마크 결과

    3. Phi-3.5-Vision-instruct:

    • 시각 벤치마크: TextVQA(val)에서 72점을 기록하여 문서 지능 작업에서 우수한 성능을 보였습니다. ScienceQA(img-test)에서 91.3점을 획득하여 시각적 과학 지식 추론에서 강점을 보였습니다. MathVista(testmini)에서 43.9점, InterGPS(test)에서 36.3점을 기록하여 시각적 수학 추론 작업에서는 개선의 여지가 있음을 보여주었습니다.
    • BLINK 벤치마크: 14개의 시각 작업에 대해 총점 57점을 기록하여 중간 규모 모델들 중에서는 경쟁력 있는 성능을 보여주었습니다.
    • Video-MME 벤치마크: 비디오 데이터 처리에 대한 종합 평가에서 50.8점을 기록하여 크기 대비 합리적인 성능을 보여주었습니다.

    Phi-3.5-Vision-Instruct 벤치마크 결과

    전반적으로 Phi-3.5 모델군은 다양한 작업에서 균형 잡힌 성능을 보여주며, 특히 추론, 수학, 코딩 능력 벤치마크 지표에서 강점을 보입니다. 또한 긴 문맥 이해와 다국어 처리에서도 우수한 성능을 나타내어 다양한 응용 분야에서 활용 가능성이 높음을 입증했습니다.

    Phi-3.5-MoE-Instruct 테스트

    다음은 Phi-3.5-MoE-instruct 모델의 코딩 및 추론성능 테스트를 해보았습니다. 테스트는 Open WebUINVIDIA NIM 모델에 API방식으로 접속해서 진행하였습니다.  

    추론성능 테스트

    1. 첫 번째 문제: 5학년과 6학년 학생 160명이 나무 심기에 참가하였습니다. 6학년 학생들이 각각 평균 5그루, 5학년 학생들이 각각 평균 3그루씩 심은 결과 모두 560그루를 심었습니다. 나무 심기에 참가한 5, 6학년 학생은 각각 몇 명일까요?

    추론 첫번째 문제에 대한  phi-3.5-moe-instruct의 답변

    2. 두 번째 문제: 베티는 새 지갑을 위해 돈을 모으고 있습니다. 새 지갑의 가격은 $100입니다. 베티는 필요한 돈의 절반만 가지고 있습니다. 그녀의 부모는 그 목적을 위해 $15를 주기로 결정했고, 할아버지와 할머니는 그녀의 부모들의 두 배를 줍니다. 베티가 지갑을 사기 위해 더 얼마나 많은 돈이 필요한가요? 

    추론 두번째 문제에 대한  phi-3.5-moe-instruct의 답변

    3. 세 번째 문제:  5장의 셔츠를 햇빛에 건조하는데 4시간이 걸린다고 해보자. 셔츠를 동시에 건조할 공간이 있습니다. 그렇다면 20장의 셔츠를 건조하는 데는 얼마나 걸릴까요? 각 단계를 차근차근 설명해 주세요.

    추론 세번째 문제에 대한 phi-3.5-moe-instruct의 답변

    4. 네 번째 문제: I have 2 apples, then I buy 2 more. I bake a pie with 2 of the apples. After eating half of the pie how many apples do I have left? 

    추론 네번째 문제에 대한 phi-3.5-moe-instruct의 답변

    5. 다섯 번째 문제: A marble is put in a glass. The glass is then turned upside down and put on a table. Then the glass is picked up and put in a microwave. Where's the marble? Explain your reasoning step by step.

    추론 다섯번째 문제에 대한 phi-3.5-moe-instruct의 답변

    문제 정답 Phi-3.5-MoE-instruct Llama 3.1 405B
    1 5학년 120명, 6학년 40명 Pass (재시도) Pass
    2 $100/2-($15+$30)=$5 Pass (재시도) Pass
    3 4시간 Pass Fail
    4 2개 Pass Pass
    5 테이블 위 Pass (재시도) Pass

    Phi-3.5-MoE-Instruct 모델은 추론테스트 문제 1, 2, 5에서 응답오류, 문자 깨짐 등이 발생하여 3~4회 재시도하였지만, 수학적 추론과 논리전개에서 높은 정확도를 보였습니다. 

    코딩성능 테스트

    코딩테스트는 edabit.com 코딩 교육 사이트의 파이썬 언어, Medium/Hard/Very Hard/Expert 난이도 총 4문제에 대하여 테스트하였으며, 재시도 없이 첫 번째 시도의 채점결과를 그대로 반영하였습니다.

    Phi-3.5-MoE-instruct 모델 파이썬 Medium 난이도: 성공
    Phi-3.5-MoE-instruct 모델의 파이썬 Hard 난이도: 실패
    Phi-3.5-MoE-instruct 모델의 파이썬 Very Hard 난이도: 성공
    Phi-3.5-MoE-instruct 모델의 파이썬 Expert 난이도: 실패

    파이썬 문제 난이도 Phi-3.5-MoE-instruct Llama 3.1 405B Instruct
    Medium Pass Pass
    Hard Fail Fail
    Very Hard Pass Pass
    Expert Fail Pass

    위 테스트결과를 바탕으로 Phi-3.5-MoE-instruct 모델의 성능을 10점 만점으로 평가해 보면, 추론성능은 "7~8점", 파이썬 코딩성능은 "5~6점" 정도의 수준을 보여주었습니다. 

     

    맺음말

    Phi-3.5 시리즈는 마이크로소프트의 최신 모델로, 경량화와 고성능을 동시에 추구하는 혁신적인 접근 방식을 보여주고 있습니다. 특히 MoE 아키텍처 도입으로 추론 능력과 다국어 지원, 멀티모달 처리 능력을 대폭 향상시켜 다양한 작업에서 우수한 성능을 발휘합니다. Phi-3.5-MoE-Instruct 모델의 테스트 결과를 보면, 복잡한 추론과 수학적 문제 해결에서 우수한 성능을 보였으며, 코드 생성에서도 MoE 모델의 유효 크기(6.6B)를 감안하면 상당한 수준의 성능을 확인할 수 있었습니다.

     

    전체적으로 Phi-3.5 시리즈는 임베디드 시스템이나 모바일 기기, 에지 컴퓨팅 등 여러 소형 언어 모델 응용 분야에서 강력한 도구로 활용될 수 있는 잠재력을 충분히 가지고 있는 것으로 보입니다. 이 블로그를 통해 Phi-3.5 모델에 대해 이해도를 높이는데 도움이 되셨기를 바라면서 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다. 

     

    https://fornewchallenge.tistory.com/

     

     

    2024.04.25 - [AI 언어 모델] - Phi-3: 마이크로소프트의 작지만 강한 소형 언어 모델, 고난도 스네이크 게임 성공!!

     

    Phi-3: 마이크로소프트의 작지만 강한 소형 언어 모델, 고난도 스네이크 게임 성공!!

    안녕하세요! 오늘은 마이크로소프트의 최신 언어 모델 Phi-3에 대해서 알아보겠습니다. 이번에 먼저 공개된 Phi-3 mini 모델은 3.8B(38억) 개의  매개변수를 가진 소형 언어 모델(SLMs)이며, 동등한 수

    fornewchallenge.tistory.com

     

    728x90