본문 바로가기
AI 언어 모델

🐋DeepSeek-V3: o1-preview 따라잡은 현재 가장 강력한 오픈 소스 모델

by James AI Explorer 2024. 12. 29.
    728x90

    안녕하세요! 오늘은 DeepSeek-AI에서 개발한 최첨단 AI 모델 DeepSeek-V3에 대해 알아보겠습니다. DeepSeek-V3는 무려 6710억 개의 파라미터를 보유한 Mixture-of-Experts(MoE) 기반 언어 모델로, 인공지능 연구와 실제 응용 분야에서 강력한 성능을 발휘합니다. 특히 DeepSeek-V3는 코딩, 수학, 언어 이해와 같은 복잡한 작업에서 뛰어난 성과를 보여주며, 다양한 오픈 소스 및 폐쇄형 모델을 능가하는 역량을 입증했습니다. 이번 블로그에서는 DeepSeek-V3의 주요 특징, 벤치마크 결과, 그리고 다양한 성능 테스트 결과를 살펴보겠습니다.

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

    1. DeepSeek-V3 개요

    DeepSeek-V3는 총 6710억 개의 파라미터를 가지며, 토큰당 370억 개의 파라미터가 활성화되는 MoE(Mixture-of-Experts) 언어 모델입니다. DeepSeek-V3는 효율적인 추론과 비용 효율적인 학습을 위해 입력 데이터를 다양한 관점에서 처리하는 MLA(Multi-head Latent Attention)와 여러 개의 전문가(expert) 모듈을 사용하여 특정 작업에 대한 처리를 분산시키는 DeepSeekMoE 아키텍처를 채택했습니다.

     

    또한, DeepSeek-V3는 14조 8천억 개의 고품질 토큰으로 사전 학습되었으며, Supervised Fine-Tuning(SFT, 지도 학습 세부 조정) 및 Reinforcement Learning(RL, 강화 학습) 단계를 거쳐 성능을 극대화합니다. DeepSeek-V3는 278만 8천 시간의 H800 GPU 시간만으로 전체 학습을 완료했으며, 이는 다른 오픈 소스 모델보다 훨씬 경제적인 비용입니다. 

    https://huggingface.co/deepseek-ai/DeepSeek-V3

     

    deepseek-ai/DeepSeek-V3 · Hugging Face

    Paper Link👁️ 1. Introduction We present DeepSeek-V3, a strong Mixture-of-Experts (MoE) language model with 671B total parameters with 37B activated for each token. To achieve efficient inference and cost-effective training, DeepSeek-V3 adopts Multi-he

    huggingface.co

    728x90

    2. DeepSeek-V3 특징 및 주요 기능

    DeepSeek-V3는 여러 가지 혁신적인 특징과 주요 기능을 갖추고 있습니다.

    DeepSeekMoE 아키텍처

    DeepSeekMoE는 입력을 여러 전문가(expert)에게 보내고, 가장 적합한 전문가를 선택하여 데이터를 처리합니다. MLA는 데이터를 더 잘 이해하기 위해 여러 방향에서 집중(Attention)을 하고, 이를 통해 중요한 정보를 잘 찾아냅니다. 이 두 가지 기법은 데이터를 효율적으로 처리하고 학습 속도를 빠르게 합니다.

    • Multi-Head Latent Attention (MLA): MLA는 key와 value 데이터, 쿼리를 압축해서 학습 중 활성화 메모리를 줄이고, 여러 개의 "Attention 헤드"를 사용해 다양한 관점에서 데이터를 분석하고, 숨겨진 패턴이나 관계를 파악하므로 더 정확하고 풍부한 정보를 추출할 수 있어, 복잡한 데이터를 효율적으로 처리하고 모델 성능을 높입니다.
    • DeepSeekMoE: 비용 효율적인 학습을 위해 DeepSeekMoE는 세분화된 전문가(expert)를 사용하고 일부 전문가를 공유합니다. 또한, 각 전문가의 부하를 모니터링하여 과부하된 전문가는 조정값을 줄이고, 과소 부하된 전문가는 조정값을 늘려 전문가 부하를 균형 있게 유지합니다. 
    • Multi-Token Prediction (MTP): 다중 토큰 예측으로 학습 목표를 확장하여 학습 효과를 높이고, 데이터 효율성을 개선합니다. MTP는 모델이 미래 토큰을 더 잘 예측할 수 있도록 표현을 미리 계획할 수 있도록 하며, 예측할 때 하나씩 차례로 다음 토큰을 맞추고, 항상 예측 순서의 논리적 흐름을 유지합니다.
    • FP8 혼합 정밀도 훈련: 훈련 속도를 높이고 GPU 메모리 사용량을 줄이기 위해 FP8 데이터 형식을 사용하며, 활성화, 가중치 및 기울기의 이상값을 처리하기 위해 타일 또는 블록 단위 그룹화를 사용합니다. 또한, MoE 훈련에서 메모리 및 통신 부담을 줄이기 위해, FP8 형식으로 데이터를 저장하고 전달하며, BF16 형식으로 간단한 최적화 상태를 저장합니다.
    • 듀얼파이프 알고리즘: 효율적인 작업 처리를 위해 듀얼파이프 알고리즘을 설계하여, 데이터를 계산하고 보내는 단계를 동시에 진행할 수 있게 했습니다. 또한, 파이프라인이 멈추는 시간을 줄여 학습 속도를 빠르게 합니다. 듀얼파이프는 데이터를 파이프라인 양쪽에서 동시에 넣어주는 양방향 방식으로 작동합니다.
    • Cross-node All-to-All 통신: 여러 컴퓨터 노드가 데이터를 주고받을 때 빠르게 처리할 수 있도록 만든 방법입니다. InfiniBand(IB)와 NVLink라는 기술을 최대한 활용해 통신 속도를 높입니다. 각 데이터를 최대 4개의 노드에 나누어 보내 IB의 데이터 이동량을 줄이고, NVLink를 사용해 데이터를 바로 전달해 작업을 겹쳐 처리할 수 있게 합니다.
    • 롱 컨텍스트 확장: YaRN(Yet another Recurrent Network, 또 하나의 순환 신경망)을 사용해서 컨텍스트 창 크기를 4K에서 32K로, 그리고 128K까지 크게 늘렸습니다. NIAH(Needle In A Haystack, 건초 더미에서 바늘 찾기) 테스트에서, 128K까지의 모든 크기에서도 안정적으로 잘 작동하는 모습을 보여줬습니다.
    • 지식 증류: DeepSeek-R1 모델에서 추론 능력을 증류하여 DeepSeek-V3의 추론 성능을 향상시킵니다.

     

    3. DeepSeek-V3 벤치마크 결과

    DeepSeek-V3는 다양한 벤치마크에서 뛰어난 성능을 보여주었습니다.

    DeepSeek-V3 벤치마크 결과
    DeepSeek-V3 벤치마크 결과

    • 오픈 소스 모델 중 최고 성능: DeepSeek-V3 Base 모델은 특히 코드 및 수학 분야에서 현재 사용 가능한 가장 강력한 오픈 소스 모델로 나타났습니다. 챗 버전 또한 다른 오픈 소스 모델보다 뛰어난 성능을 보이며 GPT-4o 및 Claude-3.5-Sonnet과 같은 선도적인 폐쇄형 모델과 비슷한 성능을 달성했습니다.
    • 지식: MMLU, MMLU-Pro 및 GPQA와 같은 교육 벤치마크에서 다른 모든 오픈 소스 모델을 능가하며, GPT-4o 및 Claude-Sonnet-3.5와 같은 선도적인 폐쇄형 모델과 비슷한 성능을 보여주었습니다.
    • 코드, 수학 및 추론: 수학 관련 벤치마크에서 모든 비 long-CoT 오픈 소스 및 폐쇄형 모델 중 최고 성능을 달성했으며, 특히 MATH-500과 같은 특정 벤치마크에서 o1-preview를 능가하는 강력한 수학적 추론 능력을 보여주었습니다. 또한, 코딩 관련 작업에서 LiveCodeBench와 같은 코딩 경쟁 벤치마크에서 최상위 성능을 입증했으며, 다양한 기술 벤치마크에서 뛰어난 경쟁력을 보였습니다.
    • 언어 이해: BBH, MMLU 시리즈, DROP, C-Eval, CMMLU 및 CCPM에서 LLaMA-3.1 405B Base와 같은 다른 대규모 오픈 소스 모델보다 더 나은 성능을 보여줍니다.
    • 긴 컨텍스트 이해: DROP, LongBench v2 및 FRAMES와 같은 긴 컨텍스트 이해 벤치마크에서 뛰어난 성능을 보이며, 특히 FRAMES에서는 GPT-4o에 이어 두 번째로 좋은 성능을 보여주었습니다.

    DeepSeek-V3 벤치마크 결과 요약

    벤치마크 DeepSeek-V3 벤치마크 결과
    MMLU GPT-4o, Claude-Sonnet-3.5와 비슷한 수준
    MMLU-Pro Claude-Sonnet 3.5를 바짝 추격
    GPQA-Diamond Claude 3.5 Sonnet에 이어 2위, 다른 경쟁 모델보다 월등한 성능
    DROP 모든 모델 중 최고 성능 (91.6 F1 score)
    FRAMES GPT-4o에 이어 2위
    LongBench v2 최고 성능
    SimpleQA GPT-4o 및 Claude-Sonnet에 비해 약간 뒤쳐지지만, 중국어 사실 지식에서는 최고 성능
    HumanEval-Mul, LiveCodeBench 모든 베이스라인을 능가하는 뛰어난 성능
    AIME, MATH-500, CNMO 2024 최고 성능, Qwen2.5 72B 대비 10% 이상 높은 성능
    C-SimpleQA 최고 성능, Qwen2.5-72B 대비 16.4 포인트 더 높은 성능
    C-Eval, CLUEWSC Qwen2.5-72B와 비슷한 수준

    4. DeepSeek-V3 성능 테스트

    다음은 DeepSeek-V3의 코딩, 수학, 추론 성능을 테스트해 보겠습니다. 코딩 성능은 코딩 교육 사이트 edabit.com의 Python, JavaScript, C++ 문제를 통해 테스트하고, 수학 문제는 기하학, 확률, 수열, 최적화, 복합 문제 등으로 구성된 6개의 문제를 사용했습니다. 모든 평가 항목은 재시도 없이 첫 번째 시도의 채점 결과를 그대로 반영하였습니다.

    DeepSeek-V3 Medium Hard Very Hard Expert
    Python Pass Pass Pass Pass
    JavaScript Pass Pass Pass Pass
    C++ Pass Pass Pass Pass

    코딩 테스트 결과 Python, JavaScript, C++ 모든 난이도 문제를 성공하였습니다. 

    No. 문제 구분 문제 DeepSeek-V3
    1 기초 대수 문제 두 숫자 𝑥 x와 𝑦 y가 있습니다. 이들이 만족하는 식은 3 𝑥 + 4 𝑦 = 12 3x+4y=12이며, 𝑥 − 2 𝑦 = 1 x−2y=1입니다. 𝑥 x와 𝑦 y의 값을 구하세요 Pass
    2 기하학 문제 반지름이 7cm인 원의 넓이를 구하세요. 𝜋 = 3.14159 π=3.14159로 계산하세요. Pass
    3 확률 문제 주사위를 두 번 던졌을 때, 두 숫자의 합이 7이 될 확률을 구하세요. Pass
    4 수열 문제 첫 번째 항이 3이고, 공차가 5인 등차수열의 10번째 항을 구하세요. Pass
    5 최적화 문제 어떤 직사각형의 둘레가 36cm입니다. 이 직사각형의 넓이를 최대화하려면 가로와 세로의 길이는 각각 얼마여야 하나요? Pass
    6 복합 문제 복소평면에서 다음 극한값을 구하시오. lim[n→∞] (1 + i/n)^(n^2) 여기서 i는 허수단위 (i^2 = -1)입니다. Pass

    수학 테스트에서는 기초 대수, 기하학, 확률, 수열, 최적화, 복합문제 등 6문제를 모두 성공하였습니다.

    No. 문제 DeepSeek-V3
    1 5학년과 6학년 학생 160명이 나무 심기에 참가하였습니다.
    6학년 학생들이 각각 평균5그루,5학년 학생들이 각각 평균 3그루씩 심은 결과 모두 560그루를 심었습니다. 나무심기에 참가한 5,6학년 학생은 각각 몇명일까요?
    Pass
    2 베티는 새 지갑을 위해 돈을 모으고 있습니다. 새 지갑의 가격은 $100입니다. 베티는 필요한 돈의 절반만 가지고 있습니다. 그녀의 부모는 그 목적을 위해 $15를 주기로 결정했고, 할아버지와 할머니는 그녀의 부모들의 두 배를 줍니다. 베티가 지갑을 사기 위해 더 얼마나 많은 돈이 필요한가요? Pass
    3 전국 초등학생 수학경시대회가 열렸는데 영희,철수,진호 세사람이 참가했습니다. 그들은 서울,부산,인천에서 온 학생이고 각각 1등,2등,3등 상을 받았습니다. 다음과 같은 사항을 알고 있을때 진호는 어디에서 온 학생이고 몇등을 했습니까? 1) 영희는 서울의 선수가 아닙니다. 2) 철수는 부산의 선수가 아닙니다. 3)서울의 선수는 1등이 아닙니다. 4) 부산의 선수는 2등을 했습니다. 5)철수는 3등이 아닙니다. Fail
    4 방 안에는 살인자가 세 명 있습니다. 어떤 사람이 방에 들어와 그중 한 명을 죽입니다. 아무도 방을 나가지 않습니다. 방에 남아 있는 살인자는 몇 명입니까? 단계별로 추론 과정을 설명하세요. Pass
    5 A marble is put in a glass. The glass is then turned upside down and put on a table. Then the glass is picked up and put in a microwave. Where's the marble? Explain your reasoning step by step. Pass
    6 도로에 5대의 큰 버스가 차례로 세워져 있는데 각 차의 뒤에 모두 차의 목적지가 적혀져 있습니다. 기사들은 이 5대 차 중 2대는 A시로 가고, 나머지 3대는 B시로 간다는 사실을 알고 있지만 앞의 차의 목적지만 볼 수 있습니다. 안내원은 이 몇 분의 기사들이 모두 총명할 것으로 생각하고 그들의 차가 어느 도시로 가야 하는지 목적지를 알려 주지 않고 그들에게 맞혀 보라고 하였습니다. 먼저 세번째 기사에게 자신의 목적지를 맞혀 보라고 하였더니 그는 앞의 두 차에 붙여 놓은 표시를 보고 말하기를 "모르겠습니다." 라고 말하였습니다. 이것을 들은 두번째 기사도 곰곰히 생각해 보더니 "모르겠습니다." 라고 말하였습니다. 두명의 기사의 이야기를 들은 첫번째 기사는 곰곰히 생각하더니 자신의 목적지를 정확하게 말하였습니다. 첫번째 기사가 말한 목적지는 어디입니까? Pass

    추론 성능 테스트에서는 수학경시대회 문제를 제외하고 모두 성공하였습니다

    수학경시대회 문제 테스트 결과(좌),  나무심기 문제 테스트 결과(우)
    버스 문제 테스트 결과(좌), 구슬 문제 테스트 결과(우)

    "이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

    5. 맺음말

    DeepSeek-V3는 6710억 개의 파라미터와 토큰당 370억 개의 활성화된 파라미터를 가진 대규모 MoE 언어 모델입니다. MLA 및 DeepSeekMoE 아키텍처를 기반으로 하며, 보조 손실 없는 로드 밸런싱 전략다중 토큰 예측 학습 목표를 통해 더욱 강력한 성능을 달성했습니다. DeepSeek-V3는 FP8 훈련 및 세심한 엔지니어링 최적화를 통해 비용 효율적인 학습이 가능하며, DeepSeek-R1 시리즈 모델에서 추론 능력을 성공적으로 증류했습니다.

     

    종합적으로, DeepSeek-V3는 현재 사용 가능한 가장 강력한 오픈 소스 모델 중 하나이며, GPT-4o 및 Claude-3.5-Sonnet과 같은 선도적인 폐쇄형 모델과 비슷한 수준의 성능을 달성했습니다. 또한, 278만 8천 H800 GPU 시간이라는 경제적인 비용으로 전체 학습을 완료하여 모델 학습 비용을 크게 절감할 수 있습니다.  DeepSeek-V3는 오픈 소스 거대 언어 모델의 새로운 지평을 열었으며, 앞으로 인공지능 분야에 상당한 기여를 할 것으로 기대됩니다.

     

    https://fornewchallenge.tistory.com/

     

     

    2024.09.11 - [AI 언어 모델] - 🤖DeepSeek V2.5: 대화와 코딩 능력을 하나로 통합한 차세대 AI 모델

     

    🤖DeepSeek V2.5: 대화와 코딩 능력을 하나로 통합한 차세대 AI 모델

    안녕하세요! 오늘은 일반 대화 능력과 코딩 작업을 통합한 DeepSeek-AI의 최신 모델 DeepSeek V2.5 모델에 대해 알아보겠습니다. DeepSeek V2.5는 이전 모델인 DeepSeek-V2-Chat과 DeepSeek-Coder-V2-Instruct의 강점을

    fornewchallenge.tistory.com

    728x90