안녕하세요! 오늘은 Meta에서 새롭게 발표한 최신 AI 모델 Llama 3.3에 대해 소개드리겠습니다. Llama 3.3은 텍스트 생성과 대화형 AI 애플리케이션에 최적화된 다국어 대규모 언어 모델(LLM)로, 700억 개의 매개변수와 15조 개 이상의 데이터 토큰을 활용하여 매우 뛰어난 성능을 보여줍니다. Llama 3.3은 이전 모델 대비 더 긴 컨텍스트 길이와 다중 언어 지원, 그리고 지능형 조정 기능을 통해 여러 분야에서 활용 가능성이 높습니다. 이 블로그에서는 Llama 3.3의 주요 특징과 벤치마크 성능에 대해 알아보고, 코딩, 수학, 추론 능력 테스트를 해보겠습니다.
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
Llama 3.3 특징
Llama 3.3은 상업적 및 연구적 목적으로 사용할 수 있도록 설계되었으며, 다양한 언어를 지원합니다. 특히 다중 언어 대화형 사용 사례에 최적화되어 있으며, 여러 오픈 소스 및 상용 챗 모델보다 뛰어난 성능을 보입니다. Llama 3.3은 합성 데이터 생성 및 지식 증류와 같은 다른 모델 개선에도 활용할 수 있습니다.
Llama 3.3은 최첨단 딥러닝 기술을 기반으로 설계되었으며, 다음과 같은 주요 특징을 갖습니다:
- 다중 언어 지원: 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어를 포함한 8개 언어를 공식적으로 지원합니다. Llama 3.3은 8개 지원 언어 외에도 더 많은 언어로 훈련되었으며, 개발자는 Llama 3.3 커뮤니티 라이선스 및 허용 가능한 사용 정책을 준수하는 한 지원되는 8개 언어 이외의 언어에 대한 Llama 3.3 모델을 미세 조정할 수 있습니다.
- 128k 토큰 컨텍스트 길이: 128k 컨텍스트 길이를 지원하여 복잡하고 긴 대화를 처리할 수 있습니다. 모델은 많은 정보를 기억하고 활용하여 정확하고 일관된 답변을 생성할 수 있습니다.
- 최적화된 Transformer 아키텍처: Llama 3.3은 효율적인 Transformer 아키텍처를 사용하여 빠르고 정확한 텍스트 생성을 가능하게 합니다.
- 지능형 조정: 지도 학습 미세 조정(SFT) 및 인간 피드백을 통한 강화 학습(RLHF)을 통해 인간의 선호도에 맞춰 안전하고 유용한 응답을 생성합니다.
- 그룹화 쿼리 어텐션(GQA): Llama 3.3 모델은 GQA(Grouped-Query Attention) 기술을 사용하여 추론 확장성을 개선하고, Transformer의 self-attention 계산을 효율적으로 수행하여 메모리 사용량을 줄이고 처리 속도를 높입니다.
Llama 3.3 사용 방법
Llama 3.3은 다양한 환경에서 사용할 수 있도록 여러 가지 방법을 제공합니다.
- Transformers 라이브러리: Transformers 라이브러리 버전 4.43.0 이상을 사용하면 pipeline 추상화 또는 Auto 클래스를 통해 대화형 추론을 실행할 수 있습니다.
- Bitsandbytes 라이브러리: Bitsandbytes 라이브러리를 사용하면 8비트 및 4비트 정량화를 통해 메모리 사용량을 최적화할 수 있습니다.
- Llama 코드베이스: 원래 Llama 코드베이스를 사용하여 Llama 3.3을 실행할 수 있습니다.
사용자들이 Llama 3.3 모델을 직접 사용해 볼 수 있는 사이트는 아래와 같습니다.
- glhf 사이트: https://glhf.chat/landing/home
- 하이퍼볼릭 사이트: https://app.hyperbolic.xyz/models
- Ollama 사이트: https://ollama.com/library/llama3.3
https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct
Llama 3.3 벤치마크 결과
Llama 3.3 모델은 이전 버전인 Llama 3.1 모델과 비교하여 다양한 벤치마크에서 성능 향상을 보입니다. 특히, 명령어 수행 능력, 추론 능력, 코드 생성 능력, 수학적 능력, 다국어 지원 능력 등이 크게 향상되었습니다. 아래 표는 Llama 3.3 70B Instruct 모델과 Llama 3.1, GPT-4o, Claude 3.5 Sonnet 등의 벤치마크 결과를 비교한 것입니다.
- 전반적인 성능 향상: Llama 3.3 70B Instruct 모델은 대부분의 벤치마크에서 Llama 3.1 모델보다 우수한 성능을 보여줍니다. 특히 HumanEval, MATH, MGSM 벤치마크에서 눈에 띄는 향상을 보이며, 코드 생성, 수학적 문제 해결, 다국어 텍스트 생성 능력이 크게 개선되었음을 알 수 있습니다.
- 명령어 수행 능력 향상: Llama 3.3 모델은 사용자의 지시를 정확하게 이해하고 따르는 능력이 향상되었습니다. 이는 IFEval 벤치마크 결과에서 확인할 수 있으며, 이는 Llama 3.3 모델이 보다 복잡하고 다양한 명령을 처리할 수 있음을 시사합니다.
- 추론 능력 향상: Llama 3.3 모델은 주어진 정보를 바탕으로 논리적인 추론을 수행하는 능력이 향상되었습니다. GPQA Diamond 벤치마크 결과는 Llama 3.3 모델이 복잡한 질문에 대해 정확한 답변을 제공할 수 있음을 보여줍니다.
- 다중 작업 언어 이해(MMLU): 0-shot 설정에서 86.0, 5-shot 설정에서 68.9의 정확도를 달성했습니다.
- 인간 평가(IFEval): 92.1의 높은 점수를 기록하여 Claude 3.5 Sonnet을 뛰어넘는 성능을 보여주었습니다.
- 코드 생성(HumanEval): 88.4%의 pass@1 정확도를 달성하여 코드 생성 능력이 크게 향상되었습니다.
- 다국어 기계 번역(MGSM): 91.1의 높은 정확도를 달성하여 다국어 작업에서도 뛰어난 성능을 입증했습니다.
다양한 벤치마크 결과는 Llama 3.3 모델이 텍스트 생성, 명령어 수행, 추론, 코드 생성, 수학적 문제 해결, 다국어 지원 등 다양한 작업에서 뛰어난 성능을 발휘함을 보여줍니다.
Llama 3.3 성능테스트
다음은 Llama 3.3으로 코딩, 수학, 추론 성능을 테스트해 보겠습니다. 코딩 성능은 코딩 교육 사이트 edabit.com의 Python, JavaScript, C++ 문제를 통해 테스트하고, 수학 문제는 기하학, 확률, 수열, 최적화, 복합 문제 등으로 구성된 6개의 문제를 사용했습니다. 모든 평가 항목은 재시도 없이 첫 번째 시도의 채점 결과를 그대로 반영하였습니다.
1. 코딩성능 테스트: Python, JavaScript, C++ 언어별 Medium, Hard, Very Hard, Expert 난이도 문제로 테스트하였습니다.
Llama 3.3-70B | Medium | Hard | Very Hard | Expert |
Python | Pass | Pass | Pass | Pass |
JavaScript | Pass | Pass | Pass | Pass |
C++ | Pass | Pass | Pass | Pass |
코딩 테스트 결과 Llama 3.3 모델은 Python, JavaScript, C++ 언어별 모든 난이도 문제를 성공하였습니다.
2. 수학 성능 테스트: 기초 대수, 기하학, 확률, 수열, 최적화, 복합 문제 총 6문제로 테스트하였습니다.
No. | 문제 구분 | 문제 | Llama 3.2-90B | Llama 3.3-70B |
1 | 기초 대수 문제 | 두 숫자 𝑥 x와 𝑦 y가 있습니다. 이들이 만족하는 식은 3 𝑥 + 4 𝑦 = 12 3x+4y=12이며, 𝑥 − 2 𝑦 = 1 x−2y=1입니다. 𝑥 x와 𝑦 y의 값을 구하세요 | Pass | Pass |
2 | 기하학 문제 | 반지름이 7cm인 원의 넓이를 구하세요. 𝜋 = 3.14159 π=3.14159로 계산하세요. | Pass | Pass |
3 | 확률 문제 | 주사위를 두 번 던졌을 때, 두 숫자의 합이 7이 될 확률을 구하세요. | Pass | Pass |
4 | 수열 문제 | 첫 번째 항이 3이고, 공차가 5인 등차수열의 10번째 항을 구하세요. | Pass | Pass |
5 | 최적화 문제 | 어떤 직사각형의 둘레가 36cm입니다. 이 직사각형의 넓이를 최대화하려면 가로와 세로의 길이는 각각 얼마여야 하나요? | Pass | Pass |
6 | 복합 문제 | 복소평면에서 다음 극한값을 구하시오. lim[n→∞] (1 + i/n)^(n^2) 여기서 i는 허수단위 (i^2 = -1)입니다. | Fail | Pass |
수학 성능 테스트 결과 Llama 3.3 모델은 Llama 3.2 모델보다 복합 문제에서 더 우수한 성능을 보였습니다.
3. 추론 성능 테스트
No. | 문제 | Llama 3.2-90B | Llama 3.3-70B |
1 | 160 students in 5th and 6th grade participated in tree planting. As a result of planting an average of 5 trees each by 6th graders and an average of 3 trees each by 5th graders, a total of 560 trees were planted. How many 5th and 6th graders participated in tree planting?(5, 6학년 학생 160명이 나무 심기에 참여했습니다. 6학년은 평균 5그루, 5학년은 평균 3그루의 나무를 심은 결과, 총 560그루의 나무가 심어졌습니다. 나무 심기에 참여한 5, 6학년 학생은 몇 명인가요?) |
Pass | Pass |
2 | Betty is saving money for a new purse. The purse costs $100. Betty only has half the money she needs. Her parents decide to give her $15 for that purpose, and her grandparents give her twice as much as her parents. How much more money does Betty need to buy the purse?(베티는 새 지갑을 사기 위해 돈을 모으고 있습니다. 지갑은 100달러입니다. 베티는 필요한 돈의 절반만 가지고 있습니다. 그녀의 부모님은 그 목적으로 15달러를 주기로 결정하고, 그녀의 조부모님은 부모님보다 두 배 더 많이 줍니다. 베티가 지갑을 사기 위해 얼마나 더 많은 돈이 필요한가요?) | Pass | Pass |
3 | A national elementary school math competition was held, and three people, Young-hee, Chul-soo, and Jin-ho, participated. They are students from Seoul, Busan, and Incheon, and they received first, second, and third place awards, respectively. When you know the following, where is Jin-ho from and what place did he get? 1) Young-hee is not a player from Seoul. 2) Chul-soo is not a player from Busan. 3) The player from Seoul is not first place. 4) The player from Busan got second place. 5) Chul-soo is not third place.(전국 초등학생 수학경시대회가 열렸고, 영희, 철수, 진호 세 사람이 참가했다. 이들은 서울, 부산, 인천의 학생이며, 각각 1, 2, 3등 상을 받았다. 다음을 알 때, 진호는 어느 지역 출신이고 몇 등을 했는가? 1) 영희는 서울 출신 선수가 아니다. 2) 철수는 부산 출신 선수가 아니다. 3) 서울 출신 선수는 1등이 아니다. 4) 부산 출신 선수는 2등을 했다. 5) 철수는 3등이 아니다.) | Fail | Pass |
4 | There are three murderers in a room. A person enters the room and kills one of them. No one leaves the room. How many murderers are left in the room? Explain the reasoning process step by step.(한 방에 살인자가 세 명 있습니다. 한 사람이 방에 들어가서 그 중 한 명을 죽입니다. 아무도 방을 나가지 않습니다. 방에 남은 살인자는 몇 명입니까? 추론 과정을 단계별로 설명해주세요.) | Fail | Pass |
5 | A marble is put in a glass. The glass is then turned upside down and put on a table. Then the glass is picked up and put in a microwave. Where's the marble? Explain your reasoning step by step.(유리잔에 구슬을 넣습니다. 그런 다음 유리잔을 뒤집어 테이블 위에 놓습니다. 그런 다음 유리잔을 집어서 전자레인지에 넣습니다. 구슬은 어디에 있나요? 이유를 단계별로 설명하세요.) | Pass | Pass |
6 | 도로에 5대의 큰 버스가 차례로 세워져 있는데 각 차의 뒤에 모두 차의 목적지가 적혀져 있습니다. 기사들은 이 5대 차 중 2대는 A시로 가고, 나머지 3대는 B시로 간다는 사실을 알고 있지만 앞의 차의 목적지만 볼 수 있습니다. 안내원은 이 몇 분의 기사들이 모두 총명할 것으로 생각하고 그들의 차가 어느 도시로 가야 하는지 목적지를 알려 주지 않고 그들에게 맞혀 보라고 하였습니다. 먼저 세번째 기사에게 자신의 목적지를 맞혀 보라고 하였더니 그는 앞의 두 차에 붙여 놓은 표시를 보고 말하기를 "모르겠습니다." 라고 말하였습니다. 이것을 들은 두번째 기사도 곰곰히 생각해 보더니 "모르겠습니다." 라고 말하였습니다. 두명의 기사의 이야기를 들은 첫번째 기사는 곰곰히 생각하더니 자신의 목적지를 정확하게 말하였습니다. 첫번째 기사가 말한 목적지는 어디입니까? |
Fail | Pass |
추론 성능 테스트 결과 Llama 3.3 모델은 Llama 3.2 모델보다 더 우수한 성능을 보였습니다.
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
Llama 3.3 맺음말
Llama 3.3은 텍스트 생성 및 대화형 AI 분야에서 혁신을 이룬 강력한 다국어 LLM입니다. 뛰어난 성능과 다양한 기능을 통해 개발자는 다양한 애플리케이션에서 Llama 3.3을 활용하여 혁신적인 솔루션을 구축할 수 있습니다. 하지만 Llama 3.3은 아직 개발 단계에 있으며, 잠재적인 위험과 한계점을 인식하는 것이 중요합니다.
Llama 3.3 모델을 테스트해 본 후기는 다음과 같습니다.
- 코딩 생성 능력이 매우 우수하다.
- 추론 성능이 이전 모델보다 크게 개선되었다.
- 언어 모델이 갈수록 고성능 표준화 되고 있다.
오늘은 Meta의 Llama 3.3 모델에 대해 알아보았는데요, 직접 사용해 보면서 그 가능성을 체감해 보시는 것도 추천드립니다. 다양한 기능과 향상된 AI 기술의 진보를 느낄 수 있는 좋은 기회가 될 것입니다. 그럼 다음 시간에도 더 흥미롭고 유익한 내용을 가지고 다시 찾아뵙겠습니다. 감사합니다!
2024.09.28 - [AI 언어 모델] - 👁️🤖Llama 3.2: 에지 컴퓨팅과 비전까지 확장한 Meta의 AI 모델
'AI 언어 모델' 카테고리의 다른 글
👀🔊🤖 Gemini 2.0 출시: 보고 듣고 말하는 멀티모달 라이브 챗봇을 지금 만나보세요. (14) | 2024.12.14 |
---|---|
🤖EXAONE-3.5: 한국어와 영어를 지원하는 LG의 최신 대규모 언어 모델 (114) | 2024.12.10 |
👁️PaliGemma 2: 구글의 최신 오픈소스 비전-언어 모델(VLM) (98) | 2024.12.08 |
🚀Motif: KMMLU에서 GPT-4o를 뛰어넘은 한국어 오픈소스 LLM (120) | 2024.12.05 |
🚀Athene-V2 : GPT-4o를 넘어선 최신 오픈소스 모델 ! (+무료 API) (10) | 2024.11.30 |