안녕하세요! 오늘은 LG AI Research에서 개발한 최신 AI 모델 EXAONE 3.5에 대해 소개해드리겠습니다. EXAONE 3.5는 Instruction-tuned 대규모 언어 모델로, 세 가지 크기로 제공되며, 긴 맥락 이해 능력과 명령어 수행 능력을 통해 한국어와 영어를 포함한 다양한 언어 작업에서 사용될 수 있습니다. 이 블로그에서는 EXAONE 3.5의 주요 특징과 주요 기능, 다양한 벤치마크 결과를 살펴보고, 코딩, 수학, 추론성능을 테스트해 보겠습니다.
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
EXAONE 3.5 개요
EXAONE 3.5는 최신 디코더 전용 Transformer 아키텍처를 기반으로 32B, 7.8B, 2.4B 세 가지 구성으로 제공되며, 세 가지 모델 모두 최대 32K 토큰의 긴 맥락 처리를 지원하고, 실생활 시나리오에서 뛰어난 명령어 수행 능력, 긴 맥락 이해 능력을 통해 다양한 벤치마크에서 최첨단 오픈 모델과 비교해서 경쟁력 있는 결과를 보여줍니다. EXAONE 3.5는 한국어와 영어를 모두 지원하고, 연구 목적으로 누구나 사용할 수 있으며, Huggingface에서 다운로드할 수 있습니다.
EXAONE 3.5 모델 종류 및 특징은 다음과 같습니다.
모델 크기 | 훈련 토큰 수 | 주요 특징 |
EXAONE-3.5-32B | 6.5T | - 가장 큰 모델, 뛰어난 성능 - 긴 맥락 처리 (최대 32,768 토큰) - 실생활 사용 사례 및 긴 맥락 벤치마크에서 최상위 성능 |
EXAONE-3.5-7.8B | 9T | - EXAONE 3.0과 동일한 크기, 성능 향상 - 긴 맥락 처리 (최대 32,768 토큰) - 실생활 사용 사례 및 긴 맥락 벤치마크에서 높은 성능 |
EXAONE-3.5-2.4B | 6.5T | - 가장 작은 모델, 리소스 제한적인 환경에 최적화 - 긴 맥락 처리 (최대 32,768 토큰) - 낮은 훈련 및 배포 비용으로 유사 크기 모델 대비 높은 성능 |
- 한국어 및 영어 이중 언어 기능: EXAONE 3.0의 강력한 이중 언어 기능을 계승했습니다.
- 다양한 모델 크기: 2.4B, 7.8B, 32B 세 가지 크기로 제공되어 다양한 사용자 요구를 충족합니다.
- 긴 맥락 처리: 최대 32,768 토큰의 긴 맥락 처리를 지원하여 RAG 기술과 같은 고급 애플리케이션에 적합합니다.
- 효율적인 훈련 비용: 다른 유사한 크기의 모델에 비해 훈련 비용이 낮습니다.
https://huggingface.co/LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct-GGUF/tree/main
EXAONE 3.5 벤치마크 결과
EXAONE 3.5는 실생활 사용 사례, 긴 맥락, 일반 영역 세 가지 범주로 분류된 벤치마크에서 평가되었습니다. 범주별 벤치마크와 평가내용은 다음과 같습니다.
분류 | 벤치마크 | 평가내용 |
실생활 사용 사례 | MT-Bench, LiveBench, Arena-Hard, AlpacaEval, IFEval, KoMT-Bench, LogicKor | 다양한 사용자 지시 이해 및 수행 능력을 요구하는 벤치마크 |
긴 맥락 | Needle-In-A-Haystack, LongBench, LongRAG, Ko-LongRAG, Ko-WebRAG | 긴 컨텍스트 이해 능력을 평가하는 벤치마크 |
일반 영역 | GSM8K, MATH, HumanEval, MBPP, GPQA, ARC-C, BBH, MMLU, KMMLU | LLM이 갖춰야 할 일반적인 능력을 포함하는 벤치마크. 수학 문제 해결 능력, 소스 코드 작성 능력, LLM에 내장된 매개변수 지식 측정 벤치마크 포함 |
EXAONE 3.5 32B 및 7.8B 모델은 실제 사용 사례 및 긴 컨텍스트 범주에서 비교대상 모델 대비 가장 높은 성능을 보였으며, 일반 도메인 범주에서도 경쟁력 있는 결과를 나타냈습니다. 가장 작은 모델인 EXAONE 3.5 2.4B는 세 가지 범주 모두에서 유사한 크기의 기준 모델보다 뛰어난 성능을 보였으며, 일반 도메인에서는 9B보다 작은 크기의 기준 모델(Qwen 2.5 7B 제외)보다도 더 나은 성능을 보였습니다.
실제 사용 사례 범주에서 EXAONE 3.5는 32B 모델이 LIVEBENCH에서 Qwen 2.5 32B에 뒤진 것을 제외하고 모든 벤치마크에서 기준 모델보다 뛰어난 성능을 기록했습니다. 영어 및 한국어 벤치마크 모두에서 다른 모델보다 뛰어난 성능을 보여 EXAONE 3.5 모델의 우수한 이중 언어 능력을 입증했습니다.
긴 컨텍스트 범주에서 EXAONE 3.5는 Needle-In-A-Haystack 테스트에서 영어와 한국어 텍스트 모두에서 다양한 문서 깊이와 컨텍스트 길이에 걸쳐 거의 완벽한 정확도로 대상 정보를 검색했습니다. LongBench에서는 32B 및 7.8B 모델이 Qwen 2.5에 뒤쳐졌지만, 나머지 벤치마크에서는 모든 EXAONE 3.5 모델이 기준 모델보다 우수한 성능을 보였습니다.
일반 도메인 범주에서 EXAONE 3.5 32B 및 7.8B 모델은 유사한 크기의 기준 모델과 비교하여 경쟁력 있는 성능을 보였습니다. EXAONE 3.5 2.4B 모델은 평균 점수에서 모든 기준 모델보다 뛰어난 성능을 나타냈습니다.
EXAONE 3.5 사용 방법
EXAONE 3.5는 Huggingface에서 다운로드하여 연구 목적으로 사용할 수 있습니다. 상업적 용도는 LG AI Research에 문의해야 합니다. 모델을 쉽게 사용할 수 있는 방법은 Open WebUI를 활용하는 방법입니다. Open WebUI의 설치와 자세한 사용방법은 아래 링크를 참고하시면 됩니다.
2024.07.31 - [AI 도구] - Open-WebUI: 🔍실시간 웹 검색과 개인 메모리 기능을 갖춘 LLM 실행기
1. Open WebUI를 실행하고 관리자 패널-설정-연결 메뉴로 이동합니다.
2. Ollama API의 관리 아이콘을 클릭하고, Ollama.com에서 모델 가져오기 아래 입력창에 "hf.co/LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct-GGUF"를 입력합니다. (시스템 성능에 따라 2.4B, 32B 모델 선택)
3. 모델 다운로드가 완료되면 대화를 시작합니다.
EXAONE 3.5 성능 테스트
다음은 EXAONE 3.5 모델의 코딩과 수학, 추론성능을 실제로 테스트해 보겠습니다. 이전 모델인 exaone-3.0-7.8B-it-Q5_K_M.gguf의 테스트 결과는 아래에 이전 포스팅을 참고하시면 되겠습니다.
2024.08.11 - [AI 언어 모델] - 🚀EXAONE 3.0 7.8B 리뷰: LG AI 연구소의 혁신적인 언어 모델
1. 코딩 테스트
코딩 테스트는 edabit.com 코딩 교육 사이트 Python, JavaScript, C++에 대하여 테스트하였으며, 재시도 없이 첫 번째 시도의 채점결과를 그대로 반영하였습니다.
코딩 테스트의 결과는 다음과 같습니다. 총 12문제 중 4문제를 맞혔으며, 코딩 성능은 개선이 필요해 보입니다.
EXAONE-3.5-7.8B/Pass@1 | Medium | Hard | Very Hard | Expert |
Python | Pass | Fail | Fail | Fail |
JavaScript | Pass | Fail | Fail | Fail |
C++ | Fail | Pass | Pass | Fail |
2. 수학 성능 테스트: 기초 대수, 기하학, 확률, 수열, 최적화, 복합 문제 총 6문제로 테스트하였습니다.
No. | 문제 구분 | 문제 | EXAONE 3.5 |
1 | 기초 대수 문제 | 두 숫자 𝑥 x와 𝑦 y가 있습니다. 이들이 만족하는 식은 3 𝑥 + 4 𝑦 = 12 3x+4y=12이며, 𝑥 − 2 𝑦 = 1 x−2y=1입니다. 𝑥 x와 𝑦 y의 값을 구하세요 | Pass |
2 | 기하학 문제 | 반지름이 7cm인 원의 넓이를 구하세요. 𝜋 = 3.14159 π=3.14159로 계산하세요. | Pass |
3 | 확률 문제 | 주사위를 두 번 던졌을 때, 두 숫자의 합이 7이 될 확률을 구하세요. | Pass |
4 | 수열 문제 | 첫 번째 항이 3이고, 공차가 5인 등차수열의 10번째 항을 구하세요. | Pass |
5 | 최적화 문제 | 어떤 직사각형의 둘레가 36cm입니다. 이 직사각형의 넓이를 최대화하려면 가로와 세로의 길이는 각각 얼마여야 하나요? | Pass |
6 | 복합 문제 | 복소평면에서 다음 극한값을 구하시오. lim[n→∞] (1 + i/n)^(n^2) 여기서 i는 허수단위 (i^2 = -1)입니다. | Fail |
수학 성능 테스트 결과, EXAONE 3.5 모델은 복합 문제를 제외한 모든 문제를 맞혔습니다.
3. 추론 테스트
다음은 추론 테스트입니다. 문제는 총 6문제이며, EXAONE 3.0 모델과 비교한 결과는 아래와 같습니다.
No. | 문제 | EXAONE 3.0 | EXAONE 3.5 |
1 | 5학년과 6학년 학생 160명이 나무 심기에 참가하였습니다. 6학년 학생들이 각각 평균5그루,5학년 학생들이 각각 평균 3그루씩 심은 결과 모두 560그루를 심었습니다. 나무심기에 참가한 5,6학년 학생은 각각 몇명일까요? | Pass | Pass |
2 | 베티는 새 지갑을 위해 돈을 모으고 있습니다. 새 지갑의 가격은 $100입니다. 베티는 필요한 돈의 절반만 가지고 있습니다. 그녀의 부모는 그 목적을 위해 $15를 주기로 결정했고, 할아버지와 할머니는 그녀의 부모들의 두 배를 줍니다. 베티가 지갑을 사기 위해 더 얼마나 많은 돈이 필요한가요? | Pass | Pass |
3 | 전국 초등학생 수학경시대회가 열렸는데 영희,철수,진호 세사람이 참가했습니다. 그들은 서울,부산,인천에서 온 학생이고 각각 1등,2등,3등 상을 받았습니다. 다음과 같은 사항을 알고 있을때 진호는 어디에서 온 학생이고 몇등을 했습니까? 1) 영희는 서울의 선수가 아닙니다. 2) 철수는 부산의 선수가 아닙니다. 3)서울의 선수는 1등이 아닙니다. 4) 부산의 선수는 2등을 했습니다. 5)철수는 3등이 아닙니다. | Fail | Pass |
4 | 방 안에는 살인자가 세 명 있습니다. 어떤 사람이 방에 들어와 그중 한 명을 죽입니다. 아무도 방을 나가지 않습니다. 방에 남아 있는 살인자는 몇 명입니까? 단계별로 추론 과정을 설명하세요. | Fail | Fail |
5 | A marble is put in a glass. The glass is then turned upside down and put on a table. Then the glass is picked up and put in a microwave. Where's the marble? Explain your reasoning step by step. | Fail | Fail |
6 | 도로에 5대의 큰 버스가 차례로 세워져 있는데 각 차의 뒤에 모두 차의 목적지가 적혀져 있습니다. 기사들은 이 5대 차 중 2대는 A시로 가고, 나머지 3대는 B시로 간다는 사실을 알고 있지만 앞의 차의 목적지만 볼 수 있습니다. 안내원은 이 몇 분의 기사들이 모두 총명할 것으로 생각하고 그들의 차가 어느 도시로 가야 하는지 목적지를 알려 주지 않고 그들에게 맞혀 보라고 하였습니다. 먼저 세번째 기사에게 자신의 목적지를 맞혀 보라고 하였더니 그는 앞의 두 차에 붙여 놓은 표시를 보고 말하기를 "모르겠습니다." 라고 말하였습니다. 이것을 들은 두번째 기사도 곰곰히 생각해 보더니 "모르겠습니다." 라고 말하였습니다. 두명의 기사의 이야기를 들은 첫번째 기사는 곰곰히 생각하더니 자신의 목적지를 정확하게 말하였습니다. 첫번째 기사가 말한 목적지는 어디입니까? | Pass | Pass |
추론 테스트에서 EXAONE 3.5은 6문제 중 4문제를 맞혔으며, 3.0 모델보다 약간 개선된 모습을 보였습니다.
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
맺음말
EXAONE 3.5는 한국어와 영어를 포함한 다양한 언어에서 강력한 성능을 발휘하며, 긴 맥락 이해와 명령어 수행 능력으로 여러 벤치마크에서 뛰어난 결과를 보여주었습니다. 다양한 모델 크기와 효율적인 훈련 비용을 통해 사용자 요구에 맞는 선택지를 제공하며, 연구 목적으로 누구나 활용할 수 있다는 점에서 매력적입니다.
EXAONE 3.5의 특징과 성능을 살펴보면서, 인공지능이 실제 생활과 연구에 어떻게 기여할 수 있는지 확인할 수 있었습니다. 이 모델이 앞으로 다양한 분야에서 실질적인 가치를 제공하기를 기대합니다. 여러분도 EXAONE 3.5를 직접 테스트하고, 그 가능성을 경험해 보시기 바랍니다. 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.
2024.08.11 - [AI 언어 모델] - 🚀EXAONE 3.0 7.8B 리뷰: LG AI 연구소의 혁신적인 언어 모델
'AI 언어 모델' 카테고리의 다른 글
✨Gemini 2.0 Flash Thinking: OpenAI o1과 경쟁할 추론 모델의 등장! (37) | 2024.12.20 |
---|---|
👀🔊🤖 Gemini 2.0 출시: 보고 듣고 말하는 멀티모달 라이브 챗봇을 지금 만나보세요. (12) | 2024.12.14 |
🦙Llama 3.3: Claude 3.5 Sonnet 따라잡은 메타의 최신 AI 언어 모델 (114) | 2024.12.08 |
👁️PaliGemma 2: 구글의 최신 오픈소스 비전-언어 모델(VLM) (97) | 2024.12.08 |
🚀Motif: KMMLU에서 GPT-4o를 뛰어넘은 한국어 오픈소스 LLM (115) | 2024.12.05 |