안녕하세요! 오늘은 SK텔레콤이 새롭게 공개한 차세대 한국어 특화 대규모 언어 모델, A.X 4.0에 대해 알아보겠습니다. 이 모델은 기존의 오픈소스 LLM을 넘어, 한국어 활용에 최적화된 AI로 큰 주목을 받고 있습니다. 특히 A.X 4.0은 단순히 한국어를 잘 이해하는 수준을 넘어, 방대한 문서 처리와 고도의 추론 능력, 효율적인 토큰 처리까지 폭넓은 기능을 탑재하고 있다는 점이 돋보입니다. 두 가지 버전으로 공개된 A.X 4.0은 72B 모델의 우수한 성능과 7B 경량 모델의 빠르고 유연한 응답을 모두 갖추어, 다양한 목적에 맞춰 손쉽게 선택해 활용할 수 있습니다. 이번 블로그에서는 SKT A.X 4.0의 전반적인 개요부터, 모델의 특징, 벤치마크 및 자체 테스트 결과까지 꼼꼼히 살펴보겠습니다.
1. SKT A.X 4.0 개요
SKT A.X 4.0은 SK텔레콤이 개발한 뛰어난 한국어 처리 능력을 자랑하는 한국어 특화 대규모 언어 모델(LLM)입니다. 이 모델은 2025년 7월 3일 세계적인 오픈소스 커뮤니티인 허깅페이스(Hugging Face)를 통해 오픈소스로 공개되었습니다.
A.X 4.0은 기존의 오픈소스 모델인 Qwen2.5에 방대한 한국어 데이터를 추가로 학습시켜 국내 비즈니스 환경에 최적화된 성능을 발휘하도록 설계되었습니다.
특히, 기업 활용성을 높이는 데 중점을 두었으며, 현존 LLM 중에서도 최상급의 한국어 처리 효율성은 물론 데이터 보안을 고려한 설계와 로컬 환경에서의 운영 가능성이 강점으로 꼽힙니다. SK텔레콤은 A.X 4.0을 두 가지 버전으로 공개했습니다:
- 표준 모델: 720억 개(72B) 매개변수를 가집니다.
- 경량 모델: 70억 개(7B) 매개변수를 가진 버전입니다.
이러한 모델 라인업은 이용자들이 목적과 필요에 따라 유연하게 선택할 수 있도록 합니다.
https://huggingface.co/skt/A.X-4.0
skt/A.X-4.0 · Hugging Face
A.X 4.0 🤗 Models | 💬 Chat | 📬 APIs (FREE!) | 🖥️ Github A.X 4.0 Family Highlights SK Telecom released A.X 4.0 (pronounced "A dot X"), a large language model (LLM) optimized for Korean-language understanding and enterprise deployment, on July 0
huggingface.co
2. SKT A.X 4.0 특징 및 주요 기능
A.X 4.0은 한국어 환경에 최적화된 다양한 특징과 핵심 기술을 보유하고 있습니다.
1) 뛰어난 한국어 실력 및 한국 문화 이해도:
- 대표적인 한국어 능력 평가 벤치마크인 KMMLU에서 78.3점을 기록하여, GPT-4o(72.5점) 보다 우수한 성능을 보였습니다.
- 한국어 및 한국 문화 벤치마크 CLIcK에서도 83.5점을 획득, GPT-4o(80.2점) 보다 더 높은 한국 문화 이해도를 입증했습니다.
아래 링크를 클릭하시면 A.X 4.0의 한국 문화 관련 응답을 자세히 확인하실 수 있습니다.
https://korean-site-eec.windsurf.build/
https://korean-site-eec.windsurf.build/
덕담의 의미와 중요성 덕담이란? 덕담(德談): '덕'은 '덕(德)'으로, '좋은 덕'이나 '복'을 의미하고, '담'은 '이야기'를 뜻합니다. 따라서 덕담은 상대방에게 좋은 일이 생기길 바라는 마음을 담아
korean-site-eec.windsurf.build
2) 효율적인 토큰 처리:
- SK텔레콤은 A.X 4.0의 토크나이저를 자체 설계하고 적용하여 높은 수준의 한국어 처리 역량을 구현했습니다.
- 같은 한국어 문장을 입력했을 때 A.X 4.0이 GPT-4o보다 약 33%가량 높은 토큰 효율을 기록했습니다. 이는 약 1.5배 더 많은 한국어 정보를 처리할 수 있고, 토큰 수가 줄어들어 처리 비용을 34% 정도 절감할 수 있다는 의미입니다. 특히 문서 요약이나 검색 증강 생성(RAG) 등 긴 글을 다루는 기업 환경에서 운영 비용 절감에 크게 기여할 수 있습니다.
3) 방대한 정보 처리 (Long Context Handling):
- 표준 모델은 최대 131,072 토큰에 이르는 긴 문서나 대화도 한 번에 이해하고 처리할 수 있습니다.
- 경량 모델은 최대 16,384 토큰 길이를 지원합니다.
4) 배포 옵션 및 데이터 보안:
- A.X 4.0은 기업 내부 서버에 직접 설치하여 사용할 수 있는 온프레미스(On-premises) 방식을 지원합니다. 이는 데이터 유출에 민감한 기업들도 데이터 보안 걱정 없이 AI 기술을 활용할 수 있도록 돕습니다.
- 대규모 학습(CPT) 전 과정을 외부 연동 없이 자체 데이터로 학습하여 데이터 주권을 확보했습니다.
5) 핵심 기술:
- 한국어 특화 토크나이저 적용: 한국어의 고유한 특성을 잘 이해하도록 최적화된 토크나이저를 사용하며, 한국어의 다양한 표현과 문맥을 효과적으로 파악합니다.
- 한국어 이해와 생성 능력을 향상시키는 학습 데이터 구성: 웹에서 추출한 고품질 데이터, 전문 서적, 합성 데이터를 포함한 대규모 고품질 한국어 데이터셋을 활용했습니다. 또한, 다양한 분야에서 균형 있게 높은 성능을 발휘하도록 주제별로 분류된 데이터셋을 구성했으며, 한국어 42%, 영어 51%, 기타 언어 및 코드 7%로 언어 간 균형을 유지했습니다.
- 지속적 사전학습: 대규모 한국어 코퍼스를 활용해 한국어 이해력 및 전반적인 언어 능력 향상.
- 지도 미세조정(Supervised Fine-Tuning, SFT): 고품질 한국어 데이터셋으로 다양한 지시 및 질문에 정확하게 응답하도록 미세조정.
- 강화학습(Reinforcement Learning from Human Feedback, RLHF): 사용자 피드백을 반영하여 인간 선호에 부합하는 응답 생성.
3. SKT A.X 4.0 벤치마크 결과
A.X 4.0은 다양한 벤치마크 평가에서 우수한 성능을 입증했습니다.
1) A.X 4.0 (지식형 모델, 72B) 주요 벤치마크 결과:
평가지표 | 측정 영역 | A.X 4.0 (72B) | GPT-4o | Qwen3 (235B MoE) |
KMMLU | 한국어 전문 지식 이해 | 78.3 | 72.5 | 70.6 |
CLIcK | 한국 문화 맥락 이해 | 83.5 | 80.2 | 77.9 |
Ko-IFEval | 작업 지시 수행 정확도 | 78.0 | 75.4 | 77.7 |
평 균 | 79.9 | 76.0 | 75.4 |
Hugging Face에 공개된 A.X 4.0의 상세 성능 벤치마크는 다음과 같습니다:
Benchmarks | A.X 4.0 | Qwen3-235B-A22B (w/o reasoning) | Qwen2.5-72B | GPT-4o |
Knowledge | ||||
KMMLU | 78.32 | 73.64 | 66.44 | 72.51 |
CLIcK | 83.51 | 74.55 | 72.59 | 80.22 |
KoBALT | 47.30 | 41.57 | 37.00 | 44.00 |
MMLU | 86.62 | 87.37 | 85.70 | 88.70 |
General | ||||
Ko-MT-Bench | 86.69 | 88.00 | 82.69 | 88.44 |
MT-Bench | 83.25 | 86.56 | 93.50 | 88.19 |
LiveBench2024.1 | 52.30 | 64.50 | 54.20 | 52.19 |
Instruction Following | ||||
Ko-IFEval | 77.96 | 77.53 | 77.07 | 75.38 |
IFEval | 86.05 | 85.77 | 86.54 | 83.86 |
Math | ||||
HRM8K | 48.55 | 54.52 | 46.37 | 43.27 |
MATH | 74.28 | 72.72 | 77.00 | 72.38 |
Code | ||||
HumanEval+ | 79.27 | 79.27 | 81.71 | 86.00 |
MBPP+ | 73.28 | 70.11 | 75.66 | 75.10 |
LiveCodeBench2024.1 | 26.07 | 33.09 | 27.58 | 29.30 |
Long Context | ||||
LongBench<128K | 56.70 | 49.40 | 45.60 | 47.50 |
Tool-use | ||||
FunctionChatBench | 85.96 | 82.43 | 88.30 | 95.70 |
2) A.X 4.0 Light (7B) 주요 벤치마크 결과:
Benchmarks | A.X 4.0 Light | Qwen3-8B (w/o reasoning) | Qwen2.5-7B | EXAONE-3.5-7.8B | Kanana-1.5-8B |
Knowledge | |||||
KMMLU | 64.15 | 63.53 | 49.56 | 53.76 | 48.28 |
CLIcK | 68.05 | 62.71 | 60.56 | 64.30 | 61.30 |
KoBALT | 30.29 | 26.57 | 21.57 | 21.71 | 23.14 |
MMLU | 75.43 | 82.89 | 75.40 | 72.20 | 68.82 |
General | |||||
Ko-MT-Bench | 79.50 | 64.06 | 61.31 | 81.06 | 76.30 |
MT-Bench | 81.56 | 65.69 | 79.37 | 83.50 | 77.60 |
LiveBench | 37.10 | 50.20 | 37.00 | 40.20 | 29.40 |
Instruction Following | |||||
Ko-IFEval | 72.99 | 73.39 | 60.73 | 65.01 | 69.96 |
IFEval | 84.68 | 85.38 | 76.73 | 82.61 | 80.11 |
Math | |||||
HRM8K | 40.12 | 52.50 | 35.13 | 31.88 | 30.87 |
MATH | 68.88 | 71.48 | 65.58 | 63.20 | 59.28 |
Code | |||||
HumanEval+ | 75.61 | 77.44 | 74.39 | 76.83 | 76.83 |
MBPP+ | 67.20 | 62.17 | 68.50 | 64.29 | 67.99 |
LiveCodeBench | 18.03 | 23.93 | 16.62 | 17.98 | 16.52 |
SKT A.X 4.0 (72B)은 한국어 전문 지식(KMMLU 78.32점) 및 한국 문화 이해도(CLIcK 83.51점)에서 GPT-4o를 능가하며, 경량 A.X 4.0 Light (7B) 또한 KMMLU 64.15점, CLIcK 68.05점으로 다른 7B급 모델 대비 뛰어난 한국어 성능을 보입니다.
4. SKT A.X 4.0 사용 방법
현재 A.X 4.0은 https://sktax.chat/chat 사이트에서 쉽게 사용하실 수 있습니다.
https://sktax.chat/chat
sktax.chat
또한 Hugging Face를 통해 Transformers 라이브러리 및 vLLM을 활용한 코드 예시가 제공됩니다.
- Hugging Face Transformers: transformers 라이브러리 버전 4.46.0 이상이 필요하며, Python 코드 예시를 통해 모델 로드 및 한국어 번역과 같은 텍스트 생성 작업을 수행할 수 있습니다.
- vLLM: vLLM 버전 0.6.4.post1 이상이 필요하며, OpenAI 클라이언트를 사용하여 모델과 상호작용하는 예시가 제공됩니다. 또한, 도구 사용(tool-use) 기능 활성화를 위한 옵션도 지원합니다.
- 도구 사용(Tool-use) 예시: 할인 계산(calculate_discount)이나 환율 조회(get_exchange_rate)와 같은 외부 함수를 LLM이 호출하여 복잡한 사용자 요청을 처리하는 기능의 예시가 제공됩니다.
5. SKT A.X 4.0 성능 테스트
다음은 A.X 4.0 모델의 코딩, 수학, 추론 성능을 테스트해 보겠습니다. 코딩 성능은 코딩 교육 사이트 edabit.com의 Python, JavaScript, C++ 문제를 통해 테스트하고, 수학 문제는 기하학, 확률, 수열, 최적화, 복합 문제 등으로 구성된 6개의 문제를 사용했습니다. 모든 평가 항목은 재시도 없이 첫 번째 시도의 채점 결과를 그대로 반영하였습니다.
1) 코딩 테스트
테스트 결과, A.X 4.0은 C++ Expert 난이도를 제외하고 모든 문제를 모두 성공하였습니다. 아래 링크를 클릭하시면 A.X 4.0의 코딩 테스트 결과를 자세히 살펴보실 수 있습니다
https://code-site-eec.windsurf.build/
https://code-site-eec.windsurf.build/
Caesar's Cipher Julius Caesar protected his confidential information by encrypting it using a cipher. Caesar's cipher (check Resources tab for more info) shifts each letter by a number of letters. If the shift takes you past the end of the alphabet, just r
code-site-eec.windsurf.build
A.X 4.0 | Medium | Hard | Very Hard | Expert |
Python | Pass | Pass | Pass | Pass |
JavaScript | Pass | Pass | Pass | Pass |
C++ | Pass | Pass | Pass | Fail |
2) 수학 및 추론 테스트
수학 테스트에서 A.X 4.0는 기초 대수, 기하학, 확률, 수열, 최적화 등 여섯 문제를 모두 성공하였으며, 추론 테스트에서는 살인자 문제와 버스 문제를 제외한 문제를 성공하였습니다. 아래 링크를 클릭하시면 A.X 4.0의 테스트 결과를 자세히 살펴보실 수 있습니다
https://chat-html-eec.windsurf.build/
https://chat-html-eec.windsurf.build/
전국 초등학생 수학경시대회가 열렸는데 영희,철수,진호 세사람이 참가했습니다. 그들은 서울,부산,인천에서 온 학생이고 각각 1등,2등,3등 상을 받았습니다. 다음과 같은 사항을 알고 있을때 진
chat-html-eec.windsurf.build
No. | 문제 구분 | 문제 | A.X 4.0 |
1 | 기초 대수 문제 | 두 숫자 𝑥 x와 𝑦 y가 있습니다. 이들이 만족하는 식은 3 𝑥 + 4 𝑦 = 12 3x+4y=12이며, 𝑥 − 2 𝑦 = 1 x−2y=1입니다. 𝑥 x와 𝑦 y의 값을 구하세요 | Pass |
2 | 기하학 문제 | 반지름이 7cm인 원의 넓이를 구하세요. 𝜋 = 3.14159 π=3.14159로 계산하세요. | Pass |
3 | 확률 문제 | 주사위를 두 번 던졌을 때, 두 숫자의 합이 7이 될 확률을 구하세요. | Pass |
4 | 수열 문제 | 첫 번째 항이 3이고, 공차가 5인 등차수열의 10번째 항을 구하세요. | Pass |
5 | 최적화 문제 | 어떤 직사각형의 둘레가 36cm입니다. 이 직사각형의 넓이를 최대화하려면 가로와 세로의 길이는 각각 얼마여야 하나요? | Pass |
6 | 복합 문제 | 복소평면에서 다음 극한값을 구하시오. lim[n→∞] (1 + i/n)^(n^2) 여기서 i는 허수단위 (i^2 = -1)입니다. | Pass |
No. | 문제 | A.X 4.0 |
1 | 5학년과 6학년 학생 160명이 나무 심기에 참가하였습니다. 6학년 학생들이 각각 평균5그루,5학년 학생들이 각각 평균 3그루씩 심은 결과 모두 560그루를 심었습니다. 나무심기에 참가한 5,6학년 학생은 각각 몇명일까요? | Pass |
2 | 베티는 새 지갑을 위해 돈을 모으고 있습니다. 새 지갑의 가격은 $100입니다. 베티는 필요한 돈의 절반만 가지고 있습니다. 그녀의 부모는 그 목적을 위해 $15를 주기로 결정했고, 할아버지와 할머니는 그녀의 부모들의 두 배를 줍니다. 베티가 지갑을 사기 위해 더 얼마나 많은 돈이 필요한가요? | Pass |
3 | 전국 초등학생 수학경시대회가 열렸는데 영희,철수,진호 세사람이 참가했습니다. 그들은 서울,부산,인천에서 온 학생이고 각각 1등,2등,3등 상을 받았습니다. 다음과 같은 사항을 알고 있을때 진호는 어디에서 온 학생이고 몇등을 했습니까? 1) 영희는 서울의 선수가 아닙니다. 2) 철수는 부산의 선수가 아닙니다. 3)서울의 선수는 1등이 아닙니다. 4) 부산의 선수는 2등을 했습니다. 5)철수는 3등이 아닙니다. | Pass |
4 | 방 안에는 살인자가 세 명 있습니다. 어떤 사람이 방에 들어와 그중 한 명을 죽입니다. 아무도 방을 나가지 않습니다. 방에 남아 있는 살인자는 몇 명입니까? 단계별로 추론 과정을 설명하세요. | Fail |
5 | A marble is put in a glass. The glass is then turned upside down and put on a table. Then the glass is picked up and put in a microwave. Where's the marble? Explain your reasoning step by step. | Pass |
6 | 도로에 5대의 큰 버스가 차례로 세워져 있는데 각 차의 뒤에 모두 차의 목적지가 적혀져 있습니다. 기사들은 이 5대 차 중 2대는 A시로 가고, 나머지 3대는 B시로 간다는 사실을 알고 있지만 앞의 차의 목적지만 볼 수 있습니다. 안내원은 이 몇 분의 기사들이 모두 총명할 것으로 생각하고 그들의 차가 어느 도시로 가야 하는지 목적지를 알려 주지 않고 그들에게 맞혀 보라고 하였습니다. 먼저 세번째 기사에게 자신의 목적지를 맞혀 보라고 하였더니 그는 앞의 두 차에 붙여 놓은 표시를 보고 말하기를 "모르겠습니다." 라고 말하였습니다. 이것을 들은 두번째 기사도 곰곰히 생각해 보더니 "모르겠습니다." 라고 말하였습니다. 두명의 기사의 이야기를 들은 첫번째 기사는 곰곰히 생각하더니 자신의 목적지를 정확하게 말하였습니다. 첫번째 기사가 말한 목적지는 어디입니까? | Fail |
전반적으로 테스트해 본 결과, A.X 4.0 모델은 응답속도가 매우 빠르며, 코딩이나 수학, 추론 성능도 Qwen, GPT-4o 등 다른 상용모델과 어깨를 나란히 하는 성능을 보여주었습니다. 아직 이미지 프롬프트나 채팅기록 저장/공유 기능, API 방식 등은 지원하지 않아 개선이 필요한 부분도 있었습니다.
6. 맺음말
SKT A.X 4.0은 강력한 한국어 처리 능력과 다양한 환경에서의 활용성에 초점을 맞춘 대규모 언어 모델입니다. 뛰어난 한국어 처리 효율성, 데이터 보안을 고려한 온프레미스 설계, 그리고 로컬 환경에서의 운영 가능성 등을 통해 국내 AI 생태계의 활성화를 이끌고, 기업들의 AI 기술 활용 장벽을 크게 낮출 것으로 기대됩니다.
SKT A.X 4.0은 특히 논리 추론과 수학 분야에서 지금까지 국산 언어 모델에서 볼 수 없었던 우수한 문제해결 성능을 보여줍니다. 여러분도 한번 국산 언어 모델의 새로운 기준을 제시한 A.X 4.0을 직접 체험해 보시기를 추천드리면서, 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.
2023.11.03 - [AI 도구] - KT 인공지능 믿음(Mi:deum)을 간단한 예제로 만나보세요
KT 인공지능 믿음(Mi:deum)을 간단한 예제로 만나보세요
안녕하세요. 오늘은 kt에서 개발한 인공지능 언어모델 "믿음(Mi:deum)"을 예제를 통해 살펴보겠습니다. 생성 AI의 난제인 ‘할루시네이션’(오정보 생성) 현상을 70% 해결했다고 밝혔는데요. 구글 바
fornewchallenge.tistory.com
'AI 언어 모델' 카테고리의 다른 글
🛠️🤖🔓Kimi K2: 오픈소스 에이전트 AI 시대의 개막 (14) | 2025.07.16 |
---|---|
🇰🇷🤖🕵️♂️솔라 프로 2: 업스테이지의 에이전트형 대규모 언어 모델 (14) | 2025.07.11 |
💨🧠✨🤖Magistral: 미스트랄 AI 최초의 추론 언어 모델 (12) | 2025.06.17 |
🐋딥시크-R1-0528: 더욱 깊어진 사고력으로 Gemini 2.5를 따라잡다 (12) | 2025.06.01 |
🏆Claude 4: Gemini 2.5 Pro를 능가하는 앤트로픽의 차세대 언어 모델 (22) | 2025.05.25 |