🤖 LFM2.5-8B-A1B: 8B 파라미터 1.5B만 활성화하는 온디바이스 AI MoE 모델 완벽 분석

안녕하세요! 오늘은 Liquid AI가 새롭게 출시한 LFM2.5-8B-A1B 모델에 대해 알아보겠습니다. 이 모델은 8.3B 전체 파라미터 중 추론 시 1.5B만 활성화하는 하이브리드 MoE(Mixture of Experts) 구조로, 엣지 디바이스와 개인 AI 어시스턴트에 최적화된 설계를 갖추고 있습니다. 특히 131,072 토큰의 초장문 컨텍스트 처리와 9개 언어 지원, 도구 사용(Function Calling) 기능을 제공합니다. 이 블로그에서는 LFM2.5-8B-A1B의 핵심 특징, 성능 벤치마크, 다양한 포맷(GGUF, ONNX, MLX) 활용법, 실제 추론 테스트 방법까지 상세히 설명하겠습니다. 바로 시작해볼까요?

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."

🤖 LFM2.5-8B-A1B란 무엇인가?

LFM2.5-8B-A1B는 Liquid AI가 개발한 하이브리드 MoE(Mixture of Experts) 기반 텍스트 생성 모델입니다. 모델 이름의 각 부분은 다음 의미를 담고 있습니다:

LFM = Liquid Foundation Model (Liquid AI의 기반 모델 시리즈)

2.5 = 2세대의 개선 버전

8B = 전체 파라미터 8.3B

A1B = Active 1B, 추론 시 활성화되는 파라미터 1.5B

이 모델의 가장 큰 특징은 효율적인 MoE 구조입니다. 전체 8.3B 파라미터 중 실제 추론 시 1.5B만 활성화되므로, 일반 1.5B 모델과 비슷한 메모리와 처리 속도를 유지하면서 8B급 모델의 성능을 제공합니다. 이는 엣지 디바이스, 개인용 PC, 스마트폰 등 온디바이스 AI 환경에서 실행하기에 이상적입니다.

⚙️ 아키텍처 및 핵심 사양

LFM2.5-8B-A1B는 Liquid AI가 독자적으로 개발한 LIV(Long Input Vector) 컨볼루션과 GQA(Grouped Query Attention)을 결합한 하이브리드 구조를 사용합니다:

사양	값	설명
전체 파라미터	`8.3B`	모델의 전체 파라미터 수
활성화 파라미터	`1.5B`	추론 시 실제 사용되는 파라미터
레이어 수	`24`	18개 LIV conv + 6개 GQA 레이어
컨텍스트 길이	`131,072`	최대 131K 토큰 처리 가능
어휘 크기	`128,000`	다국어 지원용 확장 어휘
훈련 토큰	`38T`	38조 토큰으로 훈련
지원 언어	`9`	영어, 아랍어, 중국어, 프랑스어, 독일어, 일본어, 한국어, 포르투갈어, 스페인어

아키텍처의 핵심 구성요소를 살펴보면:

💡 18개 Double-Gated LIV Convolution

LIV(Long Input Vector) 컨볼루션은 긴 입력을 효율적으로 처리하기 위한 Liquid AI의 독자 기술입니다. Double-Gated 구조로 불필요한 정보를 필터링하고 중요 정보만 선택적으로 처리합니다.

💡 6개 GQA(Grouped Query Attention)

GQA는 쿼리를 그룹화하여 KV 캐시 크기를 줄이는 기술입니다. 이로 인해 긴 컨텍스트 처리 시 메모리 사용량이 대폭 감소하여 131K 토큰도 실현 가능합니다.

📊 성능 벤치마크 분석

LFM2.5-8B-A1B는 이전 버전 LFM2-8B-A1B와 비교하여 모든 벤치마크에서 상당한 성능 향상을 보여줍니다:

벤치마크	LFM2-8B-A1B	LFM2.5-8B-A1B	향상
IFEval	79.44	91.84	+12.40
MATH500	74.80	88.76	+13.96
AIME25	20.00	42.53	+22.53
BFCLv3	45.07	64.36	+19.29
Tau² Telecom	13.60	88.07	+74.47

특히 주목할 성능 향상 포인트:

IFEval 91.84점: 지시 수행 능력이 91% 이상으로, 실제 도구 사용과 에이전트 워크플로우에 매우 적합합니다.
MATH500 88.76점: 수학 문제 해결 능력이 대폭 향상되어, 복잡한 계산과 논리 추론에 강점을 보입니다.
AIME25 42.53점: 고급 수학 경시대회(AIME) 수준 문제에서 42% 이상 해결, 이전 버전의 2배 이상 성능입니다.
Tau² Telecom +74.47점: 텔레컴 분야 작업에서 가장 큰 향상을 보여, 도메인 특화 작업에도 강점을 보입니다.

🚀 주요 기능 및 특징

LFM2.5-8B-A1B는 다음 핵심 기능을 제공합니다:

1. 명시적 추론(Explicit Chain-of-Thought)

이 모델은 답변 전에 추론 과정을 명시적으로 표시합니다. 복잡한 문제 해결 시 단계별로 생각 과정을 보여주며, 최종 답변을 제공합니다. 이는 AI의 신뢰성을 높이고 사용자가 답변의 논리를 이해할 수 있게 합니다.

2. 도구 사용(Tool Use / Function Calling)

Pythonic 또는 JSON 형식의 함수 호출을 지원합니다. 외부 API 연동, 데이터베이스 조회, 파일 시스템 접근 등 에이전트 워크플로우 구축에 필수적인 기능입니다.

3. 최고 수준 처리 속도

H100 GPU에서 18,500 토큰/초의 출력 속도를 달성합니다. 동급 모델 중 가장 빠른 throughput을 제공하여, 고동시성 서비스나 실시간 응답이 필요한 환경에 적합합니다.

4. 온디바이스 배포 최적화

엣지 디바이스, 개인용 PC, 스마트폰 등 로컬 환경에서 실행하기에 최적화된 설계입니다. 활성화 파라미터 1.5B로 일반 8GB GPU나 CPU에서도 원활하게 실행 가능합니다.

5. 다국어 지원

영어, 한국어, 중국어, 일본어, 아랍어, 프랑스어, 독일어, 포르투갈어, 스페인어 등 9개 언어를 지원합니다. 한국어도 포함되어 있어 한국 사용자에게도 직접 활용 가능합니다.

📦 다양한 포맷 지원

LFM2.5-8B-A1B는 다양한 실행 환경에 맞춰 여러 포맷으로 제공됩니다:

포맷	용도	환경
`LFM2.5-8B-A1B`	기본 포맷 (파인튜닝, Transformers)	vLLM, SGLang, Transformers
`LFM2.5-8B-A1B-GGUF`	엣지 추론, 로컬 실행	llama.cpp, Ollama
`LFM2.5-8B-A1B-ONNX`	크로스 플랫폼 배포	ONNX Runtime, 웹 브라우저
`LFM2.5-8B-A1B-MLX`	Apple Silicon 최적화	Mac M1/M2/M3/M4

각 포맷의 활용 방법을 살펴보겠습니다:

GGUF 포맷은 llama.cpp와 Ollama에서 사용할 수 있습니다. 로컬 PC에서 무료로 실행하기에 가장 적합한 포맷입니다. 모델 파일만 다운로드하면 별도 설치 없이 추론 가능합니다.

ONNX 포맷은 ONNX Runtime을 사용하여 Windows, Linux, Mac, 웹 브라우저 등 크로스 플랫폼에서 실행할 수 있습니다.

MLX 포맷은 Apple Silicon Mac에서 최적화된 성능을 제공합니다. M1/M2/M3/M4 칩의 GPU와 Neural Engine을 활용합니다.

💡 Hugging Face Transformers로 추론 테스트

LFM2.5-8B-A1B를 Hugging Face Transformers로 직접 테스트하는 방법을 살펴보겠습니다. 이 코드는 Colab이나 로컬 Python 환경에서 실행할 수 있습니다:

1. 모델 로드 및 기본 추론

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

model_id = "LiquidAI/LFM2.5-8B-A1B"

# 모델 로드 (bfloat16으로 자동 device_map 사용)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    dtype="bfloat16",
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

# ChatML 형식으로 입력 준비
input_ids = tokenizer.apply_chat_template(
    [{"role": "user", "content": "What is C. elegans?"}],
    add_generation_prompt=True,
    return_tensors="pt",
    tokenize=True,
).to(model.device)

# 추론 실행
output = model.generate(
    input_ids,
    do_sample=True,
    temperature=0.2,
    top_k=80,
    repetition_penalty=1.05,
    max_new_tokens=8192,
    streamer=streamer,
)

2. 추천 생성 파라미터

Liquid AI가 권장하는 파라미터 설정:

파라미터	값	설명
`temperature`	`0.2`	낮은 temperature로 정확한 답변 유도
`top_p`	`80`	top_k 대신 top_p 사용 가능
`repetition_penalty`	`1.05`	반복 방지를 위한 페널티
`max_new_tokens`	`8192`	최대 생성 토큰 수

3. Chat Template 구조

LFM2.5-8B-A1B는 ChatML과 유사한 템플릿을 사용합니다:

<|startoftext|><|im_start|>system
You are a helpful assistant trained by Liquid AI.<|im_end|>
<|im_start|>user
What is C. elegans?<|im_end|>
<|im_start|>assistant

시스템 메시지를 추가하여 모델의 역할을 정의할 수 있습니다. tokenizer.apply_chat_template() 함수가 자동으로 이 형식을 생성합니다.

🆓 GGUF로 로컬 무료 실행

GGUF 포맷을 사용하면 llama.cpp 또는 Ollama로 무료 로컬 실행이 가능합니다. GGUF 포맷을 다운로드하실때는 아래 포스트를 참고하셔서 안정적으로 사용하시기 바랍니다.

2026.05.27 - [AI 도구] - 🔒 {긴급 보안 알림] GGUF Parser 취약점: Ollama·LM Studio 로컬 AI 보안 대응 가이드

🔒 {긴급 보안 알림] GGUF Parser 취약점: Ollama·LM Studio 로컬 AI 보안 대응 가이드

안녕하세요! 오늘은 llama.cpp GGUF Parser 취약점에 대해 알아보겠습니다. 이 취약점은 2026년 5월 15일 공개되었으며, 정수 오버플로우를 통해 악성 모델 파일이 임의 메모리 읽기를 실행할 수 있는 치

fornewchallenge.tistory.com

Ollama로 실행하기

Ollama는 GGUF 모델을 쉽게 실행할 수 있는 도구입니다. 설치 후 다음 명령으로 모델을 실행합니다:

https://ollama.com/maternion/lfm2.5

maternion/lfm2.5

LFM2.5-8B-A1B is a fast, memory-efficient hybrid MoE language model with 8B total parameters and only 1B active per token, designed for high-quality on-device AI and edge deployment.

ollama.com

# Ollama 설치 (Linux/Mac) 및 모델 다운로드
curl -fsSL https://ollama.com/install.sh | sh
ollama run maternion/lfm2.5

# LFM2.5-8B-A1B GGUF 모델 다운로드 (Hugging Face에서 직접)
# GGUF 파일을 다운로드한 후:

# llama.cpp로 직접 실행
./llama-cli -m LFM2.5-8B-A1B-Q4_K_M.gguf -p "안녕하세요" -n 512

# 또는 llama-server로 API 서버 실행
./llama-server -m LFM2.5-8B-A1B-Q4_K_M.gguf --port 8080

Quantization 옵션

GGUF는 다양한 Quantization 옵션을 제공합니다:

Quantization	크기	메모리	성능
Q4_K_M	~4.5GB	~5GB VRAM	최고 속도
Q5_K_M	~5.5GB	~6GB VRAM	높은 정확도
Q6_K	~6GB	~7GB VRAM	거의 원본
Q8_0	~8GB	~9GB VRAM	원본 수준

Q4_K_M Quantization이 속도와 정확도의 최적 조합을 제공합니다. 8GB VRAM GPU에서도 실행 가능합니다.

🍎 Apple Silicon Mac에서 MLX로 실행

Mac M1/M2/M3/M4 사용자는 MLX 포맷을 사용하여 Apple Silicon의 GPU와 Neural Engine을 최대로 활용할 수 있습니다:

# MLX 설치
pip install mlx mlx-lm

# LFM2.5-8B-A1B MLX 모델 로드
from mlx_lm import load, generate

model, tokenizer = load("LiquidAI/LFM2.5-8B-A1B-MLX")

# 추론 실행
response = generate(
    model,
    tokenizer,
    prompt="안녕하세요, 한국어로 대화해주세요.",
    max_tokens=512,
    temp=0.2
)

print(response)

MLX는 Apple Silicon의 Unified Memory를 사용하여 CPU와 GPU 간 데이터 복사 없이 효율적으로 실행합니다.

🎯 최적 활용 사례

LFM2.5-8B-A1B의 특성에 맞는 활용 사례를 살펴보겠습니다:

✅ 추천 활용 사례

에이전트 워크플로우: 도구 사용 기능으로 API 연동, 파일 처리, 데이터베이스 조회 등 자동화
다국어 어시스턴트: 9개 언어 지원으로 국제 사용자 대응
온디바이스 개인 어시스턴트: 엣지 디바이스, 로컬 PC에서 프라이버시 보존 AI
구조화된 출력: JSON, Pythonic 형식의 함수 호출로 정확한 데이터 처리
초장문 문서 처리: 131K 토큰 컨텍스트로 긴 문서 분석

❌ 비추천 활용 사례

Heavy Programming: 복잡한 코드 작성, 대형 프로젝트 개발에는 더 큰 모델이 적합합니다.

Knowledge-intensive QA without Retrieval: 방대한 지식 베이스 질의응답은 RAG 결합이 필요합니다.

📜 라이선스 및 사용 제한

LFM2.5-8B-A1B는 lfm1.0 라이선스로 배포됩니다. Liquid AI의 독자 라이선스로, 다음 특징을 갖습니다:

항목	내용
연구 사용	허용
개인 사용	허용
상업적 사용	라이선스 확인 필요
수정 및 배포	조건부 허용

상업적 사용 전 Liquid AI의 라이선스 조건을 확인해야 합니다. Hugging Face 모델 페이지에서 최신 라이선스 정보를 확인하세요.

🎯 맺음말

지금까지 LFM2.5-8B-A1B에 대해 알아보았습니다. 이 모델은 8.3B 파라미터 중 1.5B만 활성화하는 효율적인 MoE 구조로, 온디바이스 AI와 개인 어시스턴트에 최적화된 설계를 갖추고 있습니다. 특히 131K 토큰 컨텍스트, 9개 언어 지원, 도구 사용 기능으로 에이전트 워크플로우 구축에 강점을 보입니다. 또한 IFEval 91.84점, MATH500 88.76점 등 전 버전 대비 상당한 성능 향상을 입증하며, GGUF, ONNX, MLX 등 다양한 포맷으로 배포됩니다.

다만 Heavy Programming이나 Knowledge-intensive QA에는 더 큰 모델이나 RAG 결합이 필요합니다. Hugging Face Transformers로 직접 테스트하거나 GGUF로 로컬 무료 실행이 가능합니다.

여러분도 한번 LFM2.5-8B-A1B를 Hugging Face 또는 로컬 GGUF로 직접 체험해보시길 추천드리면서 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.

📚 참고 문헌 및 출처

Liquid AI. (2025). LFM2.5-8B-A1B Model Card. Retrieved from https://huggingface.co/LiquidAI/LFM2.5-8B-A1B
Liquid AI. (2025). LFM2 Technical Report. arXiv:2511.23404
Google Colab Inference Test Notebook. Retrieved from https://colab.research.google.com/drive/1_q3jQ6LtyiuPzFZv7Vw8xSfPU5FwkKZY

'AI 언어 모델' 카테고리의 다른 글

🤖 MiniMax M3 무료 체험: 프론티어급 코딩+100만 토큰+멀티모달 최초 오픈웨이트 모델 완벽 분석 (0)	2026.06.01
🆓 Step-3.7 Flash: Hermes Agent로 무제한 무료 AI 코딩 에이전트 체험하기 (0)	2026.06.01
🚀 Claude Opus 4.8 정직성 4배 향상 장기 실행 자율 코딩 완벽 분석 (0)	2026.05.29
🚀 Qwen3.7 Preview: Arena Text #13, Vision #16 중국 최고 AI 모델 (0)	2026.05.20
🎙️OpenAI, 음성 AI 혁신: GPT-Realtime-2·실시간 번역·실시간 전사 모델 공개 (0)	2026.05.13