안녕하세요! 오늘은 Resemble AI에서 공개한 혁신적인 오픈소스 TTS(Text-to-Speech) 모델인 Chatterbox에 대해 알아보겠습니다. Chatterbox는 단순한 텍스트 읽기를 넘어, 감정 표현과 음성 복제(Voice Cloning)이 가능한 최첨단 AI 음성 생성 모델입니다. 특히 최신 Chatterbox-Turbo는 350M 파라미터로 가볍고 빠르면서도 고품질 음성을 생성할 수 있어, AI 음성 에이전트와 실시간 음성 봇 개발에 최적화되어 있습니다. 이 블로그에서는 Chatterbox의 주요 특징, 설치 방법, 실전 사용 예제를 살펴보겠습니다.

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
🎙️ Chatterbox 개요
Chatterbox는 Resemble AI에서 개발한 오픈소스 텍스트-투-스피치(TTS) 모델 패밀리로, 총 3가지 모델로 구성되어 있습니다. 기존 TTS 모델과 달리 제로샷 음성 복제(Zero-shot Voice Cloning) 기술을 통해 단 10초의 참고 음성만으로도 목소리를 복제할 수 있으며, 감정 태그(Paralinguistic Tags)를 사용하여 자연스러운 웃음, 기침 등을 표현할 수 있습니다.
TTS(Text-to-Speech)란?
TTS는 텍스트를 음성으로 변환하는 기술입니다. 쉽게 말해, "컴퓨터가 글자를 읽어서 사람의 목소리로 말해주는 기술"입니다. 내비게이션의 길 안내, Audiobook 읽어주기, AI 음성 비서(Siri, Alexa 등)가 모두 TTS 기술을 사용합니다. Chatterbox는 이 TTS 기술을 AI로 더욱 발전시켜서, 실제 사람과 구별하기 어려운 자연스러운 목소리를 만들어냅니다.
Chatterbox는 Hugging Face와 GitHub에서 무료로 다운로드할 수 있으며, Python 라이브러리로 손쉽게 설치할 수 있습니다.
https://github.com/resemble-ai/chatterbox
GitHub - resemble-ai/chatterbox: SoTA open-source TTS
SoTA open-source TTS. Contribute to resemble-ai/chatterbox development by creating an account on GitHub.
github.com
⭐ 주요 특징 및 기능
Chatterbox의 주요 특징은 다음과 같습니다:
- 🎙️ 제로샷 음성 복제: 단 10초의 참고 음성만으로도 목소리 복제 가능
- 😊 감정 태그 지원: [laugh], [cough], [chuckle] 등의 태그로 자연스러운 감정 표현
- ⚡ 초고속 생성: Turbo 모델은 1단계 디코딩으로 기존 10단계를 1단계로 축소
- 🌍 다국어 지원: Multilingual 모델은 한국어를 포함한 23개 언어 지원
- 💻 가벼운 모델: Turbo 모델은 350M 파라미터로 낮은 VRAM 요구
- 🔒 내장 워터마킹: 모든 생성 음성에 PerTh 워터마크 자동 포함
- 🎨 창의적 제어: CFG(Classifier-Free Guidance) 및 Exaggeration 튜닝
🤖 Chatterbox 모델 비교
Chatterbox는 3가지 모델로 제공되며, 각각의 용도에 따라 적절한 모델을 선택할 수 있습니다:
| 모델 | 크기 | 언어 | 주요 특징 | 추천 용도 |
|---|---|---|---|---|
| Chatterbox-Turbo | 350M | 영어 | 감정 태그, 저전력/저VRAM | 실시간 음성 에이전트, 프로덕션 |
| Chatterbox-Multilingual | 500M | 23개 언어 | 제로샷 복제, 다국어 | 글로벌 애플리케이션, 현지화 |
| Chatterbox (Original) | 500M | 영어 | CFG & Exaggeration 튜닝 | 창의적 제어가 필요한 TTS |
🌍 지원 언어
Chatterbox-Multilingual 모델은 다음 23개 언어를 지원합니다:
🌍 지원 언어 목록
아랍어(ar) • 덴마크어(da) • 독일어(de) • 그리스어(el) • 영어(en) • 스페인어(es) • 핀란드어(fi) • 프랑스어(fr) • 히브루어(he) • 힌디어(hi) • 이탈리아어(it) • 일본어(ja) • 한국어(ko) • 말레이어(ms) • 네덜란드어(nl) • 노르웨이어(no) • 폴란드어(pl) • 포르투갈어(pt) • 러시아어(ru) • 스웨덴어(sv) • 스와힐리어(sw) • 터키어(tr) • 중국어(zh)
📦 설치 방법
Chatterbox를 설치하는 방법은 매우 간단합니다.
📦 pip로 설치 (추천)
pip install chatterbox-tts

🛠️ 소스에서 설치
최신 개발 버전을 사용하거나 코드를 수정하려는 경우 소스에서 설치할 수 있습니다:
# conda 환경 생성 (권장)
conda create -yn chatterbox python=3.11
conda activate chatterbox
# 리포지토리 복제
git clone https://github.com/resemble-ai/chatterbox.git
cd chatterbox
# 패키지 설치
pip install -e .
⚠️ 시스템 요구사항
- Python 3.11 권장
- CUDA 지원 GPU (NVIDIA)
- Debian 11에서 개발 및 테스트 완료
- 종속성 버전은
pyproject.toml에 고정되어 있음
🚀 Chatterbox-Turbo 사용법
가장 가볍고 빠른 Chatterbox-Turbo 모델 사용법을 알아보겠습니다.
🎬 Chatterbox-Turbo 예제 (app.py)
import torchaudio as ta
import torch
from chatterbox.tts_turbo import ChatterboxTurboTTS
# Turbo 모델 로드
model = ChatterboxTurboTTS.from_pretrained(device="cuda")
# 감정 태그가 포함된 텍스트
text = "Hi there, James here from MochaFone calling you back [clear throat], have you got one minute to chat about the billing issue?"
# 음성 생성 (참고 클립 필요)
wav = model.generate(text, audio_prompt_path="my-voice.wav")
# 음성 저장
ta.save("test-turbo.wav", wav, model.sr)

| 모델 | 설명 | 재생 |
|---|---|---|
| Chatterbox-Turbo | app.py 실행결과 생성된 음성파일 |
😊 감정 태그 사용
Turbo 모델은 다음과 같은 감정 태그를 원래부터 지원합니다:
| 태그 | 설명 | 예시 |
|---|---|---|
[laugh] |
웃음 | "That's funny [laugh]" |
[chuckle] |
낄낄거림 | "Let me explain [chuckle]" |
[cough] |
기침 | "Excuse me [cough]" |
[breath] |
숨소리 | "Okay [breath]" |
🌍 다국어 TTS 사용법
🎬 Chatterbox-Multilingual 예제(app2.py)
Chatterbox-Multilingual 모델을 사용하여 한국어를 포함한 23개 언어로 음성을 생성할 수 있습니다.
import torchaudio as ta
from chatterbox.mtl_tts import ChatterboxMultilingualTTS
# Multilingual 모델 로드
multilingual_model = ChatterboxMultilingualTTS.from_pretrained(device="cuda")
# 한국어 예시
korean_text = "안녕하세요, 오늘 날씨가 정말 좋네요. 즐거운 주말 보내시길 바랍니다."
wav_korean = multilingual_model.generate(korean_text, language_id="ko")
ta.save("test-korean.wav", wav_korean, multilingual_model.sr)
# 영어 예시
english_text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus."
wav_english = multilingual_model.generate(english_text, language_id="en")
ta.save("test-english.wav", wav_english, multilingual_model.sr)
# 프랑스어 예시
french_text = "Bonjour, comment ça va? Ceci est le modèle de synthèse vocale multilingue Chatterbox."
wav_french = multilingual_model.generate(french_text, language_id="fr")
ta.save("test-french.wav", wav_french, multilingual_model.sr)

| 모델 | 언어 | 설명 | 재생 |
|---|---|---|---|
| Multilingual | 한국어 (ko) | 안녕하세요, 오늘 날씨가 정말 좋네요. 즐거운 주말 보내시길 바랍니다. | |
| Multilingual | 영어 (en) | Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus. | |
| Multilingual | 프랑스어 (fr) | Bonjour, comment ça va? Ceci est le modèle de synthèse vocale multilingue Chatterbox. |
🎛️ Chatterbox Original 사용법
🎬 Chatterbox Original 모델 예제(app3.py)
창의적 제어가 필요한 경우 Chatterbox Original 모델을 사용합니다.
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS
# Original 모델 로드
model = ChatterboxTTS.from_pretrained(device="cuda")
# 기본 TTS
text = "The quick brown fox jumps over the lazy dog."
wav = model.generate(text)
ta.save("test-original.wav", wav, model.sr)
# 음성 복제 (오디오 프롬프트 지정)
AUDIO_PROMPT_PATH = "my-voice.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-voice-clone.wav", wav, model.sr)
| 모델 | 모드 | 재생 |
|---|---|---|
| Chatterbox Original | 기본 TTS | |
| Chatterbox Original | 음성 복제 |
⚙️ 고급 튜닝 팁
Chatterbox Original 모델은 다음과 같은 파라미터로 음성을 세밀하게 조정할 수 있습니다:
🎛️ 주요 파라미터
1) cfg_weight (Classifier-Free Guidance Weight)
- 기본값: 0.5
- 범위: 0.0 ~ 1.0
- 낮을수록 더 자연스러운 말투, 높을수록 프롬프트에 더 가깝게 따름
2) exaggeration
- 기본값: 0.5
- 범위: 0.0 ~ 1.0
- 높을수록 더 표현적이고 극적인 음성
3) 추천 설정
- 일반적인 TTS/음성 에이전트:
exaggeration=0.5,cfg_weight=0.5 - 빠른 말투의 화자:
cfg_weight=0.3으로 낮추면 속도 개선 - 표현적/극적인 연기:
exaggeration=0.7+,cfg_weight=0.3
🔒 워터마크 추출
🔍 워터마크 추출 예제(app4.py)
모든 Chatterbox 생성 음성에는 PerTh (Perceptual Threshold) Watermark가 포함되어 있습니다. 이는 인간의 귀에는 들리지 않지만, AI가 감지할 수 있는 보이지 않는 워터마크입니다.
import perth
import librosa
AUDIO_PATH = "test-turbo.wav"
# 워터마크된 오디오 로드
watermarked_audio, sr = librosa.load(AUDIO_PATH, sr=None)
# 워터마커 초기화
watermarker = perth.PerthImplicitWatermarker()
# 워터마크 추출
watermark = watermarker.get_watermark(watermarked_audio, sample_rate=sr)
print(f"추출된 워터마크: {watermark}")
# 출력: 0.0 (워터마크 없음) 또는 1.0 (워터마크 있음)

ℹ️ 워터마크 특징
- MP3 압축 후에도 감지 가능
- 오디오 편집 후에도 유지
- 거의 100% 감지 정확도
- Resemble AI의 PerTh 라이브러리 사용
🎯 맺음말
오늘은 Resemble AI의 Chatterbox에 대해 알아보았습니다. 제로샷 음성 복제와 감정 태그 지원, 다국어 TTS 기능은 AI 음성 생성의 새로운 가능성을 보여줍니다. 특히 Chatterbox-Turbo의 350M 가벼운 모델과 1단계 디코딩 기술은 실시간 AI 음성 에이전트 개발에 큰 도움이 될 것입니다.
Chatterbox는 다음과 같은 분들에게 특히 유용합니다:
- AI 음성 에이전트 개발자 (실시간 대화 봇)
- 오디오북, 내레이션 제작자
- 게임, 애니메이션 성우 대체
- 다국어 음성 서비스 제공자
- 음성 복제 연구자 및 개발자
여러분도 Chatterbox를 한번 사용해 보시길 추천드리면서, 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.
📦 GitHub 소스 코드 다운로드
이 블로그에서 사용한 Chatterbox 예제 코드와 app.py는 제 GitHub 저장소에서 무료로 다운로드하실 수 있습니다!
📦 GitHub 저장소
https://github.com/jmpark333/Chatterbox
📋 저장소 내용
- app.py: Chatterbox TTS 실행 예제 코드
- 생성된 음성 파일들: test-*.wav 샘플 파일들
- my-voice.wav: 음성 복제에 사용된 참고 음성
🔧 사용 방법
# 저장소 복제
git clone https://github.com/jmpark333/Chatterbox.git
cd Chatterbox
# 가상환경 생성 및 활성화
python -m venv venv
source venv/bin/activate # Linux/Mac
# 또는
venv\Scripts\activate # Windows
# Chatterbox 설치
pip install chatterbox-tts
# app.py 실행
python app.py
GitHub 저장소에 ⭐ Star를 눌러주시면 더욱 유익한 콘텐츠를 만드는 데 큰 도움이 됩니다!
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
📚 참고 자료
- Chatterbox GitHub Repository
- Chatterbox-Turbo Demo - Hugging Face
- How to Build an AI Voice Agent in Minutes
- How to Install and Run Chatterbox Locally
- Resemble AI Official Website

'AI 도구' 카테고리의 다른 글
| Claude Code 2.1.0 주요 업데이트 (2) | 2026.01.08 |
|---|---|
| 🧩Beads: GitHub 8.3k, AI 코딩 에이전트의 메모리를 확장시키는 혁신적인 이슈 트래커 (2) | 2026.01.06 |
| Claude Code 플러그인 마켓플레이스 가이드 (3) | 2026.01.01 |
| 🤖💻Ollama와 OpenCode를 활용한 맞춤형 무료 AI 코딩 에이전트 구축 (2) | 2025.12.29 |
| 📝 A2UI: AI 에이전트가 UI를 만드는 새로운 시대 (4) | 2025.12.28 |