안녕하세요! 오늘은 Google이 새롭게 출시한 Gemini 3.1 Flash TTS에 대해 알아보겠습니다. Gemini 3.1 Flash TTS는 30개 기본 보이스, 70개 이상 언어 지원, Audio Tags로 스타일 컨트롤 등의 장점을 가지고 있습니다. 특히 Audio Tags 기능은 문장 중간에 `[whispers]`, `[excited]`, `[shouting]` 같은 태그를 추가하여 감정, 1톤, 속도를 자유롭게 조절할 수 있어 기존 TTS 모델과 차별화됩니다. 이 블로그에서는 Gemini 3.1 Flash TTS의 핵심 기능, Audio Tags 사용법, Google AI Studio에서의 실제 활용 방법, 가격 정보, 한국어 지원 현황에 대해 상세히 알아보겠습니다. 바로 시작해볼까요?

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."
🤖 Gemini 3.1 Flash TTS란 무엇인가?
Gemini 3.1 Flash TTS는 Google이 2026년 4월에 출시한 가장 컨트롤 가능한 텍스트-to-스피치(TTS) 모델입니다. 기존 TTS 모델들은 단순히 텍스트를 음성으로 변환하는 기능만 제공했지만, Gemini 3.1 Flash TTS는 자연어로 스타일, 억양, 속도, 톤을 직접 조절할 수 있습니다.
핵심 특징
- 30개 기본 보이스: 다양한 성별, 연령, 억양의 보이스 선택 가능
- 70개 이상 언어 지원: 한국어, 영어, 중국어, 일본어 등 주요 언어 포함
- Audio Tags: `[whispers]`, `[excited]`, `[shouting]` 등 감정 태그로 스타일 컨트롤
- SSML 불필요: 복잡한 SSML 태그 없이 자연어로 직접 지시
- Google AI Studio & Vertex AI: 무료 체험 가능, API 연동 지원
Gemini 3.1 Flash TTS는 Gemini 3.1 Flash Live와 다른 모델입니다. TTS는 텍스트를 오디오로 변환하는 단방향 모델이고, Live는 실시간 음성 대화(speech-to-speech)를 위한 모델입니다. TTS 모델은 오디오 출력만 가능하며, 컨트롤 가능성이 더 높습니다.
⚙️ Audio Tags: 감정과 스타일을 자유롭게 조절
Gemini 3.1 Flash TTS의 가장 큰 특징은 Audio Tags 기능입니다. 문장 중간에 간단한 태그를 추가하여 보이스의 감정, 톤, 속도를 실시간으로 변경할 수 있습니다.
Audio Tags 예시
| 태그 | 효과 | 예시 |
|---|---|---|
[whispers] |
속삭이는 톤 | "[whispers] 비밀을 말해줄게" |
[excited] |
흥분, 활기찬 톤 | "[excited] 드디어 완성했어!" |
[shouting] |
큰소리, 강한 톤 | "[shouting] 모두 들어주세요!" |
[sigh] |
근심, 한숨 | "[sigh] 오늘도 힘들었네" |
[laughing] |
웃음 | "[laughing] 정말 재밌네" |
[playful] |
장난스러운 톤 | "[playful] 이거 놀랄걸?" |
[sarcastic] |
비꼬는 톤 | "[sarcastic] 완벽하네, 정말" |
[crying] |
哭泣, 슬픈 톤 | "[crying] 이제 못 보겠네" |
이 태그들은 문장 중간에 자유롭게 배치할 수 있으며, 다음 태그가 나오기 전까지 해당 스타일이 유지됩니다. 예를 들어:
"안녕하세요! [excited] 오늘 새로운 기능을 소개합니다.
[whispers] 비밀 하나 말해줄까요?
[normal] 이 기능은 정말 편리합니다."
위 예시에서 `[excited]`부터 `[whispers]`까지는 활기찬 톤, `[whispers]`부터 `[normal]`까지는 속삭이는 톤으로 출력됩니다.
추가 스타일 컨트롤 옵션
Audio Tags 외에도 자연어로 다음 스타일을 지시할 수 있습니다:
- 억양(Accent): "영국 억양으로", "미국南部 억양으로"
- 속도(Pace): "조금 느리게", "빠르게"
- 톤(Tone): "친근하게", "전문적으로", "따뜻하게"
- 비언어적 소리: "한숨 쉬며", "웃으며", "숨 들이쉬며"
🚀 Google AI Studio에서 무료 체험하기
Gemini 3.1 Flash TTS는 Google AI Studio에서 무료로 체험할 수 있습니다. Google 계정만 있으면 바로 시작할 수 있습니다.
1단계: Google AI Studio 접속
Google AI Studio에 접속하여 Google 계정으로 로그인합니다. 무료 API 키를 발급받을 수 있습니다.
2단계: Gemini TTS 모델 선택
모델 목록에서 Gemini 3.1 Flash TTS (Preview)를 선택합니다. TTS 모델은 오디오 출력만 가능하므로, 텍스트 입력 후 오디오 결과를 받습니다.
3단계: 보이스 및 언어 설정
30개 기본 보이스 중 하나를 선택하고, 70개 이상 언어 중 원하는 언어를 설정합니다. 한국어도 지원됩니다.
4단계: Audio Tags 추가
텍스트에 Audio Tags를 추가하여 스타일을 컨트롤합니다:
"안녕하세요! [excited] Gemini 3.1 Flash TTS를 소개합니다.
[whispers] 이 모델은 정말 특별합니다.
[normal] 한국어도 완벽하게 지원합니다."
5단계: 오디오 생성
4단계의 텍스트 예제를 입력하고 실행 버튼을 클릭하면 오디오 파일이 생성됩니다. Google AI Studio에서 직접 오디오를 재생하고 다운로드할 수 있습니다. 아래 오디오 샘플을 들어보시면 Audio Tags를 잘 처리한것을 확인할 수 있습니다.
🎵 생성된 오디오 샘플:
👆 플레이어를 클릭하여 Gemini 3.1 Flash TTS로 생성한 한국어 오디오를 직접 들어보세요!
💡 무료 체험 제한: Google AI Studio의 무료 티어는 일정 할당량까지만 무료입니다. 대규모 사용은 유료 API 키로 전환해야 합니다.
💰 가격 정보: 분당 $0.03
Gemini 3.1 Flash TTS의 가격은 다음과 같습니다:
| 항목 | 가격 |
|---|---|
| Input (텍스트 토큰) | $1.00 / 1M 토큰 |
| Output (오디오 토큰) | $20.00 / 1M 토큰 |
| 대략 분당 비용 | $0.03 (3 cents) |
이전 버전인 Gemini 2.5 Flash TTS와 비교하면:
| 모델 | Input | Output |
|---|---|---|
| Gemini 2.5 Flash TTS | $0.50 / 1M | $10.00 / 1M |
| Gemini 3.1 Flash TTS | $1.00 / 1M | $20.00 / 1M |
| Gemini 2.5 Pro TTS | $1.00 / 1M | $20.00 / 1M |
Gemini 3.1 Flash TTS는 Gemini 2.5 Flash TTS보다 2배 비싸지만, Audio Tags 기능과 더 많은 보이스/언어 지원을 제공합니다. 대규모 오디오 생성이 필요한 경우 비용을 고려해야 합니다.
🇰🇷 한국어 지원 현황
Gemini 3.1 Flash TTS는 한국어를 완벽하게 지원합니다. 70개 이상 언어 중 한국어가 포함되어 있으며, Audio Tags도 한국어 텍스트에서 정상 작동합니다.
한국어 TTS 특징
- 자연스러운 한국어 발음: 문맥에 맞는 자연스러운 발음
- 감정 표현: `[excited]`, `[whispers]` 등 태그가 한국어에서도 작동
- 다양한 보이스: 한국어에 적합한 여성/남성 보이스 선택 가능
- 속도 조절: 한국어 텍스트에서도 속도, 톤 조절 가능
한국어 콘텐츠 제작자, 유튜버, 교육자 등이 Gemini 3.1 Flash TTS를 활용하여 자연스러운 한국어 오디오를 생성할 수 있습니다.
📊 다른 TTS 모델과 비교
Gemini 3.1 Flash TTS를 다른 주요 TTS 모델과 비교해보겠습니다:
| 모델 | 언어 | 스타일 컨트롤 | 가격 |
|---|---|---|---|
| Gemini 3.1 Flash TTS | 70개+ | Audio Tags + 자연어 | $0.03/분 |
| OpenAI TTS | 6개 | 제한적 | $0.015/분 |
| Azure TTS | 100개+ | SSML 필요 | $0.004/분 |
| ElevenLabs | 29개 | 제한적 | $0.30/분 |
| Orpheus (오픈소스) | 영어 | 감정 태그 | 무료 (로컬) |
Gemini 3.1 Flash TTS의 강점은 Audio Tags로 SSML(Speech Synthesis Markup Language, TTS(텍스트 음성 변환)에서 발음, 속도, 볼륨, 멈춤, 억양 같은 음성 표현을 세밀하게 조절하는 마크업 언어) 없이 스타일을 조절할 수 있는 점입니다. Azure TTS는 SSML을 사용해야 하며, ElevenLabs는 가격이 비싸고 언어가 제한적입니다. OpenAI TTS는 가격이 저렴하지만 언어가 6개만 지원됩니다.
약점은 가격이 Azure TTS보다 비싼 점입니다. Azure TTS는 분당 $0.004로 Gemini의 1/7 가격입니다. 대규모 오디오 생성이 필요한 경우 Azure TTS가 더 경제적일 수 있습니다.
💡 실제 활용 사례
Gemini 3.1 Flash TTS를 활용할 수 있는 주요 사례:
1. 유튜브/팟캐스트 오디오 생성
유튜버나 팟캐스트 제작자가 자연스러운 한국어 오디오를 생성할 수 있습니다. `[excited]`, `[whispers]` 등 태그로 다양한 감정을 표현하여 오디오의 품질을 높일 수 있습니다.
2. 교육 콘텐츠
교육자가 학습 자료의 오디오 버전을 생성할 수 있습니다. 속도 조절로 학습자에게 적합한 속도로 내용을 전달할 수 있습니다.
3. 게임/앱 보이스
게임 개발자나 앱 제작자가 캐릭터 보이스를 생성할 수 있습니다. `[playful]`, `[sarcastic]` 등 태그로 캐릭터의 성격을 표현할 수 있습니다.
4. 뉴스/정보 오디오
뉴스 사이트나 정보 서비스가 오디오 뉴스를 생성할 수 있습니다. `[normal]` 태그로 전문적인 톤을 유지하며 정보를 전달할 수 있습니다.
⚠️ 한계점과 주의사항
Gemini 3.1 Flash TTS의 한계점을 알아두세요:
⚠️ 주의사항
- Preview 상태: 모델이 Preview 상태로, 향후 변경 가능
- 가격: Azure TTS보다 7배 비싸므로 대규모 사용 시 비용 고려
- 오디오 출력만: 텍스트 입력만 가능, 오디오 입력은 지원하지 않음
- API 제한: 무료 티어는 할당량 제한 있음
- 실시간 대화 불가: Live API 모델(Gemini 3.1 Flash Live)은 별도 모델
대규모 오디오 생성이 필요한 경우 Azure TTS나 로컬 오픈소스 모델(Orpheus 등)을 고려하는 것이 경제적입니다.
🎯 맺음말
지금까지 Gemini 3.1 Flash TTS에 대해 알아보았습니다. Gemini 3.1 Flash TTS는 30개 기본 보이스, 70개 이상 언어 지원, Audio Tags로 스타일 컨트롤 등 기존 TTS 모델과 차별화된 기능을 제공합니다. 특히 `[whispers]`, `[excited]`, `[shouting]` 등 Audio Tags를 문장 중간에 추가하여 SSML 없이 감정, 톤, 속도를 자유롭게 조절할 수 있습니다.
다만 Preview 상태로 향후 변경 가능하며, 가격이 Azure TTS보다 7배 비싸므로 대규모 오디오 생성 시 비용을 고려해야 합니다. Google AI Studio에서 무료 체험 후 필요에 따라 유료 API로 전환하는 것이 좋습니다.
여러분도 한번 Google AI Studio에서 Gemini 3.1 Flash TTS를 직접 체험해보시길 추천드리면서 저는 다음 시간에 더 유익한 정보를 가지고 다시 찾아뵙겠습니다. 감사합니다.

📚 참고 문헌 및 출처
- Google. (2026). Gemini 3.1 Flash Live: Making audio AI more natural and reliable. Retrieved from https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-live/
- Google AI for Developers. (2026). Text-to-speech generation (TTS) | Gemini API. Retrieved from https://ai.google.dev/gemini-api/docs/speech-generation
- Google Cloud. (2026). Review pricing for Text-to-Speech. Retrieved from https://cloud.google.com/text-to-speech/pricing
- Ars Technica. (2026). The debut of Gemini 3.1 Flash Live could make it harder to know if you're talking to a robot. Retrieved from https://arstechnica.com/ai/2026/03/the-debut-of-gemini-3-1-flash-live/
- MindStudio. (2026). What Is Gemini 3.1 Flash Live? Google's Multimodal Voice AI. Retrieved from https://www.mindstudio.ai/blog/what-is-gemini-3-1-flash-live-multimodal-voice-ai-2/
'AI 언어 모델' 카테고리의 다른 글
| 🚀 Qwen 3.6-35B-A3B: 3B 활성화로 SWE-Bench 73.4% 달성하는 초효율 코딩 AI (0) | 2026.04.21 |
|---|---|
| 🚀 Claude Opus 4.7 출시: SWE-bench Pro 64.3%, xhigh 추론, Migration Guide (1) | 2026.04.19 |
| 🤖 LFM2.5-VL-450M: 안드로이드에서 실행하는 450M 비전-언어 모델 가이드 (0) | 2026.04.14 |
| 🤖 LG EXAONE 4.5-33B: GPT-5 Mini 능가하는 한국형 멀티모달 AI (0) | 2026.04.10 |
| 🚀 Llama보다 10배 빠른 Meta 신형 AI: Muse Spark 완벽 분석 (0) | 2026.04.09 |