KittenTTS 설정
TTS 제공자 개요로 돌아가기
KittenTTS는 신경망 TTS 모델을 사용자의 컴퓨터에서 직접 실행합니다. 클라우드 없이, API 키 없이, 데이터가 컴퓨터 밖으로 나가지 않으며 — 음성 품질도 정말 좋습니다. 설정은 약 5분 정도 소요됩니다. 현재는 영어만 지원합니다.
하드웨어 요구 사항
섹션 제목: “하드웨어 요구 사항”KittenTTS는 CPU에서 신경망 추론을 위해 PyTorch를 사용합니다. 따라서 실질적인 컴퓨팅 성능이 필요합니다:
| 하드웨어 | 사용 경험 |
|---|---|
| 8코어 이상, 최신 CPU (Ryzen 7, i7, Xeon) | 우수. 음성이 빠르게 생성되며, 다른 작업에 미치는 영향이 최소 |
| 4-6코어 (Ryzen 5, i5) | 양호. 생성 중 눈에 띄는 CPU 사용량이 있지만 충분히 사용 가능 |
| 2코어 / 구형 CPU | 느림. 발화당 생성에 수 초가 걸릴 수 있습니다. Google Cloud 사용을 고려하세요 |
CPU 사용은 일시적입니다 — KittenTTS는 실제로 음성을 생성하는 동안에만 CPU를 사용합니다(일반적으로 발화당 1-2초). 발화 사이에는 CPU 사용량이 거의 0에 가깝게 떨어집니다.
스레드 관리
섹션 제목: “스레드 관리”기본적으로 KittenTTS는 최대 속도를 위해 사용 가능한 모든 CPU 코어를 사용합니다. 체스 엔진(예: Stockfish)을 함께 실행하는 경우, KittenTTS가 사용하는 스레드 수를 제한하는 것이 좋습니다.
Settings > Sound > KittenTTS CPU Threads에서 스레드 사용량 상한값을 설정하세요. 0으로 설정하면 자동(모든 코어 사용)입니다. 체스 엔진과 함께 사용할 때 좋은 시작점은 코어 수의 절반입니다.
팁: KittenTTS와 Stockfish 모두 CPU 코어를 필요로 합니다. 최대 깊이로 분석하면서 KittenTTS가 음성을 생성하면, 둘 다 CPU 시간을 놓고 경쟁하게 됩니다. 8코어 이상의 머신에서는 거의 체감하지 못합니다. 4코어에서는 KittenTTS에 2스레드를 할당하고 나머지를 엔진에 남겨두세요.
1단계: 의존성 설치
섹션 제목: “1단계: 의존성 설치”KittenTTS는 Python 3.10 이상과 몇 가지 Python 패키지가 필요합니다. 다음 방법 중 하나를 선택하세요:
옵션 A: 인앱 설정 마법사 (권장)
섹션 제목: “옵션 A: 인앱 설정 마법사 (권장)”- En Parlant~를 열고 Settings > Sound로 이동합니다
- TTS Provider를 **KittenTTS (English Only)**로 설정합니다
- 의존성이 누락된 경우, 노란색 “Setup Guide” 알림이 나타납니다
- 알림을 클릭하여 설정 마법사를 엽니다
- 마법사가 자동 설치를 위한 “Fix” 버튼과 함께 각 단계를 안내합니다
옵션 B: 터미널 설정 스크립트
섹션 제목: “옵션 B: 터미널 설정 스크립트”cd /path/to/en-parlant./scripts/setup-tts.sh --kittentts이 스크립트는 Python 가상 환경을 생성하고 필요한 패키지(kittentts, flask, soundfile, numpy)를 설치합니다. nano 모델(~25MB)은 첫 실행 시 HuggingFace에서 다운로드됩니다.
옵션 C: 수동 설정
섹션 제목: “옵션 C: 수동 설정”cd /path/to/en-parlant/scriptspython3 -m venv .venv.venv/bin/pip install kittentts flask soundfile numpy2단계: En Parlant~ 설정
섹션 제목: “2단계: En Parlant~ 설정”- En Parlant~를 열고 Settings (톱니바퀴 아이콘) > Sound 탭으로 이동합니다
- TTS Provider를 **KittenTTS (English Only)**로 설정합니다
- 이 제공자를 선택하면 서버가 자동으로 시작됩니다
- 모델이 로드될 때까지 몇 초 기다립니다(첫 실행 시 HuggingFace에서 다운로드)
- 음성을 선택합니다 — 8가지 옵션이 있습니다(남성 4개, 여성 4개)
- 음성 선택기 옆의 Test 버튼을 클릭합니다
자연스럽고 표현력 있는 AI 음성으로 체스 수가 읽히는 것을 들을 수 있습니다.
문제 해결
섹션 제목: “문제 해결”- “Server not responding” 오류가 발생하나요? KittenTTS 서버가 시작되지 않았을 수 있습니다. Settings의 설정 마법사를 확인하세요 — 의존성 상태를 표시하고 누락된 패키지를 자동으로 수정할 수 있습니다.
- 첫 실행이 느린가요? ~25MB의 nano 모델이 첫 사용 시 HuggingFace에서 다운로드됩니다. 이것은 일회성 다운로드입니다. 이후 시작은 2-5초 정도 소요됩니다.
- CPU 사용량이 높은가요? 음성 생성 중에는 정상입니다. 다른 작업에 영향을 미친다면 Settings에서 스레드 수를 줄이세요.
- 소리가 나지 않나요? Python 3.10 이상이 설치되어 있고 가상 환경이 성공적으로 생성되었는지 확인하세요. 설정 마법사로 진단할 수 있습니다.
음성 가이드
섹션 제목: “음성 가이드”KittenTTS는 2-5번까지 번호가 매겨진 8가지 음성을 제공하며, 각각 남성과 여성 변형이 있습니다. 모든 음성은 영어이며 약간 다른 음조 특성을 가지고 있습니다. 몇 가지를 시도해보고 가장 마음에 드는 것을 찾아보세요.
언어 참고 사항
섹션 제목: “언어 참고 사항”KittenTTS는 현재 영어만 지원합니다. 다른 언어가 필요한 경우 ElevenLabs 또는 Google Cloud를 사용하세요. KittenTTS 사용 시 TTS 언어 설정은 무시됩니다 — 체스 용어는 항상 영어로 읽힙니다.