KittenTTS 설정

TTS 제공자 개요로 돌아가기

KittenTTS는 신경망 TTS 모델을 사용자의 컴퓨터에서 직접 실행합니다. 클라우드 없이, API 키 없이, 데이터가 컴퓨터 밖으로 나가지 않으며 — 음성 품질도 정말 좋습니다. 설정은 약 5분 정도 소요됩니다. 현재는 영어만 지원합니다.

하드웨어 요구 사항

KittenTTS는 CPU에서 신경망 추론을 위해 PyTorch를 사용합니다. 따라서 실질적인 컴퓨팅 성능이 필요합니다:

하드웨어	사용 경험
8코어 이상, 최신 CPU (Ryzen 7, i7, Xeon)	우수. 음성이 빠르게 생성되며, 다른 작업에 미치는 영향이 최소
4-6코어 (Ryzen 5, i5)	양호. 생성 중 눈에 띄는 CPU 사용량이 있지만 충분히 사용 가능
2코어 / 구형 CPU	느림. 발화당 생성에 수 초가 걸릴 수 있습니다. Google Cloud 사용을 고려하세요

CPU 사용은 일시적입니다 — KittenTTS는 실제로 음성을 생성하는 동안에만 CPU를 사용합니다(일반적으로 발화당 1-2초). 발화 사이에는 CPU 사용량이 거의 0에 가깝게 떨어집니다.

스레드 관리

기본적으로 KittenTTS는 최대 속도를 위해 사용 가능한 모든 CPU 코어를 사용합니다. 체스 엔진(예: Stockfish)을 함께 실행하는 경우, KittenTTS가 사용하는 스레드 수를 제한하는 것이 좋습니다.

Settings > Sound > KittenTTS CPU Threads에서 스레드 사용량 상한값을 설정하세요. 0으로 설정하면 자동(모든 코어 사용)입니다. 체스 엔진과 함께 사용할 때 좋은 시작점은 코어 수의 절반입니다.

팁: KittenTTS와 Stockfish 모두 CPU 코어를 필요로 합니다. 최대 깊이로 분석하면서 KittenTTS가 음성을 생성하면, 둘 다 CPU 시간을 놓고 경쟁하게 됩니다. 8코어 이상의 머신에서는 거의 체감하지 못합니다. 4코어에서는 KittenTTS에 2스레드를 할당하고 나머지를 엔진에 남겨두세요.

1단계: 의존성 설치

KittenTTS는 Python 3.10 이상과 몇 가지 Python 패키지가 필요합니다. 다음 방법 중 하나를 선택하세요:

옵션 A: 인앱 설정 마법사 (권장)

En Parlant~를 열고 Settings > Sound로 이동합니다
TTS Provider를 **KittenTTS (English Only)**로 설정합니다
의존성이 누락된 경우, 노란색 “Setup Guide” 알림이 나타납니다
알림을 클릭하여 설정 마법사를 엽니다
마법사가 자동 설치를 위한 “Fix” 버튼과 함께 각 단계를 안내합니다

옵션 B: 터미널 설정 스크립트

cd /path/to/en-parlant
./scripts/setup-tts.sh --kittentts

이 스크립트는 Python 가상 환경을 생성하고 필요한 패키지(kittentts, flask, soundfile, numpy)를 설치합니다. nano 모델(~25MB)은 첫 실행 시 HuggingFace에서 다운로드됩니다.

옵션 C: 수동 설정

cd /path/to/en-parlant/scripts
python3 -m venv .venv
.venv/bin/pip install kittentts flask soundfile numpy

2단계: En Parlant~ 설정

En Parlant~를 열고 Settings (톱니바퀴 아이콘) > Sound 탭으로 이동합니다
TTS Provider를 **KittenTTS (English Only)**로 설정합니다
이 제공자를 선택하면 서버가 자동으로 시작됩니다
모델이 로드될 때까지 몇 초 기다립니다(첫 실행 시 HuggingFace에서 다운로드)
음성을 선택합니다 — 8가지 옵션이 있습니다(남성 4개, 여성 4개)
음성 선택기 옆의 Test 버튼을 클릭합니다

자연스럽고 표현력 있는 AI 음성으로 체스 수가 읽히는 것을 들을 수 있습니다.

문제 해결

“Server not responding” 오류가 발생하나요? KittenTTS 서버가 시작되지 않았을 수 있습니다. Settings의 설정 마법사를 확인하세요 — 의존성 상태를 표시하고 누락된 패키지를 자동으로 수정할 수 있습니다.
첫 실행이 느린가요? ~25MB의 nano 모델이 첫 사용 시 HuggingFace에서 다운로드됩니다. 이것은 일회성 다운로드입니다. 이후 시작은 2-5초 정도 소요됩니다.
CPU 사용량이 높은가요? 음성 생성 중에는 정상입니다. 다른 작업에 영향을 미친다면 Settings에서 스레드 수를 줄이세요.
소리가 나지 않나요? Python 3.10 이상이 설치되어 있고 가상 환경이 성공적으로 생성되었는지 확인하세요. 설정 마법사로 진단할 수 있습니다.

음성 가이드

KittenTTS는 2-5번까지 번호가 매겨진 8가지 음성을 제공하며, 각각 남성과 여성 변형이 있습니다. 모든 음성은 영어이며 약간 다른 음조 특성을 가지고 있습니다. 몇 가지를 시도해보고 가장 마음에 드는 것을 찾아보세요.

언어 참고 사항

KittenTTS는 현재 영어만 지원합니다. 다른 언어가 필요한 경우 ElevenLabs 또는 Google Cloud를 사용하세요. KittenTTS 사용 시 TTS 언어 설정은 무시됩니다 — 체스 용어는 항상 영어로 읽힙니다.