콘텐츠로 이동

KittenTTS 설정

TTS 제공자 개요로 돌아가기

KittenTTS는 신경망 TTS 모델을 사용자의 컴퓨터에서 직접 실행합니다. 클라우드 없이, API 키 없이, 데이터가 컴퓨터 밖으로 나가지 않으며 — 음성 품질도 정말 좋습니다. 설정은 약 5분 정도 소요됩니다. 현재는 영어만 지원합니다.

KittenTTS는 CPU에서 신경망 추론을 위해 PyTorch를 사용합니다. 따라서 실질적인 컴퓨팅 성능이 필요합니다:

하드웨어사용 경험
8코어 이상, 최신 CPU (Ryzen 7, i7, Xeon)우수. 음성이 빠르게 생성되며, 다른 작업에 미치는 영향이 최소
4-6코어 (Ryzen 5, i5)양호. 생성 중 눈에 띄는 CPU 사용량이 있지만 충분히 사용 가능
2코어 / 구형 CPU느림. 발화당 생성에 수 초가 걸릴 수 있습니다. Google Cloud 사용을 고려하세요

CPU 사용은 일시적입니다 — KittenTTS는 실제로 음성을 생성하는 동안에만 CPU를 사용합니다(일반적으로 발화당 1-2초). 발화 사이에는 CPU 사용량이 거의 0에 가깝게 떨어집니다.

기본적으로 KittenTTS는 최대 속도를 위해 사용 가능한 모든 CPU 코어를 사용합니다. 체스 엔진(예: Stockfish)을 함께 실행하는 경우, KittenTTS가 사용하는 스레드 수를 제한하는 것이 좋습니다.

Settings > Sound > KittenTTS CPU Threads에서 스레드 사용량 상한값을 설정하세요. 0으로 설정하면 자동(모든 코어 사용)입니다. 체스 엔진과 함께 사용할 때 좋은 시작점은 코어 수의 절반입니다.

팁: KittenTTS와 Stockfish 모두 CPU 코어를 필요로 합니다. 최대 깊이로 분석하면서 KittenTTS가 음성을 생성하면, 둘 다 CPU 시간을 놓고 경쟁하게 됩니다. 8코어 이상의 머신에서는 거의 체감하지 못합니다. 4코어에서는 KittenTTS에 2스레드를 할당하고 나머지를 엔진에 남겨두세요.

KittenTTS는 Python 3.10 이상과 몇 가지 Python 패키지가 필요합니다. 다음 방법 중 하나를 선택하세요:

옵션 A: 인앱 설정 마법사 (권장)

섹션 제목: “옵션 A: 인앱 설정 마법사 (권장)”
  1. En Parlant~를 열고 Settings > Sound로 이동합니다
  2. TTS Provider를 **KittenTTS (English Only)**로 설정합니다
  3. 의존성이 누락된 경우, 노란색 “Setup Guide” 알림이 나타납니다
  4. 알림을 클릭하여 설정 마법사를 엽니다
  5. 마법사가 자동 설치를 위한 “Fix” 버튼과 함께 각 단계를 안내합니다
Terminal window
cd /path/to/en-parlant
./scripts/setup-tts.sh --kittentts

이 스크립트는 Python 가상 환경을 생성하고 필요한 패키지(kittentts, flask, soundfile, numpy)를 설치합니다. nano 모델(~25MB)은 첫 실행 시 HuggingFace에서 다운로드됩니다.

Terminal window
cd /path/to/en-parlant/scripts
python3 -m venv .venv
.venv/bin/pip install kittentts flask soundfile numpy
  1. En Parlant~를 열고 Settings (톱니바퀴 아이콘) > Sound 탭으로 이동합니다
  2. TTS Provider를 **KittenTTS (English Only)**로 설정합니다
  3. 이 제공자를 선택하면 서버가 자동으로 시작됩니다
  4. 모델이 로드될 때까지 몇 초 기다립니다(첫 실행 시 HuggingFace에서 다운로드)
  5. 음성을 선택합니다 — 8가지 옵션이 있습니다(남성 4개, 여성 4개)
  6. 음성 선택기 옆의 Test 버튼을 클릭합니다

자연스럽고 표현력 있는 AI 음성으로 체스 수가 읽히는 것을 들을 수 있습니다.

  • “Server not responding” 오류가 발생하나요? KittenTTS 서버가 시작되지 않았을 수 있습니다. Settings의 설정 마법사를 확인하세요 — 의존성 상태를 표시하고 누락된 패키지를 자동으로 수정할 수 있습니다.
  • 첫 실행이 느린가요? ~25MB의 nano 모델이 첫 사용 시 HuggingFace에서 다운로드됩니다. 이것은 일회성 다운로드입니다. 이후 시작은 2-5초 정도 소요됩니다.
  • CPU 사용량이 높은가요? 음성 생성 중에는 정상입니다. 다른 작업에 영향을 미친다면 Settings에서 스레드 수를 줄이세요.
  • 소리가 나지 않나요? Python 3.10 이상이 설치되어 있고 가상 환경이 성공적으로 생성되었는지 확인하세요. 설정 마법사로 진단할 수 있습니다.

KittenTTS는 2-5번까지 번호가 매겨진 8가지 음성을 제공하며, 각각 남성과 여성 변형이 있습니다. 모든 음성은 영어이며 약간 다른 음조 특성을 가지고 있습니다. 몇 가지를 시도해보고 가장 마음에 드는 것을 찾아보세요.

KittenTTS는 현재 영어만 지원합니다. 다른 언어가 필요한 경우 ElevenLabs 또는 Google Cloud를 사용하세요. KittenTTS 사용 시 TTS 언어 설정은 무시됩니다 — 체스 용어는 항상 영어로 읽힙니다.