跳到內容

KittenTTS 設定

返回 TTS 供應商總覽

KittenTTS 直接在您的電腦上執行神經網路 TTS 模型。無需雲端、無需 API 金鑰、資料不會離開您的電腦——而且語音品質確實很好。設定大約只需 5 分鐘。目前僅支援英文。

KittenTTS 使用 PyTorch 在您的 CPU 上進行神經網路推論,因此需要一定的運算能力:

硬體使用體驗
8 核心以上的現代 CPU(Ryzen 7、i7、Xeon)極佳。語音生成速度快,對其他工作影響極小
4-6 核心(Ryzen 5、i5)良好。生成時 CPU 使用率明顯上升,但完全可用
2 核心 / 較舊的 CPU緩慢。每句語音可能需要數秒才能生成。建議改用 Google Cloud

CPU 使用僅為暫時性 — KittenTTS 只在實際生成語音時使用 CPU(通常每句 1-2 秒)。語音之間的間隔,CPU 使用率幾乎降為零。

預設情況下,KittenTTS 會使用所有可用的 CPU 核心以達到最快速度。如果您同時在執行西洋棋引擎(如 Stockfish),您可能會想要限制 KittenTTS 使用的執行緒數量。

設定 > 聲音 > KittenTTS CPU Threads 中,設定一個數值來限制執行緒使用量。設為 0 表示自動(使用所有核心)。與西洋棋引擎共用時,建議的起始值為核心數的一半。

提示: KittenTTS 和 Stockfish 都需要 CPU 核心。如果您在 KittenTTS 生成語音的同時進行全深度分析,兩者會互相競爭 CPU 時間。在 8 核心以上的機器上,您幾乎不會察覺。在 4 核心的機器上,建議給 KittenTTS 2 個執行緒,其餘留給引擎。

KittenTTS 需要 Python 3.10+ 及幾個 Python 套件。請選擇以下其中一種方式:

選項 A:應用程式內建設定精靈(推薦)

Section titled “選項 A:應用程式內建設定精靈(推薦)”
  1. 開啟 En Parlant~ 並前往 設定 > 聲音
  2. TTS 供應商 設為 KittenTTS (English Only)
  3. 如果缺少依賴套件,會出現黃色的「Setup Guide」提示
  4. 點擊提示以開啟設定精靈
  5. 精靈會逐步引導您完成每個步驟,並提供「Fix」按鈕進行自動安裝
Terminal window
cd /path/to/en-parlant
./scripts/setup-tts.sh --kittentts

這會建立一個 Python 虛擬環境並安裝所需套件(kittentts、flask、soundfile、numpy)。nano 模型(約 25MB)會在首次執行時從 HuggingFace 下載。

Terminal window
cd /path/to/en-parlant/scripts
python3 -m venv .venv
.venv/bin/pip install kittentts flask soundfile numpy
  1. 開啟 En Parlant~ 並前往 設定(齒輪圖示)> 聲音 分頁
  2. TTS 供應商 設為 KittenTTS (English Only)
  3. 選擇此供應商後,伺服器會自動啟動
  4. 等待幾秒鐘讓模型載入(首次執行會從 HuggingFace 下載)
  5. 選擇一個語音 — 共有 8 種選項(4 種男聲、4 種女聲)
  6. 點擊語音選擇器旁邊的 Test 按鈕

您應該會聽到以自然、富有表現力的 AI 語音朗讀的西洋棋著法。

  • 出現「Server not responding」錯誤? KittenTTS 伺服器可能未啟動。請檢查設定中的設定精靈 — 它會顯示依賴套件狀態,並能自動修復缺少的套件。
  • 首次執行很慢? 約 25MB 的 nano 模型會在首次使用時從 HuggingFace 下載。這是一次性的下載。後續啟動只需 2-5 秒。
  • CPU 使用率很高? 這在語音生成期間是正常的。如果影響到其他工作,請在設定中減少執行緒數量。
  • 沒有聲音? 請確認已安裝 Python 3.10+ 且虛擬環境已成功建立。設定精靈可以協助診斷此問題。

KittenTTS 提供 8 種語音,編號 2-5,每個編號各有男聲和女聲版本。所有語音均為英文,音色略有不同。建議試聽幾種,找到您最喜歡的聲音。

KittenTTS 目前僅支援英文。如需其他語言,請使用 ElevenLabs 或 Google Cloud。使用 KittenTTS 時,TTS 語言設定會被忽略 — 西洋棋術語一律以英文朗讀。