コンテンツにスキップ

KittenTTS セットアップ

TTS プロバイダー概要に戻る

KittenTTS はニューラルTTSモデルをお使いのマシン上で直接実行します。クラウド不要、APIキー不要、データがコンピューターの外に出ることもありません — しかも音声品質は本当に優れています。セットアップは約5分で完了します。現在は英語のみ対応です。

KittenTTS はニューラルネットワーク推論に PyTorch を使用し、CPUで処理を行います。そのため、十分な計算能力が必要です:

ハードウェア使用感
8コア以上、最新のCPU(Ryzen 7、i7、Xeon)非常に快適。音声生成が高速で、他のタスクへの影響も最小限です
4〜6コア(Ryzen 5、i5)良好。生成中のCPU使用率は目立ちますが、十分に実用的です
2コア/古いCPU低速。1発話あたり数秒かかる場合があります。Google Cloud の利用を検討してください

CPU使用は一時的です — KittenTTS がCPUを使用するのは音声を生成している間だけです(通常1発話あたり1〜2秒)。発話と発話の間は、CPU使用率はほぼゼロに下がります。

デフォルトでは、KittenTTS は最大速度を得るために利用可能なすべてのCPUコアを使用します。チェスエンジン(Stockfish など)も同時に実行している場合は、KittenTTS が使用するスレッド数を制限した方がよいかもしれません。

Settings > Sound > KittenTTS CPU Threads で、スレッド使用数の上限を設定できます。0に設定すると自動(全コア使用)になります。チェスエンジンと併用する場合の目安は、コア数の半分です。

ヒント: KittenTTS と Stockfish はどちらもCPUコアを必要とします。KittenTTS が音声を生成している間にフル深度で解析を行うと、両者がCPU時間を奪い合います。8コア以上のマシンでは、ほとんど気になりません。4コアの場合は、KittenTTS に2スレッドを割り当て、残りをエンジンに使わせるのがよいでしょう。

ステップ 1:依存パッケージのインストール

Section titled “ステップ 1:依存パッケージのインストール”

KittenTTS には Python 3.10+ といくつかの Python パッケージが必要です。以下のいずれかの方法を選んでください:

オプション A:アプリ内セットアップウィザード(推奨)

Section titled “オプション A:アプリ内セットアップウィザード(推奨)”
  1. En Parlant~ を開き、Settings > Sound に移動します
  2. TTS ProviderKittenTTS (English Only) に設定します
  3. 依存パッケージが不足している場合、黄色の「Setup Guide」アラートが表示されます
  4. アラートをクリックしてセットアップウィザードを開きます
  5. ウィザードが各ステップを案内し、「Fix」ボタンで自動インストールできます

オプション B:ターミナルセットアップスクリプト

Section titled “オプション B:ターミナルセットアップスクリプト”
Terminal window
cd /path/to/en-parlant
./scripts/setup-tts.sh --kittentts

Python 仮想環境を作成し、必要なパッケージ(kittentts、flask、soundfile、numpy)をインストールします。nano モデル(約25MB)は初回実行時に HuggingFace からダウンロードされます。

オプション C:手動セットアップ

Section titled “オプション C:手動セットアップ”
Terminal window
cd /path/to/en-parlant/scripts
python3 -m venv .venv
.venv/bin/pip install kittentts flask soundfile numpy
  1. En Parlant~ を開き、Settings(歯車アイコン)> Sound タブに移動します
  2. TTS ProviderKittenTTS (English Only) に設定します
  3. このプロバイダーを選択すると、サーバーが自動的に起動します
  4. モデルの読み込みに数秒お待ちください(初回実行時は HuggingFace からダウンロードされます)
  5. ボイスを選択します — 8種類のオプション(男性4種、女性4種)があります
  6. ボイスセレクターの横にある Test ボタンをクリックします

自然で表現力のあるAI音声でチェスの手が読み上げられるはずです。

  • 「Server not responding」エラーが出る場合: KittenTTS サーバーが起動していない可能性があります。Settings のセットアップウィザードを確認してください — 依存パッケージの状態が表示され、不足しているパッケージを自動修正できます。
  • 初回起動が遅い場合: 初回使用時に約25MBの nano モデルが HuggingFace からダウンロードされます。これは一度だけのダウンロードです。2回目以降の起動は2〜5秒で完了します。
  • CPU使用率が高い場合: 音声生成中はこれが正常です。他のタスクに影響がある場合は、Settings でスレッド数を減らしてください。
  • 音が出ない場合: Python 3.10+ がインストールされていること、および仮想環境が正常に作成されていることを確認してください。セットアップウィザードで診断できます。

KittenTTS には2〜5の番号が付いた8種類のボイスがあり、それぞれに男性と女性のバリエーションがあります。すべてのボイスは英語で、わずかに異なる音色の特徴を持っています。いくつか試して、お好みのものを見つけてください。

KittenTTS は現在英語のみをサポートしています。他の言語については、ElevenLabs または Google Cloud をご利用ください。KittenTTS 使用時は TTS の言語設定は無視されます — チェス用語は常に英語で読み上げられます。