KittenTTS セットアップ
TTS プロバイダー概要に戻る
KittenTTS はニューラルTTSモデルをお使いのマシン上で直接実行します。クラウド不要、APIキー不要、データがコンピューターの外に出ることもありません — しかも音声品質は本当に優れています。セットアップは約5分で完了します。現在は英語のみ対応です。
ハードウェア要件
Section titled “ハードウェア要件”KittenTTS はニューラルネットワーク推論に PyTorch を使用し、CPUで処理を行います。そのため、十分な計算能力が必要です:
| ハードウェア | 使用感 |
|---|---|
| 8コア以上、最新のCPU(Ryzen 7、i7、Xeon) | 非常に快適。音声生成が高速で、他のタスクへの影響も最小限です |
| 4〜6コア(Ryzen 5、i5) | 良好。生成中のCPU使用率は目立ちますが、十分に実用的です |
| 2コア/古いCPU | 低速。1発話あたり数秒かかる場合があります。Google Cloud の利用を検討してください |
CPU使用は一時的です — KittenTTS がCPUを使用するのは音声を生成している間だけです(通常1発話あたり1〜2秒)。発話と発話の間は、CPU使用率はほぼゼロに下がります。
スレッド管理
Section titled “スレッド管理”デフォルトでは、KittenTTS は最大速度を得るために利用可能なすべてのCPUコアを使用します。チェスエンジン(Stockfish など)も同時に実行している場合は、KittenTTS が使用するスレッド数を制限した方がよいかもしれません。
Settings > Sound > KittenTTS CPU Threads で、スレッド使用数の上限を設定できます。0に設定すると自動(全コア使用)になります。チェスエンジンと併用する場合の目安は、コア数の半分です。
ヒント: KittenTTS と Stockfish はどちらもCPUコアを必要とします。KittenTTS が音声を生成している間にフル深度で解析を行うと、両者がCPU時間を奪い合います。8コア以上のマシンでは、ほとんど気になりません。4コアの場合は、KittenTTS に2スレッドを割り当て、残りをエンジンに使わせるのがよいでしょう。
ステップ 1:依存パッケージのインストール
Section titled “ステップ 1:依存パッケージのインストール”KittenTTS には Python 3.10+ といくつかの Python パッケージが必要です。以下のいずれかの方法を選んでください:
オプション A:アプリ内セットアップウィザード(推奨)
Section titled “オプション A:アプリ内セットアップウィザード(推奨)”- En Parlant~ を開き、Settings > Sound に移動します
- TTS Provider を KittenTTS (English Only) に設定します
- 依存パッケージが不足している場合、黄色の「Setup Guide」アラートが表示されます
- アラートをクリックしてセットアップウィザードを開きます
- ウィザードが各ステップを案内し、「Fix」ボタンで自動インストールできます
オプション B:ターミナルセットアップスクリプト
Section titled “オプション B:ターミナルセットアップスクリプト”cd /path/to/en-parlant./scripts/setup-tts.sh --kittenttsPython 仮想環境を作成し、必要なパッケージ(kittentts、flask、soundfile、numpy)をインストールします。nano モデル(約25MB)は初回実行時に HuggingFace からダウンロードされます。
オプション C:手動セットアップ
Section titled “オプション C:手動セットアップ”cd /path/to/en-parlant/scriptspython3 -m venv .venv.venv/bin/pip install kittentts flask soundfile numpyステップ 2:En Parlant~ の設定
Section titled “ステップ 2:En Parlant~ の設定”- En Parlant~ を開き、Settings(歯車アイコン)> Sound タブに移動します
- TTS Provider を KittenTTS (English Only) に設定します
- このプロバイダーを選択すると、サーバーが自動的に起動します
- モデルの読み込みに数秒お待ちください(初回実行時は HuggingFace からダウンロードされます)
- ボイスを選択します — 8種類のオプション(男性4種、女性4種)があります
- ボイスセレクターの横にある Test ボタンをクリックします
自然で表現力のあるAI音声でチェスの手が読み上げられるはずです。
トラブルシューティング
Section titled “トラブルシューティング”- 「Server not responding」エラーが出る場合: KittenTTS サーバーが起動していない可能性があります。Settings のセットアップウィザードを確認してください — 依存パッケージの状態が表示され、不足しているパッケージを自動修正できます。
- 初回起動が遅い場合: 初回使用時に約25MBの nano モデルが HuggingFace からダウンロードされます。これは一度だけのダウンロードです。2回目以降の起動は2〜5秒で完了します。
- CPU使用率が高い場合: 音声生成中はこれが正常です。他のタスクに影響がある場合は、Settings でスレッド数を減らしてください。
- 音が出ない場合: Python 3.10+ がインストールされていること、および仮想環境が正常に作成されていることを確認してください。セットアップウィザードで診断できます。
ボイスガイド
Section titled “ボイスガイド”KittenTTS には2〜5の番号が付いた8種類のボイスがあり、それぞれに男性と女性のバリエーションがあります。すべてのボイスは英語で、わずかに異なる音色の特徴を持っています。いくつか試して、お好みのものを見つけてください。
言語に関する注意
Section titled “言語に関する注意”KittenTTS は現在英語のみをサポートしています。他の言語については、ElevenLabs または Google Cloud をご利用ください。KittenTTS 使用時は TTS の言語設定は無視されます — チェス用語は常に英語で読み上げられます。