KittenTTS セットアップ

TTS プロバイダー概要に戻る

KittenTTS はニューラルTTSモデルをお使いのマシン上で直接実行します。クラウド不要、APIキー不要、データがコンピューターの外に出ることもありません — しかも音声品質は本当に優れています。セットアップは約5分で完了します。現在は英語のみ対応です。

ハードウェア要件

KittenTTS はニューラルネットワーク推論に PyTorch を使用し、CPUで処理を行います。そのため、十分な計算能力が必要です：

ハードウェア	使用感
8コア以上、最新のCPU（Ryzen 7、i7、Xeon）	非常に快適。音声生成が高速で、他のタスクへの影響も最小限です
4〜6コア（Ryzen 5、i5）	良好。生成中のCPU使用率は目立ちますが、十分に実用的です
2コア／古いCPU	低速。1発話あたり数秒かかる場合があります。Google Cloud の利用を検討してください

CPU使用は一時的です — KittenTTS がCPUを使用するのは音声を生成している間だけです（通常1発話あたり1〜2秒）。発話と発話の間は、CPU使用率はほぼゼロに下がります。

スレッド管理

デフォルトでは、KittenTTS は最大速度を得るために利用可能なすべてのCPUコアを使用します。チェスエンジン（Stockfish など）も同時に実行している場合は、KittenTTS が使用するスレッド数を制限した方がよいかもしれません。

Settings > Sound > KittenTTS CPU Threads で、スレッド使用数の上限を設定できます。0に設定すると自動（全コア使用）になります。チェスエンジンと併用する場合の目安は、コア数の半分です。

ヒント： KittenTTS と Stockfish はどちらもCPUコアを必要とします。KittenTTS が音声を生成している間にフル深度で解析を行うと、両者がCPU時間を奪い合います。8コア以上のマシンでは、ほとんど気になりません。4コアの場合は、KittenTTS に2スレッドを割り当て、残りをエンジンに使わせるのがよいでしょう。

ステップ 1：依存パッケージのインストール

KittenTTS には Python 3.10+ といくつかの Python パッケージが必要です。以下のいずれかの方法を選んでください：

オプション A：アプリ内セットアップウィザード（推奨）

En Parlant~ を開き、Settings > Sound に移動します
TTS Provider を KittenTTS (English Only) に設定します
依存パッケージが不足している場合、黄色の「Setup Guide」アラートが表示されます
アラートをクリックしてセットアップウィザードを開きます
ウィザードが各ステップを案内し、「Fix」ボタンで自動インストールできます

オプション B：ターミナルセットアップスクリプト

cd /path/to/en-parlant
./scripts/setup-tts.sh --kittentts

Python 仮想環境を作成し、必要なパッケージ（kittentts、flask、soundfile、numpy）をインストールします。nano モデル（約25MB）は初回実行時に HuggingFace からダウンロードされます。

オプション C：手動セットアップ

cd /path/to/en-parlant/scripts
python3 -m venv .venv
.venv/bin/pip install kittentts flask soundfile numpy

ステップ 2：En Parlant~ の設定

En Parlant~ を開き、Settings（歯車アイコン）> Sound タブに移動します
TTS Provider を KittenTTS (English Only) に設定します
このプロバイダーを選択すると、サーバーが自動的に起動します
モデルの読み込みに数秒お待ちください（初回実行時は HuggingFace からダウンロードされます）
ボイスを選択します — 8種類のオプション（男性4種、女性4種）があります
ボイスセレクターの横にある Test ボタンをクリックします

自然で表現力のあるAI音声でチェスの手が読み上げられるはずです。

トラブルシューティング

「Server not responding」エラーが出る場合： KittenTTS サーバーが起動していない可能性があります。Settings のセットアップウィザードを確認してください — 依存パッケージの状態が表示され、不足しているパッケージを自動修正できます。
初回起動が遅い場合： 初回使用時に約25MBの nano モデルが HuggingFace からダウンロードされます。これは一度だけのダウンロードです。2回目以降の起動は2〜5秒で完了します。
CPU使用率が高い場合： 音声生成中はこれが正常です。他のタスクに影響がある場合は、Settings でスレッド数を減らしてください。
音が出ない場合： Python 3.10+ がインストールされていること、および仮想環境が正常に作成されていることを確認してください。セットアップウィザードで診断できます。

ボイスガイド

KittenTTS には2〜5の番号が付いた8種類のボイスがあり、それぞれに男性と女性のバリエーションがあります。すべてのボイスは英語で、わずかに異なる音色の特徴を持っています。いくつか試して、お好みのものを見つけてください。

言語に関する注意

KittenTTS は現在英語のみをサポートしています。他の言語については、ElevenLabs または Google Cloud をご利用ください。KittenTTS 使用時は TTS の言語設定は無視されます — チェス用語は常に英語で読み上げられます。