KittenTTS einrichten

Zurück zur Übersicht der TTS-Anbieter

KittenTTS führt ein neuronales TTS-Modell direkt auf Ihrem Rechner aus. Keine Cloud, keine API-Schlüssel, keine Daten, die Ihren Computer verlassen — und die Sprachqualität ist wirklich gut. Die Einrichtung dauert etwa 5 Minuten. Derzeit nur Englisch.

Hardwareanforderungen

KittenTTS nutzt PyTorch für neuronale Netzwerk-Inferenz auf Ihrer CPU. Das bedeutet, dass echte Rechenleistung benötigt wird:

Hardware	Erfahrung
8+ Kerne, moderne CPU (Ryzen 7, i7, Xeon)	Ausgezeichnet. Sprache wird schnell generiert, minimale Auswirkung auf andere Aufgaben
4–6 Kerne (Ryzen 5, i5)	Gut. Spürbare CPU-Auslastung während der Generierung, aber problemlos nutzbar
2 Kerne / ältere CPU	Langsam. Die Generierung kann mehrere Sekunden pro Äußerung dauern. Erwägen Sie stattdessen Google Cloud

Die CPU-Auslastung ist vorübergehend — KittenTTS beansprucht die CPU nur während der aktiven Sprachgenerierung (typischerweise 1–2 Sekunden pro Äußerung). Zwischen den Äußerungen sinkt die CPU-Auslastung auf nahezu null.

Thread-Verwaltung

Standardmäßig verwendet KittenTTS alle verfügbaren CPU-Kerne für maximale Geschwindigkeit. Wenn Sie gleichzeitig eine Schach-Engine (wie Stockfish) betreiben, möchten Sie möglicherweise die von KittenTTS genutzten Threads begrenzen.

Legen Sie unter Einstellungen > Sound > KittenTTS CPU Threads einen Wert fest, um die Thread-Nutzung zu begrenzen. Setzen Sie den Wert auf 0 für automatische Erkennung (alle Kerne nutzen). Ein guter Ausgangspunkt für die gemeinsame Nutzung mit einer Schach-Engine ist die Hälfte Ihrer Kernanzahl.

Tipp: KittenTTS und Stockfish beanspruchen beide CPU-Kerne. Wenn Sie bei voller Tiefe analysieren, während KittenTTS Sprache generiert, konkurrieren beide um CPU-Zeit. Auf einem Rechner mit 8+ Kernen werden Sie es kaum bemerken. Bei 4 Kernen geben Sie KittenTTS 2 Threads und überlassen den Rest der Engine.

Schritt 1: Abhängigkeiten installieren

KittenTTS erfordert Python 3.10+ und einige Python-Pakete. Wählen Sie eine der folgenden Methoden:

Option A: In-App-Einrichtungsassistent (empfohlen)

Öffnen Sie En Parlant~ und gehen Sie zu Einstellungen > Sound
Setzen Sie TTS-Anbieter auf KittenTTS (English Only)
Wenn Abhängigkeiten fehlen, erscheint ein gelber „Setup Guide”-Hinweis
Klicken Sie auf den Hinweis, um den Einrichtungsassistenten zu öffnen
Der Assistent führt Sie durch jeden Schritt mit „Fix”-Schaltflächen zur automatischen Installation

Option B: Terminal-Setup-Skript

cd /path/to/en-parlant
./scripts/setup-tts.sh --kittentts

Dies erstellt eine virtuelle Python-Umgebung und installiert die erforderlichen Pakete (kittentts, flask, soundfile, numpy). Das Nano-Modell (~25 MB) wird beim ersten Start von HuggingFace heruntergeladen.

Option C: Manuelle Einrichtung

cd /path/to/en-parlant/scripts
python3 -m venv .venv
.venv/bin/pip install kittentts flask soundfile numpy

Schritt 2: En Parlant~ konfigurieren

Öffnen Sie En Parlant~ und gehen Sie zu Einstellungen (Zahnrad-Symbol) > Reiter Sound
Setzen Sie TTS-Anbieter auf KittenTTS (English Only)
Der Server startet automatisch, wenn Sie diesen Anbieter auswählen
Warten Sie einige Sekunden, bis das Modell geladen ist (beim ersten Start wird es von HuggingFace heruntergeladen)
Wählen Sie eine Stimme — es gibt 8 Optionen (4 männlich, 4 weiblich)
Klicken Sie auf die Test-Schaltfläche neben der Stimmauswahl

Sie sollten einen Schachzug hören, der mit natürlicher, ausdrucksstarker KI-Sprache vorgelesen wird.

Fehlerbehebung

Fehler „Server not responding”? Der KittenTTS-Server wurde möglicherweise nicht gestartet. Prüfen Sie den Einrichtungsassistenten in den Einstellungen — er zeigt den Status der Abhängigkeiten an und kann fehlende Pakete automatisch beheben.
Erster Start ist langsam? Das ~25 MB große Nano-Modell wird beim ersten Gebrauch von HuggingFace heruntergeladen. Dies ist ein einmaliger Download. Weitere Starts dauern 2–5 Sekunden.
Hohe CPU-Auslastung? Das ist während der Sprachgenerierung normal. Reduzieren Sie die Thread-Anzahl in den Einstellungen, wenn andere Aufgaben beeinträchtigt werden.
Kein Ton? Stellen Sie sicher, dass Python 3.10+ installiert ist und die virtuelle Umgebung erfolgreich erstellt wurde. Der Einrichtungsassistent kann dies diagnostizieren.

Stimmenübersicht

KittenTTS bietet 8 Stimmen, nummeriert von 2–5, jeweils in männlicher und weiblicher Variante. Alle Stimmen sind englischsprachig mit leicht unterschiedlichen Klangqualitäten. Probieren Sie einige aus, um die zu finden, die Ihnen am besten gefällt.

Hinweis zur Sprache

KittenTTS unterstützt derzeit nur Englisch. Für andere Sprachen verwenden Sie ElevenLabs oder Google Cloud. Die TTS-Spracheinstellung wird bei Verwendung von KittenTTS ignoriert — Schachbegriffe werden immer auf Englisch gesprochen.