KittenTTS einrichten
Zurück zur Übersicht der TTS-Anbieter
KittenTTS führt ein neuronales TTS-Modell direkt auf Ihrem Rechner aus. Keine Cloud, keine API-Schlüssel, keine Daten, die Ihren Computer verlassen — und die Sprachqualität ist wirklich gut. Die Einrichtung dauert etwa 5 Minuten. Derzeit nur Englisch.
Hardwareanforderungen
Abschnitt betitelt „Hardwareanforderungen“KittenTTS nutzt PyTorch für neuronale Netzwerk-Inferenz auf Ihrer CPU. Das bedeutet, dass echte Rechenleistung benötigt wird:
| Hardware | Erfahrung |
|---|---|
| 8+ Kerne, moderne CPU (Ryzen 7, i7, Xeon) | Ausgezeichnet. Sprache wird schnell generiert, minimale Auswirkung auf andere Aufgaben |
| 4–6 Kerne (Ryzen 5, i5) | Gut. Spürbare CPU-Auslastung während der Generierung, aber problemlos nutzbar |
| 2 Kerne / ältere CPU | Langsam. Die Generierung kann mehrere Sekunden pro Äußerung dauern. Erwägen Sie stattdessen Google Cloud |
Die CPU-Auslastung ist vorübergehend — KittenTTS beansprucht die CPU nur während der aktiven Sprachgenerierung (typischerweise 1–2 Sekunden pro Äußerung). Zwischen den Äußerungen sinkt die CPU-Auslastung auf nahezu null.
Thread-Verwaltung
Abschnitt betitelt „Thread-Verwaltung“Standardmäßig verwendet KittenTTS alle verfügbaren CPU-Kerne für maximale Geschwindigkeit. Wenn Sie gleichzeitig eine Schach-Engine (wie Stockfish) betreiben, möchten Sie möglicherweise die von KittenTTS genutzten Threads begrenzen.
Legen Sie unter Einstellungen > Sound > KittenTTS CPU Threads einen Wert fest, um die Thread-Nutzung zu begrenzen. Setzen Sie den Wert auf 0 für automatische Erkennung (alle Kerne nutzen). Ein guter Ausgangspunkt für die gemeinsame Nutzung mit einer Schach-Engine ist die Hälfte Ihrer Kernanzahl.
Tipp: KittenTTS und Stockfish beanspruchen beide CPU-Kerne. Wenn Sie bei voller Tiefe analysieren, während KittenTTS Sprache generiert, konkurrieren beide um CPU-Zeit. Auf einem Rechner mit 8+ Kernen werden Sie es kaum bemerken. Bei 4 Kernen geben Sie KittenTTS 2 Threads und überlassen den Rest der Engine.
Schritt 1: Abhängigkeiten installieren
Abschnitt betitelt „Schritt 1: Abhängigkeiten installieren“KittenTTS erfordert Python 3.10+ und einige Python-Pakete. Wählen Sie eine der folgenden Methoden:
Option A: In-App-Einrichtungsassistent (empfohlen)
Abschnitt betitelt „Option A: In-App-Einrichtungsassistent (empfohlen)“- Öffnen Sie En Parlant~ und gehen Sie zu Einstellungen > Sound
- Setzen Sie TTS-Anbieter auf KittenTTS (English Only)
- Wenn Abhängigkeiten fehlen, erscheint ein gelber „Setup Guide”-Hinweis
- Klicken Sie auf den Hinweis, um den Einrichtungsassistenten zu öffnen
- Der Assistent führt Sie durch jeden Schritt mit „Fix”-Schaltflächen zur automatischen Installation
Option B: Terminal-Setup-Skript
Abschnitt betitelt „Option B: Terminal-Setup-Skript“cd /path/to/en-parlant./scripts/setup-tts.sh --kittenttsDies erstellt eine virtuelle Python-Umgebung und installiert die erforderlichen Pakete (kittentts, flask, soundfile, numpy). Das Nano-Modell (~25 MB) wird beim ersten Start von HuggingFace heruntergeladen.
Option C: Manuelle Einrichtung
Abschnitt betitelt „Option C: Manuelle Einrichtung“cd /path/to/en-parlant/scriptspython3 -m venv .venv.venv/bin/pip install kittentts flask soundfile numpySchritt 2: En Parlant~ konfigurieren
Abschnitt betitelt „Schritt 2: En Parlant~ konfigurieren“- Öffnen Sie En Parlant~ und gehen Sie zu Einstellungen (Zahnrad-Symbol) > Reiter Sound
- Setzen Sie TTS-Anbieter auf KittenTTS (English Only)
- Der Server startet automatisch, wenn Sie diesen Anbieter auswählen
- Warten Sie einige Sekunden, bis das Modell geladen ist (beim ersten Start wird es von HuggingFace heruntergeladen)
- Wählen Sie eine Stimme — es gibt 8 Optionen (4 männlich, 4 weiblich)
- Klicken Sie auf die Test-Schaltfläche neben der Stimmauswahl
Sie sollten einen Schachzug hören, der mit natürlicher, ausdrucksstarker KI-Sprache vorgelesen wird.
Fehlerbehebung
Abschnitt betitelt „Fehlerbehebung“- Fehler „Server not responding”? Der KittenTTS-Server wurde möglicherweise nicht gestartet. Prüfen Sie den Einrichtungsassistenten in den Einstellungen — er zeigt den Status der Abhängigkeiten an und kann fehlende Pakete automatisch beheben.
- Erster Start ist langsam? Das ~25 MB große Nano-Modell wird beim ersten Gebrauch von HuggingFace heruntergeladen. Dies ist ein einmaliger Download. Weitere Starts dauern 2–5 Sekunden.
- Hohe CPU-Auslastung? Das ist während der Sprachgenerierung normal. Reduzieren Sie die Thread-Anzahl in den Einstellungen, wenn andere Aufgaben beeinträchtigt werden.
- Kein Ton? Stellen Sie sicher, dass Python 3.10+ installiert ist und die virtuelle Umgebung erfolgreich erstellt wurde. Der Einrichtungsassistent kann dies diagnostizieren.
Stimmenübersicht
Abschnitt betitelt „Stimmenübersicht“KittenTTS bietet 8 Stimmen, nummeriert von 2–5, jeweils in männlicher und weiblicher Variante. Alle Stimmen sind englischsprachig mit leicht unterschiedlichen Klangqualitäten. Probieren Sie einige aus, um die zu finden, die Ihnen am besten gefällt.
Hinweis zur Sprache
Abschnitt betitelt „Hinweis zur Sprache“KittenTTS unterstützt derzeit nur Englisch. Für andere Sprachen verwenden Sie ElevenLabs oder Google Cloud. Die TTS-Spracheinstellung wird bei Verwendung von KittenTTS ignoriert — Schachbegriffe werden immer auf Englisch gesprochen.