Zum Inhalt springen

Übersicht der TTS-Anbieter

Wenn Sie ein kommentiertes Spiel durchgehen, leisten Ihre Augen doppelte Arbeit. Sie versuchen gleichzeitig, den Figuren auf dem Brett zu folgen und den Kommentar zu lesen. Ihr Blick springt zwischen dem Brett und dem Kommentarbereich hin und her, und jedes Mal, wenn er das tut, verlieren Sie die Stellung für einen Sekundenbruchteil. Sie müssen die Figuren wiederfinden, die Varianten nachverfolgen, das Bild in Ihrem Kopf neu aufbauen.

Text-to-Speech löst dieses Problem vollständig.

Mit aktiviertem TTS klicken Sie sich durch eine Partie und die Kommentare werden Ihnen vorgelesen. Ihre Augen bleiben auf dem Brett. Sie sehen, wie der Springer auf f3 landet, während eine Stimme erklärt, warum das ein starker Entwicklungszug ist. Sie beobachten, wie sich die Bauernstruktur verändert, während der Kommentar die strategische Idee dahinter erläutert. Brett und Worte kommen gleichzeitig an – so wie ein Trainer, der Ihnen gegenüber sitzt, unterrichten würde.

Das ist besonders wirkungsvoll für:

  • Eröffnungsstudium – hören Sie die Ideen hinter jedem Zug, während Sie die Stellung sich entwickeln sehen
  • Partiebesprechung – gehen Sie Ihre eigenen kommentierten Partien durch und nehmen Sie die Lektionen auf natürliche Weise auf
  • Endspieltraining – halten Sie den Fokus auf den kritischen Feldern, während der Kommentar Sie leitet
  • Sprachimmersion – studieren Sie Schach auf Französisch, Deutsch, Spanisch, Russisch, Japanisch, Chinesisch oder Koreanisch mit vollständig übersetzten Schachbegriffen. Hören Sie „Cavalier f3, echec” statt „Knight f3, check.” Lernen Sie das Spiel in der Sprache, in der Sie denken.
  • Barrierefreiheit – für Spieler, denen das Zuhören leichter fällt als das Lesen, oder die abseits vom Schreibtisch studieren möchten

Sobald Sie es ausprobiert haben, fühlt sich das Zurückkehren zu stummen Kommentaren an wie ein Film ohne Ton.

En Parlant~ wird mit fünf TTS-Anbietern ausgeliefert, die von Cloud-APIs mit studioqualitätsgerechten Stimmen bis hin zu vollständig lokalen Optionen reichen, die keinerlei Internetverbindung benötigen. Sie brauchen nur einen, um loszulegen. Sie sind unten von der besten zur schlechtesten Stimmqualität aufgelistet.

Die beste verfügbare Stimmqualität. ElevenLabs erzeugt ausdrucksstarke, menschenähnliche Sprache mit echtem Charakter – manche Stimmen klingen wie Hörbuchsprecher, andere wie Nachrichtensprecher. Dutzende einzigartige Stimmen stehen zur Auswahl. Unterstützt über 34 Sprachen, darunter hervorragende CJK-Aussprache (Japanisch, Chinesisch, Koreanisch), sowie Arabisch, Hindi und alle wichtigen europäischen Sprachen.

Die kostenlose Stufe bietet 10.000 Zeichen pro Monat (ausreichend für 2–5 kommentierte Partien). Bezahlpläne beginnen bei 5 $/Monat für 30.000 Zeichen. Die Einrichtung ist einfach: Konto erstellen, API-Schlüssel kopieren, in En Parlant~ einfügen.

Erfordert Internet. Am besten für Stimmqualitäts-Enthusiasten.

ElevenLabs Einrichtungsanleitung

Die beste Balance aus Qualität, Sprachunterstützung und Preis-Leistung. Googles neuronale WaveNet-Stimmen klingen natürlich und klar in über 30 Sprachen – einschließlich CJK, Arabisch, Hindi, Bengali, Filipino, Vietnamesisch und allen wichtigen europäischen Sprachen. Die kostenlose Stufe ist großzügig – eine Million Zeichen pro Monat deckt Hunderte kommentierter Partien ab.

Die Einrichtung dauert etwa 5 Minuten: Google Cloud-Konto erstellen, die Text-to-Speech-API aktivieren, einen API-Schlüssel generieren. Keine Kosten, solange Sie die kostenlose Stufe nicht überschreiten (bei Schachkommentaren sehr schwer zu erreichen).

Erfordert Internet. Am besten für die meisten Nutzer.

Google Cloud Einrichtungsanleitung

Hochwertige lokale KI, die vollständig auf Ihrem Rechner läuft. Verwendet ein leichtgewichtiges ~25 MB neuronales Modell mit 8 ausdrucksstarken Stimmen (4 männlich, 4 weiblich). Die Qualität ist bemerkenswert gut – natürliche Intonation, klare Aussprache, echte Ausdruckskraft.

Der Kompromiss ist die Hardware: KittenTTS nutzt PyTorch für CPU-Inferenz und benötigt daher einen modernen Mehrkernprozessor. Auf einem 8-Kern-Rechner klingt es großartig; auf einem älteren Laptop kann es zu Verzögerungen kommen. Derzeit nur Englisch.

Beim ersten Vorlesen eines Kommentars gibt es eine kurze Generierungsverzögerung (1–2 Sekunden auf einer schnellen CPU, länger auf langsamerer Hardware). Danach wird das Audio im Speicher zwischengespeichert und sofort wiedergegeben – das Vor- und Zurückspringen durch bereits gehörte Züge hat keinerlei Verzögerung. Sie können außerdem in den Einstellungen eine ganze Partie im Hintergrund vorcachen lassen, damit jeder Kommentar bereit ist, bevor Sie mit dem Studium beginnen.

Kein Internet erforderlich. Keine API-Schlüssel. Beste lokale Qualität.

KittenTTS Einrichtungsanleitung

Ein Open-Source-TTS-Server, der über Docker auf Ihrem Rechner läuft. Nichts verlässt Ihren Computer. Er bündelt mehrere TTS-Engines (Larynx, Festival, eSpeak, Coqui-TTS) und bietet allein für Englisch über 75 Stimmen.

Der Kompromiss ist die Stimmqualität: Es handelt sich um ältere neuronale und regelbasierte Engines, sodass die Ausgabe roboterhafter klingt als bei ElevenLabs oder Google. Funktioniert am besten mit europäischen Sprachen (Englisch, Deutsch, Französisch, Spanisch, Russisch, Niederländisch, Schwedisch, Italienisch und mehr) – CJK wird nicht unterstützt. Ehrlich gesagt, wenn Sie sich schon die Mühe machen, ein lokales Modell einzurichten, bietet KittenTTS bessere Qualität mit weniger Aufwand. Sofern keine signifikante Nachfrage nach OpenTTS besteht, werden wir es voraussichtlich in einer zukünftigen Version als veraltet markieren.

Kein Internet erforderlich. Keine API-Schlüssel. Am besten für maximale Privatsphäre mit vielen Stimmoptionen.

OpenTTS Einrichtungsanleitung

Die integrierte Sprachsynthese Ihres Betriebssystems. Nichts zu installieren, keine API-Schlüssel, keine Server. Einfach auswählen und loslegen. Die Stimmqualität ist einfach – Sie hören den charakteristischen roboterhaften Ton der Betriebssystem-TTS – aber es funktioniert sofort ohne jegliche Einrichtung.

Unter Linux ist dies typischerweise eSpeak oder speech-dispatcher; unter macOS die Systemstimme; unter Windows SAPI. Die Sprachunterstützung hängt vollständig davon ab, welche Sprachpakete Ihr Betriebssystem installiert hat.

Kein Internet erforderlich. Am besten für schnelle Tests.

System-TTS Einrichtungsanleitung

AnbieterTypQualitätEinrichtungSprachen
ElevenLabsCloud-APIAußergewöhnlichAPI-Schlüssel34+ (inkl. CJK)
Google CloudCloud-APISehr gut (WaveNet)API-Schlüssel30+ (inkl. CJK)
KittenTTSLokale neuronale KIGutPython + venvNur Englisch
OpenTTSLokaler DockerBefriedigendDockerNur europäische
System (OS-nativ)Betriebssystem-integriertEinfachKeineBetriebssystemabhängig

Hardware-Hinweis: Die lokalen Anbieter (KittenTTS und OpenTTS) führen neuronale Inferenz auf Ihrer CPU aus. Sie benötigen einen modernen Mehrkernprozessor (8+ Kerne empfohlen), um Sprache ohne spürbare Verzögerung zu generieren. Stellen Sie es sich vor wie eine weitere Schach-Engine, die auf Ihrem Rechner läuft. Wenn Ihr Rechner älter oder leistungsschwach ist, nutzen Sie stattdessen einen der Cloud-Anbieter.

Beginnen Sie mit ElevenLabs, wenn Sie die reichhaltigste Stimmqualität wünschen – die kostenlose Stufe reicht zum Ausprobieren. Für die beste Balance aus Qualität und kostenloser Nutzung deckt Google Cloud Hunderte von Partien pro Monat ab. Für hochwertige lokale TTS ohne Cloud-Abhängigkeit ist KittenTTS ausgezeichnet, wenn Sie eine moderne CPU haben. Für Tests ohne Einrichtung funktioniert System-TTS sofort. Für maximale Privatsphäre mit vielen Stimmoptionen führt OpenTTS alles lokal über Docker aus.

Alle TTS-Einstellungen befinden sich unter Einstellungen > Ton:

EinstellungFunktion
Text-to-SpeechHauptschalter zum Ein-/Ausschalten aller TTS-Funktionen
Automatisches Vorlesen bei ZugwechselKommentare automatisch vorlesen, wenn Sie durch Züge navigieren
TTS-AnbieterZwischen den fünf Anbietern wechseln
TTS-StimmeAnbieterspezifische Stimmauswahl
TTS-SpracheSprache für die Wiedergabe – Schachbegriffe werden automatisch übersetzt
TTS-LautstärkeLautstärke der Wiedergabe
TTS-GeschwindigkeitWiedergabegeschwindigkeit (0,5x bis 2x) – wird angepasst ohne Audio neu zu generieren
ElevenLabs API KeyIhr ElevenLabs API-Schlüssel (nur sichtbar bei Nutzung von ElevenLabs)
Google Cloud API KeyIhr Google Cloud API-Schlüssel (nur sichtbar bei Nutzung von Google)
KittenTTS CPU ThreadsCPU-Threads für die Inferenz (0 = automatisch / alle Kerne nutzen)
TTS Audio CacheZwischengespeichertes Audio löschen, um eine Neugenerierung zu erzwingen

Die TTS-Wiedergabe unterstützt zahlreiche Sprachen mit vollständig übersetztem Schachvokabular. Hier sind einige Beispiele:

SpracheSchachbeispiel
EnglishKnight f3, check. A strong developing move.
FrancaisCavalier f3, echec. Un coup de developpement fort.
EspanolCaballo f3, jaque. Un fuerte movimiento.
DeutschSpringer f3, Schach. Ein starker Entwicklungszug.
日本語ナイト f3、チェック。強い展開の手。
РусскийКонь f3, шах. Сильный развивающий ход.
中文马 f3,将军。一步控制中心的强力出子。
한국어나이트 f3, 체크. 중앙을 지배하는 강력한 전개 수.

Jeder Schachbegriff – Figurennamen, „Schach”, „Schachmatt”, „Rochade”, „schlägt”, Zugbewertungen wie „Brillanter Zug” und „Patzer” – wird in der gewählten Sprache gesprochen. Kommentare in Ihren PGN-Dateien werden so vorgelesen, wie sie geschrieben sind, also kommentieren Sie Ihre Partien in der Sprache, die Sie hören möchten.

Die TTS-Engine liest nicht einfach Rohtext vor – sie versteht Schachnotation. Bevor Text gesprochen wird, wandelt ein Vorverarbeitungsschritt PGN-Notation in natürliche Sprache um:

In PGN geschriebenGesprochen
Nf3„Knight f3”
Bxe6+„Bishop takes e6, check”
O-O-O„castles queenside”
e8=Q#„e8 promotes to Queen, checkmate”
Rae1„Rook a e1” (Disambiguierung)
5.Qxd8+ (in Kommentaren)„5, Queen takes d8, check”
en prise„on preez” (Französische Aussprache)
Ra8 is hanging„Rook on a8 is hanging”
R vs R„Rook versus Rook”
6...Bf5 (Zugnummernpunkte)„6, Bishop f5” (natürliche Pause, kein „Punkt”)

Kommentare werden vor dem Vorlesen bereinigt: [%eval], [%cal], [%csl]-Tags werden entfernt. Führende Bewertungswörter, die das NAG-Symbol duplizieren, werden entfernt (sodass ?? {BLUNDER. The rook hangs} nicht „Blunder. Blunder.” stottert).

Jede Wiedergabe wird nach der ersten Generierung im Speicher zwischengespeichert. Das Vor- und Zurücknavigieren durch eine Partie wird sofort aus dem Cache wiedergegeben – keine API-Aufrufe, keine Neugenerierungsverzögerung. Sie können auch einen gesamten Partiebaum im Hintergrund vorcachen lassen, sodass es während der Wiedergabe keinerlei Pausen gibt.

Der Cache wird durch provider:voiceId:lang:text indiziert, sodass ein Wechsel der Stimme oder des Anbieters separate Cache-Einträge erzeugt. Eine Änderung der Wiedergabegeschwindigkeit macht den Cache nicht ungültig – die Geschwindigkeit wird clientseitig auf das Audio-Element angewendet.

Ein Audio-Cache leeren-Button in den Einstellungen ermöglicht es Ihnen, nach dem Bearbeiten von Kommentaren eine Neugenerierung zu erzwingen.

  • Nutzen Sie die automatische Wiedergabe. Aktivieren Sie „Automatisches Vorlesen bei Zugwechsel” und verwenden Sie einfach die Pfeiltasten, um durch Partien zu navigieren. Der Kommentar kommt auf natürliche Weise, während Sie ziehen – wie ein Trainer an Ihrer Seite.

  • Kommentieren Sie Ihre eigenen Partien. TTS entfaltet seine volle Wirkung, wenn Sie Kommentare zu Ihren Partien hören. Kommentieren Sie Ihre Partien, dann navigieren Sie mit Wiedergabe hindurch. „Den Bauern zu schnappen sieht verlockend aus, aber Ihr gesamter Königsflügel schläft noch” zu hören, während Sie auf die Stellung starren, trifft anders als es zu lesen.

  • Probieren Sie verschiedene Geschwindigkeiten. Manche Spieler mögen 1x für sorgfältiges Studium, andere bevorzugen 1,3x für schnellere Durchsicht. Der Geschwindigkeitsregler passt die Wiedergabe in Echtzeit an, ohne zusätzliche API-Zeichen zu verbrauchen.

  • Nutzen Sie das Lautsprechersymbol. Jeder Kommentar in der Zugliste hat ein kleines Lautsprechersymbol. Klicken Sie darauf, um genau diesen einen Kommentar zu hören.

  • Wechseln Sie die Sprache, um Schachvokabular zu lernen. Wenn Sie Schach in einer Zweitsprache studieren, stellen Sie die TTS-Sprache entsprechend ein. Sie lernen ganz natürlich Begriffe wie „Cavalier” (Springer), „echec” (Schach) und „mat” (Schachmatt) einfach durch Zuhören.

Diese Richtlinien erzeugen die beste gesprochene Wiedergabe Ihrer PGN-Kommentare.

Verwenden Sie Standard-SAN-Notation. Der Präprozessor erweitert sie automatisch:

  • "After 7.Nf3, White controls e5" wird zu „After 7, Knight f3, White controls e5”
  • "The Bg5 pins the knight" wird zu „The Bishop g5 pins the knight”

Das NAG-Symbol (!, ??, !?, usw.) erzeugt automatisch gesprochene Bewertungswörter. Duplizieren Sie sie nicht im Kommentar:

  • Schlecht: ?? {BLUNDER. A terrible move...} – TTS sagt „Blunder. Blunder. A terrible move”
  • Gut: ?? {A terrible move...} – TTS sagt „Blunder. A terrible move”

Standard-PGN-Notation funktioniert: 6...Bf5. Der Präprozessor wandelt Punkte in Kommas für natürliche Pausen um, statt „Punkt Punkt Punkt” zu sagen.

Punkte erzeugen natürliche TTS-Pausen. Verwenden Sie sie zwischen verschiedenen Ideen:

{Doubled isolated e-pawns. The f-file is ripped open. The position is strategically won.}

[%cal ...]- und [%csl ...]-Tags werden automatisch aus dem Audio entfernt. Verwenden Sie sie frei für visuelle Kommentare, ohne die Wiedergabe zu beeinflussen.

Ein Hinweis zur Weiterverbreitung für alle, die auf En Parlant~ aufbauen:

  • ElevenLabs – Sie behalten alle Rechte an Ihrem generierten Audio (ElevenLabs Terms of Use, Abschnitt c(ii)). Sie können es frei weiterverbreiten.
  • Google Cloud – Sie behalten alle geistigen Eigentumsrechte am generierten Audio. Keine Einschränkungen.
  • KittenTTS, OpenTTS, System-TTS – Keine Weiterverbreitungsbeschränkungen für generiertes Audio.

En Croissant ist ein Open-Source-Schachstudien-Tool, erstellt von Francisco Salgueiro. Francisco hat etwas wirklich Besonderes geschaffen – eine kostenlose, leistungsstarke, von der Community getragene Plattform zum Schachstudium – und es unter der GPL-3.0-Lizenz veröffentlicht, damit jeder es nutzen, verbessern und teilen kann. Diese TTS-Funktion existiert dank dieser Großzügigkeit. Wir sind dankbar für das Fundament, das er geschaffen hat, und wir sind stolz, dazu beizutragen.

Das TTS-Plugin wurde von Darrell bei Red Shed entwickelt, mit Hilfe von Claude Code. Fünf Anbieter, Mehrsprachunterstützung, übersetztes Schachvokabular in zahlreichen Sprachen, lokale KI-Inferenz, Abhängigkeitsverwaltung – aus dem Quellcode gebaut, von Hand getestet und mit Sorgfalt beigesteuert.

Das ist die Schönheit von Open Source. Jemand baut etwas Großartiges. Jemand anderes erweitert es. Alle profitieren davon.

Wir würden gerne hören, wie TTS bei Ihnen funktioniert. Kommentare, Vorschläge und Feedback sind immer willkommen.

  • Wünschen Sie eine Sprache, die wir noch nicht unterstützen? Lassen Sie es uns wissen – wir können neue Sprachen schnell hinzufügen.
  • Einen Fehler gefunden? Sagen Sie uns Bescheid und wir beheben ihn schnell.
  • Eine Idee für einen weiteren TTS-Anbieter? Wir fügen ihn gerne hinzu.
  • Möchten Sie einfach sagen, dass es funktioniert? Das freut uns auch.

Eröffnen Sie ein Issue auf GitHub oder kontaktieren Sie uns direkt unter darrell@redshed.ai.