Aperçu des fournisseurs TTS

Pourquoi la synthèse vocale transforme votre façon d’étudier les échecs

Lorsque vous passez en revue une partie annotée, vos yeux font double emploi. Vous essayez de suivre les pièces sur l’échiquier et de lire les commentaires en même temps. Votre regard va et vient entre l’échiquier et le panneau d’annotations, et à chaque aller-retour, vous perdez la position l’espace d’un instant. Vous devez retrouver les pièces, retracer les lignes, reconstruire l’image dans votre tête.

La synthèse vocale (TTS) résout entièrement ce problème.

Avec le TTS activé, vous parcourez une partie et les annotations vous sont lues à voix haute. Vos yeux restent sur l’échiquier. Vous voyez le cavalier se poser en f3 tandis qu’une voix vous explique pourquoi c’est un bon coup de développement. Vous observez la structure de pions évoluer pendant que le commentaire explique l’idée stratégique sous-jacente. L’échiquier et les mots arrivent ensemble, comme un entraîneur assis en face de vous vous enseignerait.

C’est particulièrement efficace pour :

L’étude des ouvertures — entendez les idées derrière chaque coup tout en observant la position se développer
La revue de parties — parcourez vos propres parties annotées et assimilez les leçons naturellement
La pratique des finales — gardez votre attention sur les cases critiques pendant que le commentaire vous guide
L’immersion linguistique — étudiez les échecs en français, allemand, espagnol, russe, japonais, chinois ou coréen avec tous les termes échiquéens correctement traduits. Entendez « Cavalier f3, échec » au lieu de « Knight f3, check ». Apprenez le jeu dans la langue dans laquelle vous pensez.
L’accessibilité — pour les joueurs qui trouvent plus facile d’écouter que de lire, ou qui souhaitent étudier loin d’un bureau

Une fois que vous l’aurez essayé, revenir aux annotations silencieuses vous donnera l’impression de regarder un film en muet.

Choisir un fournisseur

En Parlant~ est livré avec cinq fournisseurs TTS, allant des API cloud avec des voix de qualité studio à des options entièrement locales ne nécessitant aucune connexion internet. Vous n’en avez besoin que d’un seul pour commencer. Ils sont listés ci-dessous de la meilleure à la moins bonne qualité vocale.

ElevenLabs

La meilleure qualité vocale disponible. ElevenLabs produit une synthèse expressive et réaliste, avec une vraie personnalité — certaines voix ressemblent à des narrateurs de livres audio, d’autres à des présentateurs. Des dizaines de voix uniques à choisir. Prend en charge plus de 34 langues, y compris une excellente prononciation CJK (japonais, chinois, coréen), ainsi que l’arabe, l’hindi et toutes les grandes langues européennes.

Le forfait gratuit vous donne 10 000 caractères par mois (suffisant pour 2 à 5 parties annotées). Les forfaits payants commencent à 5 $/mois pour 30 000 caractères. La configuration est simple : créez un compte, copiez votre clé API, collez-la dans En Parlant~.

Nécessite une connexion internet. Idéal pour les amateurs de qualité vocale.

Guide de configuration ElevenLabs

Google Cloud TTS

Le meilleur équilibre entre qualité, prise en charge des langues et rapport qualité-prix. Les voix neurales WaveNet de Google sont naturelles et claires dans plus de 30 langues — y compris le CJK, l’arabe, l’hindi, le bengali, le filipino, le vietnamien et toutes les grandes langues européennes. Le forfait gratuit est généreux — un million de caractères par mois couvre des centaines de parties annotées.

La configuration prend environ 5 minutes : créez un compte Google Cloud, activez l’API Text-to-Speech, générez une clé API. Aucun frais à moins de dépasser le forfait gratuit (très difficile à atteindre avec des annotations d’échecs).

Nécessite une connexion internet. Idéal pour la plupart des utilisateurs.

Guide de configuration Google Cloud

KittenTTS

IA locale de haute qualité qui fonctionne entièrement sur votre machine. Utilise un modèle neural léger d’environ 25 Mo avec 8 voix expressives (4 masculines, 4 féminines). La qualité est remarquable — intonation naturelle, prononciation claire, expressivité authentique.

La contrepartie, c’est le matériel : KittenTTS utilise PyTorch pour l’inférence CPU, il faut donc un processeur multicœur moderne. Sur une machine à 8 cœurs, le résultat est excellent ; sur un ordinateur portable plus ancien, vous pourriez remarquer un décalage. Anglais uniquement pour le moment.

La première fois qu’une annotation est prononcée, il y a un bref délai de génération (1 à 2 secondes sur un CPU rapide, plus long sur du matériel plus lent). Ensuite, l’audio est mis en cache en mémoire et se rejoue instantanément — naviguer en avant et en arrière parmi les coups déjà entendus ne génère aucun délai. Vous pouvez également pré-générer le cache d’une partie entière en arrière-plan depuis les paramètres, afin que chaque annotation soit prête avant que vous ne commenciez à étudier.

Aucune connexion internet requise. Aucune clé API. Meilleure qualité locale.

Guide de configuration KittenTTS

OpenTTS

Un serveur TTS open source qui fonctionne sur votre machine via Docker. Rien ne quitte votre ordinateur. Intègre plusieurs moteurs TTS (Larynx, Festival, eSpeak, Coqui-TTS), offrant plus de 75 voix rien que pour l’anglais.

La contrepartie, c’est la qualité vocale : ce sont des moteurs neuraux et à base de règles plus anciens, donc le résultat sonne plus robotique qu’ElevenLabs ou Google. Fonctionne mieux avec les langues européennes (anglais, allemand, français, espagnol, russe, néerlandais, suédois, italien, et plus) — le CJK n’est pas pris en charge. Honnêtement, si vous allez vous donner la peine de configurer un modèle local, KittenTTS vous offre une meilleure qualité avec moins de complications. À moins d’une demande significative pour OpenTTS, nous le retirerons probablement dans une version future.

Aucune connexion internet requise. Aucune clé API. Idéal pour une confidentialité maximale avec de nombreuses options de voix.

Guide de configuration OpenTTS

TTS Système

La synthèse vocale intégrée à votre système d’exploitation. Rien à installer, pas de clés API, pas de serveurs. Sélectionnez-le et c’est parti. La qualité vocale est basique — vous entendrez le ton robotique caractéristique du TTS au niveau de l’OS — mais cela fonctionne instantanément sans aucune configuration.

Sur Linux, c’est typiquement eSpeak ou speech-dispatcher ; sur macOS, c’est la voix système ; sur Windows, c’est SAPI. La prise en charge des langues dépend entièrement des packs vocaux installés sur votre système d’exploitation.

Aucune connexion internet requise. Idéal pour un test rapide.

Guide de configuration TTS Système

Comparaison des fournisseurs

Fournisseur	Type	Qualité	Configuration	Langues
ElevenLabs	API cloud	Exceptionnelle	Clé API	34+ (incl. CJK)
Google Cloud	API cloud	Très bonne (WaveNet)	Clé API	30+ (incl. CJK)
KittenTTS	IA neurale locale	Bonne	Python + venv	Anglais uniquement
OpenTTS	Docker local	Correcte	Docker	Langues européennes uniquement
Système (OS natif)	Intégré à l’OS	Basique	Aucune	Dépend de l’OS

Note matérielle : Les fournisseurs locaux (KittenTTS et OpenTTS) exécutent l’inférence neurale sur votre CPU. Ils nécessitent un processeur multicœur moderne (8+ cœurs recommandés) pour générer la parole sans décalage perceptible. Considérez-le comme l’exécution d’un moteur d’échecs supplémentaire sur votre machine. Si votre machine est ancienne ou peu puissante, utilisez plutôt l’un des fournisseurs cloud.

Notre recommandation

Commencez avec ElevenLabs si vous voulez la qualité vocale la plus riche — le forfait gratuit suffit pour l’essayer. Pour le meilleur équilibre entre qualité et utilisation gratuite, Google Cloud couvre des centaines de parties par mois. Pour un TTS local de haute qualité sans dépendance au cloud, KittenTTS est excellent si vous disposez d’un CPU moderne. Pour un test sans aucune configuration, le TTS Système fonctionne instantanément. Pour une confidentialité maximale avec de nombreuses options de voix, OpenTTS exécute tout en local via Docker.

Référence des paramètres

Tous les paramètres TTS se trouvent dans Paramètres > Son :

Paramètre	Fonction
Text-to-Speech	Interrupteur principal pour toutes les fonctionnalités TTS
Auto-Narrate on Move	Prononce automatiquement les annotations lorsque vous parcourez les coups
TTS Provider	Basculer entre les cinq fournisseurs
TTS Voice	Sélection de la voix spécifique au fournisseur
TTS Language	Langue de narration — les termes échiquéens sont traduits automatiquement
TTS Volume	Volume de la narration
TTS Speed	Vitesse de lecture (0,5x à 2x) — s’ajuste sans re-générer l’audio
ElevenLabs API Key	Votre clé API ElevenLabs (affiché uniquement lors de l’utilisation d’ElevenLabs)
Google Cloud API Key	Votre clé API Google Cloud (affiché uniquement lors de l’utilisation de Google)
KittenTTS CPU Threads	Threads CPU pour l’inférence (0 = auto / utiliser tous les cœurs)
TTS Audio Cache	Vider le cache audio pour forcer la re-génération

Langues prises en charge

La narration TTS prend en charge de nombreuses langues avec un vocabulaire échiquéen entièrement traduit. Voici quelques exemples :

Langue	Exemple échiquéen
English	Knight f3, check. A strong developing move.
Français	Cavalier f3, echec. Un coup de developpement fort.
Español	Caballo f3, jaque. Un fuerte movimiento.
Deutsch	Springer f3, Schach. Ein starker Entwicklungszug.
日本語	ナイト f3、チェック。強い展開の手。
Русский	Конь f3, шах. Сильный развивающий ход.
中文	马 f3，将军。一步控制中心的强力出子。
한국어	나이트 f3, 체크. 중앙을 지배하는 강력한 전개 수.

Chaque terme échiquéen — noms des pièces, « échec », « échec et mat », « roque », « prend », annotations de qualité des coups comme « Coup brillant » et « Gaffe » — est prononcé dans la langue sélectionnée. Les commentaires de vos fichiers PGN sont lus tels qu’ils sont écrits, donc annotez vos parties dans la langue que vous souhaitez entendre.

Prétraitement du texte adapté aux échecs

Le moteur TTS ne se contente pas de lire le texte brut — il comprend la notation échiquéenne. Avant toute lecture, une étape de prétraitement convertit la notation PGN en langage naturel :

Écrit en PGN	Prononcé à voix haute
`Nf3`	”Knight f3”
`Bxe6+`	”Bishop takes e6, check”
`O-O-O`	”castles queenside”
`e8=Q#`	”e8 promotes to Queen, checkmate”
`Rae1`	”Rook a e1” (désambiguïsation)
`5.Qxd8+` (dans les commentaires)	“5, Queen takes d8, check”
`en prise`	”on preez” (prononciation française)
`Ra8 is hanging`	”Rook on a8 is hanging”
`R vs R`	”Rook versus Rook”
`6...Bf5` (points de numéro de coup)	“6, Bishop f5” (pause naturelle, pas de « point »)

Les commentaires sont nettoyés avant la lecture : les balises [%eval], [%cal], [%csl] sont supprimées. Les mots de qualité en début de commentaire qui dupliquent le symbole NAG sont retirés (ainsi ?? {BLUNDER. The rook hangs} ne bégaie pas « Gaffe. Gaffe. »).

Mise en cache

Chaque narration est mise en cache en mémoire après la première génération. Naviguer en avant et en arrière dans une partie se rejoue instantanément depuis le cache — pas d’appels API, pas de délai de re-génération. Vous pouvez également pré-générer le cache de l’intégralité de l’arbre d’une partie en arrière-plan afin qu’il n’y ait aucune pause pendant la lecture.

Le cache est indexé par provider:voiceId:lang:text, donc changer de voix ou de fournisseur crée des entrées de cache distinctes. Changer la vitesse de lecture n’invalide pas le cache — la vitesse est appliquée côté client sur l’élément audio.

Un bouton Clear Audio Cache dans les Paramètres vous permet de forcer la re-génération après modification des annotations.

Conseils pour la meilleure expérience

Utilisez la narration automatique. Activez « Auto-Narrate on Move » et utilisez simplement vos touches fléchées pour parcourir les parties. Le commentaire arrive naturellement au fil des coups, comme si vous aviez un entraîneur à vos côtés.
Annotez vos propres parties. Le TTS prend toute sa dimension quand vous écoutez des commentaires sur vos parties. Annotez vos parties, puis parcourez-les avec la narration. Entendre « Prendre le pion est tentant, mais toute votre aile roi est encore endormie » en fixant la position, c’est bien différent de le lire.
Essayez différentes vitesses. Certains joueurs préfèrent 1x pour une étude attentive, d’autres préfèrent 1,3x pour une revue plus rapide. Le curseur de vitesse ajuste la lecture en temps réel sans consommer de caractères API supplémentaires.
Utilisez l’icône de haut-parleur. Chaque commentaire dans la liste des coups dispose d’une petite icône de haut-parleur. Cliquez dessus pour entendre uniquement cette annotation.
Changez de langue pour apprendre le vocabulaire échiquéen. Si vous étudiez les échecs dans une seconde langue, réglez la langue TTS en conséquence. Vous apprendrez naturellement des termes comme « Cavalier » (Knight), « échec » (check) et « mat » (checkmate) simplement en écoutant.

Rédiger des annotations adaptées au TTS

Ces recommandations produisent la meilleure narration vocale à partir de vos annotations PGN.

SAN dans les commentaires

Utilisez la notation SAN standard. Le préprocesseur la développe automatiquement :

"After 7.Nf3, White controls e5" devient « After 7, Knight f3, White controls e5 »
"The Bg5 pins the knight" devient « The Bishop g5 pins the knight »

Symboles d’annotation

Le glyphe NAG (!, ??, !?, etc.) génère automatiquement les mots de qualité prononcés. Ne les dupliquez pas dans le commentaire :

Mauvais : ?? {BLUNDER. A terrible move...} — le TTS dit « Blunder. Blunder. A terrible move »
Bon : ?? {A terrible move...} — le TTS dit « Blunder. A terrible move »

Points de numéro de coup

La notation PGN standard fonctionne : 6...Bf5. Le préprocesseur convertit les points en virgules pour des pauses naturelles au lieu de « point point point ».

Points pour le rythme

Les points créent des pauses naturelles dans le TTS. Utilisez-les entre des idées distinctes :

{Doubled isolated e-pawns. The f-file is ripped open. The position is strategically won.}

Flèches et cercles

Les balises [%cal ...] et [%csl ...] sont automatiquement supprimées de l’audio. Utilisez-les librement pour les annotations visuelles sans affecter la narration.

Licences audio

Une note sur la redistribution pour quiconque développe à partir d’En Parlant~ :

ElevenLabs — Vous conservez tous les droits sur votre audio généré (Conditions d’utilisation ElevenLabs, section c(ii)). Vous pouvez le redistribuer librement.
Google Cloud — Vous conservez tous les droits de propriété intellectuelle sur l’audio généré. Aucune restriction.
KittenTTS, OpenTTS, TTS Système — Aucune restriction de redistribution sur l’audio généré.

À propos de cette fonctionnalité

En Croissant est un outil d’étude d’échecs open source créé par Francisco Salgueiro. Francisco a construit quelque chose de véritablement spécial — une plateforme gratuite, puissante et communautaire pour étudier les échecs — et l’a publié sous licence GPL-3.0 pour que chacun puisse l’utiliser, l’améliorer et le partager. Cette fonctionnalité TTS existe grâce à cette générosité. Nous sommes reconnaissants pour les fondations qu’il a bâties, et nous sommes fiers d’y contribuer en retour.

Le plugin TTS a été développé par Darrell chez Red Shed, avec l’aide de Claude Code. Cinq fournisseurs, prise en charge multilingue, vocabulaire échiquéen traduit dans de nombreuses langues, inférence IA locale, gestion des dépendances — construit depuis les sources, testé à la main et contribué avec soin.

C’est la beauté de l’open source. Quelqu’un construit quelque chose de remarquable. Quelqu’un d’autre y ajoute sa pierre. Tout le monde en bénéficie.

Contactez-nous

Nous serions ravis de savoir comment le TTS fonctionne pour vous. Les commentaires, suggestions et retours sont toujours les bienvenus.

Vous souhaitez une langue que nous ne prenons pas encore en charge ? Faites-le nous savoir — nous pouvons ajouter de nouvelles langues rapidement.
Vous avez trouvé un bug ? Signalez-le nous et nous le corrigerons rapidement.
Vous avez une idée pour un autre fournisseur TTS ? Nous serons ravis de l’ajouter.
Vous voulez simplement nous dire que ça fonctionne ? Ça fait toujours plaisir à entendre.

Ouvrez une issue sur GitHub, ou contactez-nous directement à darrell@redshed.ai.