Aperçu des fournisseurs TTS
Pourquoi la synthèse vocale transforme votre façon d’étudier les échecs
Section intitulée « Pourquoi la synthèse vocale transforme votre façon d’étudier les échecs »Lorsque vous passez en revue une partie annotée, vos yeux font double emploi. Vous essayez de suivre les pièces sur l’échiquier et de lire les commentaires en même temps. Votre regard va et vient entre l’échiquier et le panneau d’annotations, et à chaque aller-retour, vous perdez la position l’espace d’un instant. Vous devez retrouver les pièces, retracer les lignes, reconstruire l’image dans votre tête.
La synthèse vocale (TTS) résout entièrement ce problème.
Avec le TTS activé, vous parcourez une partie et les annotations vous sont lues à voix haute. Vos yeux restent sur l’échiquier. Vous voyez le cavalier se poser en f3 tandis qu’une voix vous explique pourquoi c’est un bon coup de développement. Vous observez la structure de pions évoluer pendant que le commentaire explique l’idée stratégique sous-jacente. L’échiquier et les mots arrivent ensemble, comme un entraîneur assis en face de vous vous enseignerait.
C’est particulièrement efficace pour :
- L’étude des ouvertures — entendez les idées derrière chaque coup tout en observant la position se développer
- La revue de parties — parcourez vos propres parties annotées et assimilez les leçons naturellement
- La pratique des finales — gardez votre attention sur les cases critiques pendant que le commentaire vous guide
- L’immersion linguistique — étudiez les échecs en français, allemand, espagnol, russe, japonais, chinois ou coréen avec tous les termes échiquéens correctement traduits. Entendez « Cavalier f3, échec » au lieu de « Knight f3, check ». Apprenez le jeu dans la langue dans laquelle vous pensez.
- L’accessibilité — pour les joueurs qui trouvent plus facile d’écouter que de lire, ou qui souhaitent étudier loin d’un bureau
Une fois que vous l’aurez essayé, revenir aux annotations silencieuses vous donnera l’impression de regarder un film en muet.
Choisir un fournisseur
Section intitulée « Choisir un fournisseur »En Parlant~ est livré avec cinq fournisseurs TTS, allant des API cloud avec des voix de qualité studio à des options entièrement locales ne nécessitant aucune connexion internet. Vous n’en avez besoin que d’un seul pour commencer. Ils sont listés ci-dessous de la meilleure à la moins bonne qualité vocale.
ElevenLabs
Section intitulée « ElevenLabs »La meilleure qualité vocale disponible. ElevenLabs produit une synthèse expressive et réaliste, avec une vraie personnalité — certaines voix ressemblent à des narrateurs de livres audio, d’autres à des présentateurs. Des dizaines de voix uniques à choisir. Prend en charge plus de 34 langues, y compris une excellente prononciation CJK (japonais, chinois, coréen), ainsi que l’arabe, l’hindi et toutes les grandes langues européennes.
Le forfait gratuit vous donne 10 000 caractères par mois (suffisant pour 2 à 5 parties annotées). Les forfaits payants commencent à 5 $/mois pour 30 000 caractères. La configuration est simple : créez un compte, copiez votre clé API, collez-la dans En Parlant~.
Nécessite une connexion internet. Idéal pour les amateurs de qualité vocale.
Guide de configuration ElevenLabs
Google Cloud TTS
Section intitulée « Google Cloud TTS »Le meilleur équilibre entre qualité, prise en charge des langues et rapport qualité-prix. Les voix neurales WaveNet de Google sont naturelles et claires dans plus de 30 langues — y compris le CJK, l’arabe, l’hindi, le bengali, le filipino, le vietnamien et toutes les grandes langues européennes. Le forfait gratuit est généreux — un million de caractères par mois couvre des centaines de parties annotées.
La configuration prend environ 5 minutes : créez un compte Google Cloud, activez l’API Text-to-Speech, générez une clé API. Aucun frais à moins de dépasser le forfait gratuit (très difficile à atteindre avec des annotations d’échecs).
Nécessite une connexion internet. Idéal pour la plupart des utilisateurs.
Guide de configuration Google Cloud
KittenTTS
Section intitulée « KittenTTS »IA locale de haute qualité qui fonctionne entièrement sur votre machine. Utilise un modèle neural léger d’environ 25 Mo avec 8 voix expressives (4 masculines, 4 féminines). La qualité est remarquable — intonation naturelle, prononciation claire, expressivité authentique.
La contrepartie, c’est le matériel : KittenTTS utilise PyTorch pour l’inférence CPU, il faut donc un processeur multicœur moderne. Sur une machine à 8 cœurs, le résultat est excellent ; sur un ordinateur portable plus ancien, vous pourriez remarquer un décalage. Anglais uniquement pour le moment.
La première fois qu’une annotation est prononcée, il y a un bref délai de génération (1 à 2 secondes sur un CPU rapide, plus long sur du matériel plus lent). Ensuite, l’audio est mis en cache en mémoire et se rejoue instantanément — naviguer en avant et en arrière parmi les coups déjà entendus ne génère aucun délai. Vous pouvez également pré-générer le cache d’une partie entière en arrière-plan depuis les paramètres, afin que chaque annotation soit prête avant que vous ne commenciez à étudier.
Aucune connexion internet requise. Aucune clé API. Meilleure qualité locale.
Guide de configuration KittenTTS
Un serveur TTS open source qui fonctionne sur votre machine via Docker. Rien ne quitte votre ordinateur. Intègre plusieurs moteurs TTS (Larynx, Festival, eSpeak, Coqui-TTS), offrant plus de 75 voix rien que pour l’anglais.
La contrepartie, c’est la qualité vocale : ce sont des moteurs neuraux et à base de règles plus anciens, donc le résultat sonne plus robotique qu’ElevenLabs ou Google. Fonctionne mieux avec les langues européennes (anglais, allemand, français, espagnol, russe, néerlandais, suédois, italien, et plus) — le CJK n’est pas pris en charge. Honnêtement, si vous allez vous donner la peine de configurer un modèle local, KittenTTS vous offre une meilleure qualité avec moins de complications. À moins d’une demande significative pour OpenTTS, nous le retirerons probablement dans une version future.
Aucune connexion internet requise. Aucune clé API. Idéal pour une confidentialité maximale avec de nombreuses options de voix.
Guide de configuration OpenTTS
TTS Système
Section intitulée « TTS Système »La synthèse vocale intégrée à votre système d’exploitation. Rien à installer, pas de clés API, pas de serveurs. Sélectionnez-le et c’est parti. La qualité vocale est basique — vous entendrez le ton robotique caractéristique du TTS au niveau de l’OS — mais cela fonctionne instantanément sans aucune configuration.
Sur Linux, c’est typiquement eSpeak ou speech-dispatcher ; sur macOS, c’est la voix système ; sur Windows, c’est SAPI. La prise en charge des langues dépend entièrement des packs vocaux installés sur votre système d’exploitation.
Aucune connexion internet requise. Idéal pour un test rapide.
Guide de configuration TTS Système
Comparaison des fournisseurs
Section intitulée « Comparaison des fournisseurs »| Fournisseur | Type | Qualité | Configuration | Langues |
|---|---|---|---|---|
| ElevenLabs | API cloud | Exceptionnelle | Clé API | 34+ (incl. CJK) |
| Google Cloud | API cloud | Très bonne (WaveNet) | Clé API | 30+ (incl. CJK) |
| KittenTTS | IA neurale locale | Bonne | Python + venv | Anglais uniquement |
| OpenTTS | Docker local | Correcte | Docker | Langues européennes uniquement |
| Système (OS natif) | Intégré à l’OS | Basique | Aucune | Dépend de l’OS |
Note matérielle : Les fournisseurs locaux (KittenTTS et OpenTTS) exécutent l’inférence neurale sur votre CPU. Ils nécessitent un processeur multicœur moderne (8+ cœurs recommandés) pour générer la parole sans décalage perceptible. Considérez-le comme l’exécution d’un moteur d’échecs supplémentaire sur votre machine. Si votre machine est ancienne ou peu puissante, utilisez plutôt l’un des fournisseurs cloud.
Notre recommandation
Section intitulée « Notre recommandation »Commencez avec ElevenLabs si vous voulez la qualité vocale la plus riche — le forfait gratuit suffit pour l’essayer. Pour le meilleur équilibre entre qualité et utilisation gratuite, Google Cloud couvre des centaines de parties par mois. Pour un TTS local de haute qualité sans dépendance au cloud, KittenTTS est excellent si vous disposez d’un CPU moderne. Pour un test sans aucune configuration, le TTS Système fonctionne instantanément. Pour une confidentialité maximale avec de nombreuses options de voix, OpenTTS exécute tout en local via Docker.
Référence des paramètres
Section intitulée « Référence des paramètres »Tous les paramètres TTS se trouvent dans Paramètres > Son :
| Paramètre | Fonction |
|---|---|
| Text-to-Speech | Interrupteur principal pour toutes les fonctionnalités TTS |
| Auto-Narrate on Move | Prononce automatiquement les annotations lorsque vous parcourez les coups |
| TTS Provider | Basculer entre les cinq fournisseurs |
| TTS Voice | Sélection de la voix spécifique au fournisseur |
| TTS Language | Langue de narration — les termes échiquéens sont traduits automatiquement |
| TTS Volume | Volume de la narration |
| TTS Speed | Vitesse de lecture (0,5x à 2x) — s’ajuste sans re-générer l’audio |
| ElevenLabs API Key | Votre clé API ElevenLabs (affiché uniquement lors de l’utilisation d’ElevenLabs) |
| Google Cloud API Key | Votre clé API Google Cloud (affiché uniquement lors de l’utilisation de Google) |
| KittenTTS CPU Threads | Threads CPU pour l’inférence (0 = auto / utiliser tous les cœurs) |
| TTS Audio Cache | Vider le cache audio pour forcer la re-génération |
Langues prises en charge
Section intitulée « Langues prises en charge »La narration TTS prend en charge de nombreuses langues avec un vocabulaire échiquéen entièrement traduit. Voici quelques exemples :
| Langue | Exemple échiquéen |
|---|---|
| English | Knight f3, check. A strong developing move. |
| Français | Cavalier f3, echec. Un coup de developpement fort. |
| Español | Caballo f3, jaque. Un fuerte movimiento. |
| Deutsch | Springer f3, Schach. Ein starker Entwicklungszug. |
| 日本語 | ナイト f3、チェック。強い展開の手。 |
| Русский | Конь f3, шах. Сильный развивающий ход. |
| 中文 | 马 f3,将军。一步控制中心的强力出子。 |
| 한국어 | 나이트 f3, 체크. 중앙을 지배하는 강력한 전개 수. |
Chaque terme échiquéen — noms des pièces, « échec », « échec et mat », « roque », « prend », annotations de qualité des coups comme « Coup brillant » et « Gaffe » — est prononcé dans la langue sélectionnée. Les commentaires de vos fichiers PGN sont lus tels qu’ils sont écrits, donc annotez vos parties dans la langue que vous souhaitez entendre.
Prétraitement du texte adapté aux échecs
Section intitulée « Prétraitement du texte adapté aux échecs »Le moteur TTS ne se contente pas de lire le texte brut — il comprend la notation échiquéenne. Avant toute lecture, une étape de prétraitement convertit la notation PGN en langage naturel :
| Écrit en PGN | Prononcé à voix haute |
|---|---|
Nf3 | ”Knight f3” |
Bxe6+ | ”Bishop takes e6, check” |
O-O-O | ”castles queenside” |
e8=Q# | ”e8 promotes to Queen, checkmate” |
Rae1 | ”Rook a e1” (désambiguïsation) |
5.Qxd8+ (dans les commentaires) | “5, Queen takes d8, check” |
en prise | ”on preez” (prononciation française) |
Ra8 is hanging | ”Rook on a8 is hanging” |
R vs R | ”Rook versus Rook” |
6...Bf5 (points de numéro de coup) | “6, Bishop f5” (pause naturelle, pas de « point ») |
Les commentaires sont nettoyés avant la lecture : les balises [%eval], [%cal], [%csl] sont supprimées. Les mots de qualité en début de commentaire qui dupliquent le symbole NAG sont retirés (ainsi ?? {BLUNDER. The rook hangs} ne bégaie pas « Gaffe. Gaffe. »).
Mise en cache
Section intitulée « Mise en cache »Chaque narration est mise en cache en mémoire après la première génération. Naviguer en avant et en arrière dans une partie se rejoue instantanément depuis le cache — pas d’appels API, pas de délai de re-génération. Vous pouvez également pré-générer le cache de l’intégralité de l’arbre d’une partie en arrière-plan afin qu’il n’y ait aucune pause pendant la lecture.
Le cache est indexé par provider:voiceId:lang:text, donc changer de voix ou de fournisseur crée des entrées de cache distinctes. Changer la vitesse de lecture n’invalide pas le cache — la vitesse est appliquée côté client sur l’élément audio.
Un bouton Clear Audio Cache dans les Paramètres vous permet de forcer la re-génération après modification des annotations.
Conseils pour la meilleure expérience
Section intitulée « Conseils pour la meilleure expérience »-
Utilisez la narration automatique. Activez « Auto-Narrate on Move » et utilisez simplement vos touches fléchées pour parcourir les parties. Le commentaire arrive naturellement au fil des coups, comme si vous aviez un entraîneur à vos côtés.
-
Annotez vos propres parties. Le TTS prend toute sa dimension quand vous écoutez des commentaires sur vos parties. Annotez vos parties, puis parcourez-les avec la narration. Entendre « Prendre le pion est tentant, mais toute votre aile roi est encore endormie » en fixant la position, c’est bien différent de le lire.
-
Essayez différentes vitesses. Certains joueurs préfèrent 1x pour une étude attentive, d’autres préfèrent 1,3x pour une revue plus rapide. Le curseur de vitesse ajuste la lecture en temps réel sans consommer de caractères API supplémentaires.
-
Utilisez l’icône de haut-parleur. Chaque commentaire dans la liste des coups dispose d’une petite icône de haut-parleur. Cliquez dessus pour entendre uniquement cette annotation.
-
Changez de langue pour apprendre le vocabulaire échiquéen. Si vous étudiez les échecs dans une seconde langue, réglez la langue TTS en conséquence. Vous apprendrez naturellement des termes comme « Cavalier » (Knight), « échec » (check) et « mat » (checkmate) simplement en écoutant.
Rédiger des annotations adaptées au TTS
Section intitulée « Rédiger des annotations adaptées au TTS »Ces recommandations produisent la meilleure narration vocale à partir de vos annotations PGN.
SAN dans les commentaires
Section intitulée « SAN dans les commentaires »Utilisez la notation SAN standard. Le préprocesseur la développe automatiquement :
"After 7.Nf3, White controls e5"devient « After 7, Knight f3, White controls e5 »"The Bg5 pins the knight"devient « The Bishop g5 pins the knight »
Symboles d’annotation
Section intitulée « Symboles d’annotation »Le glyphe NAG (!, ??, !?, etc.) génère automatiquement les mots de qualité prononcés. Ne les dupliquez pas dans le commentaire :
- Mauvais :
?? {BLUNDER. A terrible move...}— le TTS dit « Blunder. Blunder. A terrible move » - Bon :
?? {A terrible move...}— le TTS dit « Blunder. A terrible move »
Points de numéro de coup
Section intitulée « Points de numéro de coup »La notation PGN standard fonctionne : 6...Bf5. Le préprocesseur convertit les points en virgules pour des pauses naturelles au lieu de « point point point ».
Points pour le rythme
Section intitulée « Points pour le rythme »Les points créent des pauses naturelles dans le TTS. Utilisez-les entre des idées distinctes :
{Doubled isolated e-pawns. The f-file is ripped open. The position is strategically won.}Flèches et cercles
Section intitulée « Flèches et cercles »Les balises [%cal ...] et [%csl ...] sont automatiquement supprimées de l’audio. Utilisez-les librement pour les annotations visuelles sans affecter la narration.
Licences audio
Section intitulée « Licences audio »Une note sur la redistribution pour quiconque développe à partir d’En Parlant~ :
- ElevenLabs — Vous conservez tous les droits sur votre audio généré (Conditions d’utilisation ElevenLabs, section c(ii)). Vous pouvez le redistribuer librement.
- Google Cloud — Vous conservez tous les droits de propriété intellectuelle sur l’audio généré. Aucune restriction.
- KittenTTS, OpenTTS, TTS Système — Aucune restriction de redistribution sur l’audio généré.
À propos de cette fonctionnalité
Section intitulée « À propos de cette fonctionnalité »En Croissant est un outil d’étude d’échecs open source créé par Francisco Salgueiro. Francisco a construit quelque chose de véritablement spécial — une plateforme gratuite, puissante et communautaire pour étudier les échecs — et l’a publié sous licence GPL-3.0 pour que chacun puisse l’utiliser, l’améliorer et le partager. Cette fonctionnalité TTS existe grâce à cette générosité. Nous sommes reconnaissants pour les fondations qu’il a bâties, et nous sommes fiers d’y contribuer en retour.
Le plugin TTS a été développé par Darrell chez Red Shed, avec l’aide de Claude Code. Cinq fournisseurs, prise en charge multilingue, vocabulaire échiquéen traduit dans de nombreuses langues, inférence IA locale, gestion des dépendances — construit depuis les sources, testé à la main et contribué avec soin.
C’est la beauté de l’open source. Quelqu’un construit quelque chose de remarquable. Quelqu’un d’autre y ajoute sa pierre. Tout le monde en bénéficie.
Contactez-nous
Section intitulée « Contactez-nous »Nous serions ravis de savoir comment le TTS fonctionne pour vous. Les commentaires, suggestions et retours sont toujours les bienvenus.
- Vous souhaitez une langue que nous ne prenons pas encore en charge ? Faites-le nous savoir — nous pouvons ajouter de nouvelles langues rapidement.
- Vous avez trouvé un bug ? Signalez-le nous et nous le corrigerons rapidement.
- Vous avez une idée pour un autre fournisseur TTS ? Nous serons ravis de l’ajouter.
- Vous voulez simplement nous dire que ça fonctionne ? Ça fait toujours plaisir à entendre.
Ouvrez une issue sur GitHub, ou contactez-nous directement à darrell@redshed.ai.