Aller au contenu

Aperçu des fournisseurs TTS

Pourquoi la synthèse vocale transforme votre façon d’étudier les échecs

Section intitulée « Pourquoi la synthèse vocale transforme votre façon d’étudier les échecs »

Lorsque vous passez en revue une partie annotée, vos yeux font double emploi. Vous essayez de suivre les pièces sur l’échiquier et de lire les commentaires en même temps. Votre regard va et vient entre l’échiquier et le panneau d’annotations, et à chaque aller-retour, vous perdez la position l’espace d’un instant. Vous devez retrouver les pièces, retracer les lignes, reconstruire l’image dans votre tête.

La synthèse vocale (TTS) résout entièrement ce problème.

Avec le TTS activé, vous parcourez une partie et les annotations vous sont lues à voix haute. Vos yeux restent sur l’échiquier. Vous voyez le cavalier se poser en f3 tandis qu’une voix vous explique pourquoi c’est un bon coup de développement. Vous observez la structure de pions évoluer pendant que le commentaire explique l’idée stratégique sous-jacente. L’échiquier et les mots arrivent ensemble, comme un entraîneur assis en face de vous vous enseignerait.

C’est particulièrement efficace pour :

  • L’étude des ouvertures — entendez les idées derrière chaque coup tout en observant la position se développer
  • La revue de parties — parcourez vos propres parties annotées et assimilez les leçons naturellement
  • La pratique des finales — gardez votre attention sur les cases critiques pendant que le commentaire vous guide
  • L’immersion linguistique — étudiez les échecs en français, allemand, espagnol, russe, japonais, chinois ou coréen avec tous les termes échiquéens correctement traduits. Entendez « Cavalier f3, échec » au lieu de « Knight f3, check ». Apprenez le jeu dans la langue dans laquelle vous pensez.
  • L’accessibilité — pour les joueurs qui trouvent plus facile d’écouter que de lire, ou qui souhaitent étudier loin d’un bureau

Une fois que vous l’aurez essayé, revenir aux annotations silencieuses vous donnera l’impression de regarder un film en muet.

En Parlant~ est livré avec cinq fournisseurs TTS, allant des API cloud avec des voix de qualité studio à des options entièrement locales ne nécessitant aucune connexion internet. Vous n’en avez besoin que d’un seul pour commencer. Ils sont listés ci-dessous de la meilleure à la moins bonne qualité vocale.

La meilleure qualité vocale disponible. ElevenLabs produit une synthèse expressive et réaliste, avec une vraie personnalité — certaines voix ressemblent à des narrateurs de livres audio, d’autres à des présentateurs. Des dizaines de voix uniques à choisir. Prend en charge plus de 34 langues, y compris une excellente prononciation CJK (japonais, chinois, coréen), ainsi que l’arabe, l’hindi et toutes les grandes langues européennes.

Le forfait gratuit vous donne 10 000 caractères par mois (suffisant pour 2 à 5 parties annotées). Les forfaits payants commencent à 5 $/mois pour 30 000 caractères. La configuration est simple : créez un compte, copiez votre clé API, collez-la dans En Parlant~.

Nécessite une connexion internet. Idéal pour les amateurs de qualité vocale.

Guide de configuration ElevenLabs

Le meilleur équilibre entre qualité, prise en charge des langues et rapport qualité-prix. Les voix neurales WaveNet de Google sont naturelles et claires dans plus de 30 langues — y compris le CJK, l’arabe, l’hindi, le bengali, le filipino, le vietnamien et toutes les grandes langues européennes. Le forfait gratuit est généreux — un million de caractères par mois couvre des centaines de parties annotées.

La configuration prend environ 5 minutes : créez un compte Google Cloud, activez l’API Text-to-Speech, générez une clé API. Aucun frais à moins de dépasser le forfait gratuit (très difficile à atteindre avec des annotations d’échecs).

Nécessite une connexion internet. Idéal pour la plupart des utilisateurs.

Guide de configuration Google Cloud

IA locale de haute qualité qui fonctionne entièrement sur votre machine. Utilise un modèle neural léger d’environ 25 Mo avec 8 voix expressives (4 masculines, 4 féminines). La qualité est remarquable — intonation naturelle, prononciation claire, expressivité authentique.

La contrepartie, c’est le matériel : KittenTTS utilise PyTorch pour l’inférence CPU, il faut donc un processeur multicœur moderne. Sur une machine à 8 cœurs, le résultat est excellent ; sur un ordinateur portable plus ancien, vous pourriez remarquer un décalage. Anglais uniquement pour le moment.

La première fois qu’une annotation est prononcée, il y a un bref délai de génération (1 à 2 secondes sur un CPU rapide, plus long sur du matériel plus lent). Ensuite, l’audio est mis en cache en mémoire et se rejoue instantanément — naviguer en avant et en arrière parmi les coups déjà entendus ne génère aucun délai. Vous pouvez également pré-générer le cache d’une partie entière en arrière-plan depuis les paramètres, afin que chaque annotation soit prête avant que vous ne commenciez à étudier.

Aucune connexion internet requise. Aucune clé API. Meilleure qualité locale.

Guide de configuration KittenTTS

Un serveur TTS open source qui fonctionne sur votre machine via Docker. Rien ne quitte votre ordinateur. Intègre plusieurs moteurs TTS (Larynx, Festival, eSpeak, Coqui-TTS), offrant plus de 75 voix rien que pour l’anglais.

La contrepartie, c’est la qualité vocale : ce sont des moteurs neuraux et à base de règles plus anciens, donc le résultat sonne plus robotique qu’ElevenLabs ou Google. Fonctionne mieux avec les langues européennes (anglais, allemand, français, espagnol, russe, néerlandais, suédois, italien, et plus) — le CJK n’est pas pris en charge. Honnêtement, si vous allez vous donner la peine de configurer un modèle local, KittenTTS vous offre une meilleure qualité avec moins de complications. À moins d’une demande significative pour OpenTTS, nous le retirerons probablement dans une version future.

Aucune connexion internet requise. Aucune clé API. Idéal pour une confidentialité maximale avec de nombreuses options de voix.

Guide de configuration OpenTTS

La synthèse vocale intégrée à votre système d’exploitation. Rien à installer, pas de clés API, pas de serveurs. Sélectionnez-le et c’est parti. La qualité vocale est basique — vous entendrez le ton robotique caractéristique du TTS au niveau de l’OS — mais cela fonctionne instantanément sans aucune configuration.

Sur Linux, c’est typiquement eSpeak ou speech-dispatcher ; sur macOS, c’est la voix système ; sur Windows, c’est SAPI. La prise en charge des langues dépend entièrement des packs vocaux installés sur votre système d’exploitation.

Aucune connexion internet requise. Idéal pour un test rapide.

Guide de configuration TTS Système

FournisseurTypeQualitéConfigurationLangues
ElevenLabsAPI cloudExceptionnelleClé API34+ (incl. CJK)
Google CloudAPI cloudTrès bonne (WaveNet)Clé API30+ (incl. CJK)
KittenTTSIA neurale localeBonnePython + venvAnglais uniquement
OpenTTSDocker localCorrecteDockerLangues européennes uniquement
Système (OS natif)Intégré à l’OSBasiqueAucuneDépend de l’OS

Note matérielle : Les fournisseurs locaux (KittenTTS et OpenTTS) exécutent l’inférence neurale sur votre CPU. Ils nécessitent un processeur multicœur moderne (8+ cœurs recommandés) pour générer la parole sans décalage perceptible. Considérez-le comme l’exécution d’un moteur d’échecs supplémentaire sur votre machine. Si votre machine est ancienne ou peu puissante, utilisez plutôt l’un des fournisseurs cloud.

Commencez avec ElevenLabs si vous voulez la qualité vocale la plus riche — le forfait gratuit suffit pour l’essayer. Pour le meilleur équilibre entre qualité et utilisation gratuite, Google Cloud couvre des centaines de parties par mois. Pour un TTS local de haute qualité sans dépendance au cloud, KittenTTS est excellent si vous disposez d’un CPU moderne. Pour un test sans aucune configuration, le TTS Système fonctionne instantanément. Pour une confidentialité maximale avec de nombreuses options de voix, OpenTTS exécute tout en local via Docker.

Tous les paramètres TTS se trouvent dans Paramètres > Son :

ParamètreFonction
Text-to-SpeechInterrupteur principal pour toutes les fonctionnalités TTS
Auto-Narrate on MovePrononce automatiquement les annotations lorsque vous parcourez les coups
TTS ProviderBasculer entre les cinq fournisseurs
TTS VoiceSélection de la voix spécifique au fournisseur
TTS LanguageLangue de narration — les termes échiquéens sont traduits automatiquement
TTS VolumeVolume de la narration
TTS SpeedVitesse de lecture (0,5x à 2x) — s’ajuste sans re-générer l’audio
ElevenLabs API KeyVotre clé API ElevenLabs (affiché uniquement lors de l’utilisation d’ElevenLabs)
Google Cloud API KeyVotre clé API Google Cloud (affiché uniquement lors de l’utilisation de Google)
KittenTTS CPU ThreadsThreads CPU pour l’inférence (0 = auto / utiliser tous les cœurs)
TTS Audio CacheVider le cache audio pour forcer la re-génération

La narration TTS prend en charge de nombreuses langues avec un vocabulaire échiquéen entièrement traduit. Voici quelques exemples :

LangueExemple échiquéen
EnglishKnight f3, check. A strong developing move.
FrançaisCavalier f3, echec. Un coup de developpement fort.
EspañolCaballo f3, jaque. Un fuerte movimiento.
DeutschSpringer f3, Schach. Ein starker Entwicklungszug.
日本語ナイト f3、チェック。強い展開の手。
РусскийКонь f3, шах. Сильный развивающий ход.
中文马 f3,将军。一步控制中心的强力出子。
한국어나이트 f3, 체크. 중앙을 지배하는 강력한 전개 수.

Chaque terme échiquéen — noms des pièces, « échec », « échec et mat », « roque », « prend », annotations de qualité des coups comme « Coup brillant » et « Gaffe » — est prononcé dans la langue sélectionnée. Les commentaires de vos fichiers PGN sont lus tels qu’ils sont écrits, donc annotez vos parties dans la langue que vous souhaitez entendre.

Le moteur TTS ne se contente pas de lire le texte brut — il comprend la notation échiquéenne. Avant toute lecture, une étape de prétraitement convertit la notation PGN en langage naturel :

Écrit en PGNPrononcé à voix haute
Nf3”Knight f3”
Bxe6+”Bishop takes e6, check”
O-O-O”castles queenside”
e8=Q#”e8 promotes to Queen, checkmate”
Rae1”Rook a e1” (désambiguïsation)
5.Qxd8+ (dans les commentaires)“5, Queen takes d8, check”
en prise”on preez” (prononciation française)
Ra8 is hanging”Rook on a8 is hanging”
R vs R”Rook versus Rook”
6...Bf5 (points de numéro de coup)“6, Bishop f5” (pause naturelle, pas de « point »)

Les commentaires sont nettoyés avant la lecture : les balises [%eval], [%cal], [%csl] sont supprimées. Les mots de qualité en début de commentaire qui dupliquent le symbole NAG sont retirés (ainsi ?? {BLUNDER. The rook hangs} ne bégaie pas « Gaffe. Gaffe. »).

Chaque narration est mise en cache en mémoire après la première génération. Naviguer en avant et en arrière dans une partie se rejoue instantanément depuis le cache — pas d’appels API, pas de délai de re-génération. Vous pouvez également pré-générer le cache de l’intégralité de l’arbre d’une partie en arrière-plan afin qu’il n’y ait aucune pause pendant la lecture.

Le cache est indexé par provider:voiceId:lang:text, donc changer de voix ou de fournisseur crée des entrées de cache distinctes. Changer la vitesse de lecture n’invalide pas le cache — la vitesse est appliquée côté client sur l’élément audio.

Un bouton Clear Audio Cache dans les Paramètres vous permet de forcer la re-génération après modification des annotations.

  • Utilisez la narration automatique. Activez « Auto-Narrate on Move » et utilisez simplement vos touches fléchées pour parcourir les parties. Le commentaire arrive naturellement au fil des coups, comme si vous aviez un entraîneur à vos côtés.

  • Annotez vos propres parties. Le TTS prend toute sa dimension quand vous écoutez des commentaires sur vos parties. Annotez vos parties, puis parcourez-les avec la narration. Entendre « Prendre le pion est tentant, mais toute votre aile roi est encore endormie » en fixant la position, c’est bien différent de le lire.

  • Essayez différentes vitesses. Certains joueurs préfèrent 1x pour une étude attentive, d’autres préfèrent 1,3x pour une revue plus rapide. Le curseur de vitesse ajuste la lecture en temps réel sans consommer de caractères API supplémentaires.

  • Utilisez l’icône de haut-parleur. Chaque commentaire dans la liste des coups dispose d’une petite icône de haut-parleur. Cliquez dessus pour entendre uniquement cette annotation.

  • Changez de langue pour apprendre le vocabulaire échiquéen. Si vous étudiez les échecs dans une seconde langue, réglez la langue TTS en conséquence. Vous apprendrez naturellement des termes comme « Cavalier » (Knight), « échec » (check) et « mat » (checkmate) simplement en écoutant.

Ces recommandations produisent la meilleure narration vocale à partir de vos annotations PGN.

Utilisez la notation SAN standard. Le préprocesseur la développe automatiquement :

  • "After 7.Nf3, White controls e5" devient « After 7, Knight f3, White controls e5 »
  • "The Bg5 pins the knight" devient « The Bishop g5 pins the knight »

Le glyphe NAG (!, ??, !?, etc.) génère automatiquement les mots de qualité prononcés. Ne les dupliquez pas dans le commentaire :

  • Mauvais : ?? {BLUNDER. A terrible move...} — le TTS dit « Blunder. Blunder. A terrible move »
  • Bon : ?? {A terrible move...} — le TTS dit « Blunder. A terrible move »

La notation PGN standard fonctionne : 6...Bf5. Le préprocesseur convertit les points en virgules pour des pauses naturelles au lieu de « point point point ».

Les points créent des pauses naturelles dans le TTS. Utilisez-les entre des idées distinctes :

{Doubled isolated e-pawns. The f-file is ripped open. The position is strategically won.}

Les balises [%cal ...] et [%csl ...] sont automatiquement supprimées de l’audio. Utilisez-les librement pour les annotations visuelles sans affecter la narration.

Une note sur la redistribution pour quiconque développe à partir d’En Parlant~ :

  • ElevenLabs — Vous conservez tous les droits sur votre audio généré (Conditions d’utilisation ElevenLabs, section c(ii)). Vous pouvez le redistribuer librement.
  • Google Cloud — Vous conservez tous les droits de propriété intellectuelle sur l’audio généré. Aucune restriction.
  • KittenTTS, OpenTTS, TTS Système — Aucune restriction de redistribution sur l’audio généré.

En Croissant est un outil d’étude d’échecs open source créé par Francisco Salgueiro. Francisco a construit quelque chose de véritablement spécial — une plateforme gratuite, puissante et communautaire pour étudier les échecs — et l’a publié sous licence GPL-3.0 pour que chacun puisse l’utiliser, l’améliorer et le partager. Cette fonctionnalité TTS existe grâce à cette générosité. Nous sommes reconnaissants pour les fondations qu’il a bâties, et nous sommes fiers d’y contribuer en retour.

Le plugin TTS a été développé par Darrell chez Red Shed, avec l’aide de Claude Code. Cinq fournisseurs, prise en charge multilingue, vocabulaire échiquéen traduit dans de nombreuses langues, inférence IA locale, gestion des dépendances — construit depuis les sources, testé à la main et contribué avec soin.

C’est la beauté de l’open source. Quelqu’un construit quelque chose de remarquable. Quelqu’un d’autre y ajoute sa pierre. Tout le monde en bénéficie.

Nous serions ravis de savoir comment le TTS fonctionne pour vous. Les commentaires, suggestions et retours sont toujours les bienvenus.

  • Vous souhaitez une langue que nous ne prenons pas encore en charge ? Faites-le nous savoir — nous pouvons ajouter de nouvelles langues rapidement.
  • Vous avez trouvé un bug ? Signalez-le nous et nous le corrigerons rapidement.
  • Vous avez une idée pour un autre fournisseur TTS ? Nous serons ravis de l’ajouter.
  • Vous voulez simplement nous dire que ça fonctionne ? Ça fait toujours plaisir à entendre.

Ouvrez une issue sur GitHub, ou contactez-nous directement à darrell@redshed.ai.