Salta ai contenuti

Panoramica dei Provider TTS

Quando stai rivedendo una partita annotata, i tuoi occhi fanno un doppio lavoro. Stai cercando di seguire i pezzi sulla scacchiera e leggere il commento allo stesso tempo. Lo sguardo rimbalza tra la scacchiera e il pannello delle annotazioni, e ogni volta che succede, perdi la posizione per una frazione di secondo. Devi ritrovare i pezzi, ripercorrere le varianti, ricostruire il quadro nella tua mente.

Il text-to-speech risolve completamente questo problema.

Con il TTS attivato, avanzi attraverso una partita e le annotazioni ti vengono lette ad alta voce. I tuoi occhi restano sulla scacchiera. Guardi il cavallo atterrare su f3 mentre una voce ti spiega perché è una mossa di sviluppo forte. Vedi la struttura pedonale cambiare mentre il commento spiega l’idea strategica che la sottende. La scacchiera e le parole arrivano insieme, come farebbe un allenatore seduto di fronte a te.

Questo è particolarmente efficace per:

  • Studio delle aperture — ascolta le idee dietro ogni mossa mentre osservi la posizione svilupparsi
  • Revisione delle partite — scorri le tue partite annotate e assimila le lezioni in modo naturale
  • Pratica dei finali — mantieni la concentrazione sulle case critiche mentre il commento ti guida
  • Immersione linguistica — studia gli scacchi in francese, tedesco, spagnolo, russo, giapponese, cinese o coreano con tutti i termini scacchistici tradotti correttamente. Ascolta “Cavalier f3, echec” invece di “Knight f3, check”. Impara il gioco nella lingua in cui pensi.
  • Accessibilità — per i giocatori che trovano più facile ascoltare che leggere, o che vogliono studiare lontano dalla scrivania

Una volta provato, tornare alle annotazioni silenziose è come guardare un film in muto.

En Parlant~ include cinque provider TTS, che spaziano dalle API cloud con voci di qualità professionale a opzioni completamente locali che non necessitano di alcuna connessione internet. Te ne basta uno per iniziare. Sono elencati di seguito dalla migliore alla peggiore qualità vocale.

La migliore qualità vocale disponibile. ElevenLabs produce un parlato espressivo, simile a quello umano, con vera personalità — alcune voci suonano come narratori di audiolibri, altre come presentatori. Decine di voci uniche tra cui scegliere. Supporta più di 34 lingue, inclusa un’eccellente pronuncia CJK (giapponese, cinese, coreano), oltre ad arabo, hindi e tutte le principali lingue europee.

Il piano gratuito offre 10.000 caratteri al mese (sufficienti per 2-5 partite annotate). I piani a pagamento partono da $5/mese per 30.000 caratteri. La configurazione è semplice: crea un account, copia la tua API key, incollala in En Parlant~.

Richiede connessione internet. Ideale per gli appassionati di qualità vocale.

Guida alla configurazione di ElevenLabs

Il miglior equilibrio tra qualità, supporto linguistico e convenienza. Le voci neurali WaveNet di Google suonano naturali e chiare in più di 30 lingue — incluse CJK, arabo, hindi, bengalese, filippino, vietnamita e tutte le principali lingue europee. Il piano gratuito è generoso — un milione di caratteri al mese copre centinaia di partite annotate.

La configurazione richiede circa 5 minuti: crea un account Google Cloud, abilita l’API Text-to-Speech, genera una API key. Nessun addebito a meno che tu non superi il piano gratuito (molto difficile con le annotazioni scacchistiche).

Richiede connessione internet. Ideale per la maggior parte degli utenti.

Guida alla configurazione di Google Cloud

IA locale di alta qualità che funziona interamente sulla tua macchina. Utilizza un modello neurale leggero di ~25MB con 8 voci espressive (4 maschili, 4 femminili). La qualità è notevolmente buona — intonazione naturale, pronuncia chiara, espressività autentica.

Il compromesso riguarda l’hardware: KittenTTS usa PyTorch per l’inferenza su CPU, quindi necessita di un processore moderno multi-core. Su una macchina a 8 core funziona benissimo; su un portatile più datato potresti notare dei ritardi. Solo inglese per il momento.

La prima volta che un’annotazione viene pronunciata c’è un breve ritardo di generazione (1-2 secondi su una CPU veloce, di più su hardware più lento). Dopodiché, l’audio viene memorizzato nella cache e riprodotto istantaneamente — spostarsi avanti e indietro tra le mosse già ascoltate non comporta alcun ritardo. Puoi anche precaricare nella cache un’intera partita in background dalle impostazioni, così ogni annotazione è pronta prima che tu inizi a studiare.

Non richiede connessione internet. Nessuna API key. La migliore qualità locale.

Guida alla configurazione di KittenTTS

Un server TTS open-source che funziona sulla tua macchina tramite Docker. Nulla lascia il tuo computer. Include diversi motori TTS (Larynx, Festival, eSpeak, Coqui-TTS), offrendoti più di 75 voci solo per l’inglese.

Il compromesso è la qualità vocale: si tratta di motori neurali e basati su regole più datati, quindi l’output suona più robotico rispetto a ElevenLabs o Google. Funziona meglio con le lingue europee (inglese, tedesco, francese, spagnolo, russo, olandese, svedese, italiano e altre) — il CJK non è supportato. Onestamente, se devi affrontare la fatica di configurare un modello locale, KittenTTS ti offre una qualità migliore con meno complicazioni. A meno che non ci sia una domanda significativa per OpenTTS, probabilmente lo deprecheremo in una versione futura.

Non richiede connessione internet. Nessuna API key. Ideale per la massima privacy con molte opzioni vocali.

Guida alla configurazione di OpenTTS

La sintesi vocale integrata nel tuo sistema operativo. Nulla da installare, nessuna API key, nessun server. Selezionalo e vai. La qualità vocale è basilare — sentirai il caratteristico tono robotico del TTS a livello di sistema operativo — ma funziona istantaneamente senza alcuna configurazione.

Su Linux si tratta tipicamente di eSpeak o speech-dispatcher; su macOS è la voce di sistema; su Windows è SAPI. Il supporto linguistico dipende interamente dai pacchetti vocali installati sul tuo sistema operativo.

Non richiede connessione internet. Ideale per test rapidi.

Guida alla configurazione del TTS di sistema

ProviderTipoQualitàConfigurazioneLingue
ElevenLabsAPI CloudEccezionaleAPI key34+ (incl. CJK)
Google CloudAPI CloudMolto buona (WaveNet)API key30+ (incl. CJK)
KittenTTSIA neurale localeBuonaPython + venvSolo inglese
OpenTTSDocker localeDiscretaDockerSolo europee
Sistema (OS nativo)Integrato nel SOBasilareNessunaDipende dal SO

Nota sull’hardware: I provider locali (KittenTTS e OpenTTS) eseguono inferenza neurale sulla tua CPU. Necessitano di un processore moderno multi-core (8+ core raccomandati) per generare il parlato senza ritardi percepibili. Pensalo come far girare un ulteriore motore scacchistico sulla tua macchina. Se il tuo computer è datato o poco potente, usa uno dei provider cloud.

Inizia con ElevenLabs se vuoi la qualità vocale più ricca — il piano gratuito è sufficiente per provarlo. Per il miglior equilibrio tra qualità e utilizzo gratuito, Google Cloud copre centinaia di partite al mese. Per un TTS locale di alta qualità senza dipendenza dal cloud, KittenTTS è eccellente se hai una CPU moderna. Per un test senza alcuna configurazione, il TTS di sistema funziona istantaneamente. Per la massima privacy con molte opzioni vocali, OpenTTS esegue tutto localmente tramite Docker.

Tutte le impostazioni TTS si trovano in Impostazioni > Suono:

ImpostazioneFunzione
Text-to-SpeechInterruttore generale on/off per tutte le funzionalità TTS
Auto-Narrate on MovePronuncia automaticamente le annotazioni quando avanzi tra le mosse
TTS ProviderPassa da un provider all’altro tra i cinque disponibili
TTS VoiceSelezione della voce specifica del provider
TTS LanguageLingua della narrazione — i termini scacchistici vengono tradotti automaticamente
TTS VolumeVolume della narrazione
TTS SpeedVelocità di riproduzione (da 0.5x a 2x) — regola senza rigenerare l’audio
ElevenLabs API KeyLa tua API key di ElevenLabs (visibile solo quando usi ElevenLabs)
Google Cloud API KeyLa tua API key di Google Cloud (visibile solo quando usi Google)
KittenTTS CPU ThreadsThread CPU per l’inferenza (0 = automatico / usa tutti i core)
TTS Audio CacheSvuota la cache audio per forzare la rigenerazione

La narrazione TTS supporta molte lingue con un vocabolario scacchistico completamente tradotto. Ecco alcuni esempi:

LinguaEsempio scacchistico
EnglishKnight f3, check. A strong developing move.
FrancaisCavalier f3, echec. Un coup de developpement fort.
EspanolCaballo f3, jaque. Un fuerte movimiento.
DeutschSpringer f3, Schach. Ein starker Entwicklungszug.
日本語ナイト f3、チェック。強い展開の手。
РусскийКонь f3, шах. Сильный развивающий ход.
中文马 f3,将军。一步控制中心的强力出子。
한국어나이트 f3, 체크. 중앙을 지배하는 강력한 전개 수.

Ogni termine scacchistico — nomi dei pezzi, “scacco”, “scacco matto”, “arrocco”, “cattura”, annotazioni sulla qualità delle mosse come “Mossa brillante” e “Errore grave” — viene pronunciato nella lingua selezionata. I commenti nei tuoi file PGN vengono pronunciati come scritti, quindi annota le tue partite nella lingua che vuoi sentire.

Preprocessamento del testo consapevole degli scacchi

Sezione intitolata “Preprocessamento del testo consapevole degli scacchi”

Il motore TTS non legge semplicemente il testo grezzo — comprende la notazione scacchistica. Prima che qualsiasi testo venga pronunciato, una fase di preprocessamento converte la notazione PGN in parlato naturale:

Scritto nel PGNPronunciato ad alta voce
Nf3”Knight f3”
Bxe6+”Bishop takes e6, check”
O-O-O”castles queenside”
e8=Q#”e8 promotes to Queen, checkmate”
Rae1”Rook a e1” (disambiguazione)
5.Qxd8+ (nei commenti)“5, Queen takes d8, check”
en prise”on preez” (pronuncia francese)
Ra8 is hanging”Rook on a8 is hanging”
R vs R”Rook versus Rook”
6...Bf5 (punti di numerazione mossa)“6, Bishop f5” (pausa naturale, nessun “punto”)

I commenti vengono ripuliti prima della pronuncia: i tag [%eval], [%cal], [%csl] vengono rimossi. Le parole iniziali di qualità che duplicano il simbolo NAG vengono eliminate (così ?? {BLUNDER. The rook hangs} non balbetta “Blunder. Blunder.”).

Ogni narrazione viene memorizzata nella cache dopo la prima generazione. Spostarsi avanti e indietro in una partita riproduce istantaneamente dalla cache — nessuna chiamata API, nessun ritardo di rigenerazione. Puoi anche precaricare nella cache un intero albero di partita in background, così non ci sono pause durante la riproduzione.

La chiave della cache è provider:voiceId:lang:text, quindi cambiare voce o provider crea voci di cache separate. Cambiare la velocità di riproduzione non invalida la cache — la velocità viene applicata lato client sull’elemento audio.

Un pulsante Clear Audio Cache nelle Impostazioni ti permette di forzare la rigenerazione dopo aver modificato le annotazioni.

  • Usa Auto-Narrate. Attiva “Auto-Narrate on Move” e usa semplicemente i tasti freccia per scorrere le partite. Il commento arriva naturalmente mentre avanzi, come avere un allenatore alle spalle.

  • Annota le tue partite. Il TTS dà il meglio di sé quando ascolti il commento sulle tue partite. Annota le tue partite, poi scorrile con la narrazione. Sentire “Catturare il pedone sembra allettante, ma tutto il tuo lato di re sta ancora dormendo” mentre fissi la posizione ha un impatto diverso rispetto a leggerlo.

  • Prova velocità diverse. Alcuni giocatori preferiscono 1x per uno studio attento, altri preferiscono 1.3x per una revisione più rapida. Il cursore della velocità regola la riproduzione in tempo reale senza consumare caratteri API aggiuntivi.

  • Usa l’icona dell’altoparlante. Ogni commento nella lista delle mosse ha una piccola icona di altoparlante. Cliccala per ascoltare solo quella annotazione.

  • Cambia lingua per imparare il vocabolario scacchistico. Se stai studiando scacchi in una seconda lingua, imposta la lingua TTS in modo corrispondente. Imparerai naturalmente termini come “Cavalier” (Cavallo), “echec” (scacco) e “mat” (scacco matto) semplicemente ascoltando.

Queste linee guida producono la migliore narrazione parlata dalle tue annotazioni PGN.

Usa la notazione SAN standard. Il preprocessore la espande automaticamente:

  • "After 7.Nf3, White controls e5" diventa “After 7, Knight f3, White controls e5”
  • "The Bg5 pins the knight" diventa “The Bishop g5 pins the knight”

Il glifo NAG (!, ??, !?, ecc.) genera automaticamente parole di qualità pronunciate. Non duplicarle nel commento:

  • Male: ?? {BLUNDER. A terrible move...} — il TTS dice “Blunder. Blunder. A terrible move”
  • Bene: ?? {A terrible move...} — il TTS dice “Blunder. A terrible move”

La notazione PGN standard funziona: 6...Bf5. Il preprocessore converte i punti in virgole per pause naturali invece di “punto punto punto”.

I punti creano pause naturali nel TTS. Usali tra idee distinte:

{Doubled isolated e-pawns. The f-file is ripped open. The position is strategically won.}

I tag [%cal ...] e [%csl ...] vengono automaticamente rimossi dall’audio. Usali liberamente per le annotazioni visive senza influire sulla narrazione.

Una nota sulla ridistribuzione per chiunque sviluppi su En Parlant~:

  • ElevenLabs — Mantieni tutti i diritti sull’audio generato (Termini di utilizzo di ElevenLabs, sezione c(ii)). Puoi ridistribuirlo liberamente.
  • Google Cloud — Mantieni tutti i diritti di proprietà intellettuale sull’audio generato. Nessuna restrizione.
  • KittenTTS, OpenTTS, TTS di sistema — Nessuna restrizione sulla ridistribuzione dell’audio generato.

En Croissant è uno strumento open-source per lo studio degli scacchi creato da Francisco Salgueiro. Francisco ha costruito qualcosa di davvero speciale — una piattaforma gratuita, potente e guidata dalla comunità per studiare scacchi — e l’ha rilasciata sotto licenza GPL-3.0 affinché chiunque possa usarla, migliorarla e condividerla. Questa funzionalità TTS esiste grazie a quella generosità. Siamo grati per le fondamenta che ha costruito e siamo orgogliosi di contribuire a nostra volta.

Il plugin TTS è stato sviluppato da Darrell presso Red Shed, con l’aiuto di Claude Code. Cinque provider, supporto multilingue, vocabolario scacchistico tradotto in molte lingue, inferenza IA locale, gestione delle dipendenze — costruito dal codice sorgente, testato a mano e contribuito con cura.

Questa è la bellezza dell’open source. Qualcuno costruisce qualcosa di grande. Qualcun altro vi aggiunge. Tutti ne beneficiano.

Ci piacerebbe sapere come funziona il TTS per te. Commenti, suggerimenti e feedback sono sempre benvenuti.

  • Vuoi una lingua che non supportiamo ancora? Faccelo sapere — possiamo aggiungere nuove lingue rapidamente.
  • Hai trovato un bug? Comunicacelo e lo correggeremo in fretta.
  • Hai un’idea per un altro provider TTS? Saremo felici di aggiungerlo.
  • Vuoi semplicemente dirci che funziona? Anche questo fa piacere sentirlo.

Apri una issue su GitHub, o contattaci direttamente a darrell@redshed.ai.