Panoramica dei Provider TTS

Perché il TTS cambia il modo di studiare scacchi

Quando stai rivedendo una partita annotata, i tuoi occhi fanno un doppio lavoro. Stai cercando di seguire i pezzi sulla scacchiera e leggere il commento allo stesso tempo. Lo sguardo rimbalza tra la scacchiera e il pannello delle annotazioni, e ogni volta che succede, perdi la posizione per una frazione di secondo. Devi ritrovare i pezzi, ripercorrere le varianti, ricostruire il quadro nella tua mente.

Il text-to-speech risolve completamente questo problema.

Con il TTS attivato, avanzi attraverso una partita e le annotazioni ti vengono lette ad alta voce. I tuoi occhi restano sulla scacchiera. Guardi il cavallo atterrare su f3 mentre una voce ti spiega perché è una mossa di sviluppo forte. Vedi la struttura pedonale cambiare mentre il commento spiega l’idea strategica che la sottende. La scacchiera e le parole arrivano insieme, come farebbe un allenatore seduto di fronte a te.

Questo è particolarmente efficace per:

Studio delle aperture — ascolta le idee dietro ogni mossa mentre osservi la posizione svilupparsi
Revisione delle partite — scorri le tue partite annotate e assimila le lezioni in modo naturale
Pratica dei finali — mantieni la concentrazione sulle case critiche mentre il commento ti guida
Immersione linguistica — studia gli scacchi in francese, tedesco, spagnolo, russo, giapponese, cinese o coreano con tutti i termini scacchistici tradotti correttamente. Ascolta “Cavalier f3, echec” invece di “Knight f3, check”. Impara il gioco nella lingua in cui pensi.
Accessibilità — per i giocatori che trovano più facile ascoltare che leggere, o che vogliono studiare lontano dalla scrivania

Una volta provato, tornare alle annotazioni silenziose è come guardare un film in muto.

Scegliere un provider

En Parlant~ include cinque provider TTS, che spaziano dalle API cloud con voci di qualità professionale a opzioni completamente locali che non necessitano di alcuna connessione internet. Te ne basta uno per iniziare. Sono elencati di seguito dalla migliore alla peggiore qualità vocale.

ElevenLabs

La migliore qualità vocale disponibile. ElevenLabs produce un parlato espressivo, simile a quello umano, con vera personalità — alcune voci suonano come narratori di audiolibri, altre come presentatori. Decine di voci uniche tra cui scegliere. Supporta più di 34 lingue, inclusa un’eccellente pronuncia CJK (giapponese, cinese, coreano), oltre ad arabo, hindi e tutte le principali lingue europee.

Il piano gratuito offre 10.000 caratteri al mese (sufficienti per 2-5 partite annotate). I piani a pagamento partono da $5/mese per 30.000 caratteri. La configurazione è semplice: crea un account, copia la tua API key, incollala in En Parlant~.

Richiede connessione internet. Ideale per gli appassionati di qualità vocale.

Guida alla configurazione di ElevenLabs

Google Cloud TTS

Il miglior equilibrio tra qualità, supporto linguistico e convenienza. Le voci neurali WaveNet di Google suonano naturali e chiare in più di 30 lingue — incluse CJK, arabo, hindi, bengalese, filippino, vietnamita e tutte le principali lingue europee. Il piano gratuito è generoso — un milione di caratteri al mese copre centinaia di partite annotate.

La configurazione richiede circa 5 minuti: crea un account Google Cloud, abilita l’API Text-to-Speech, genera una API key. Nessun addebito a meno che tu non superi il piano gratuito (molto difficile con le annotazioni scacchistiche).

Richiede connessione internet. Ideale per la maggior parte degli utenti.

Guida alla configurazione di Google Cloud

KittenTTS

IA locale di alta qualità che funziona interamente sulla tua macchina. Utilizza un modello neurale leggero di ~25MB con 8 voci espressive (4 maschili, 4 femminili). La qualità è notevolmente buona — intonazione naturale, pronuncia chiara, espressività autentica.

Il compromesso riguarda l’hardware: KittenTTS usa PyTorch per l’inferenza su CPU, quindi necessita di un processore moderno multi-core. Su una macchina a 8 core funziona benissimo; su un portatile più datato potresti notare dei ritardi. Solo inglese per il momento.

La prima volta che un’annotazione viene pronunciata c’è un breve ritardo di generazione (1-2 secondi su una CPU veloce, di più su hardware più lento). Dopodiché, l’audio viene memorizzato nella cache e riprodotto istantaneamente — spostarsi avanti e indietro tra le mosse già ascoltate non comporta alcun ritardo. Puoi anche precaricare nella cache un’intera partita in background dalle impostazioni, così ogni annotazione è pronta prima che tu inizi a studiare.

Non richiede connessione internet. Nessuna API key. La migliore qualità locale.

Guida alla configurazione di KittenTTS

OpenTTS

Un server TTS open-source che funziona sulla tua macchina tramite Docker. Nulla lascia il tuo computer. Include diversi motori TTS (Larynx, Festival, eSpeak, Coqui-TTS), offrendoti più di 75 voci solo per l’inglese.

Il compromesso è la qualità vocale: si tratta di motori neurali e basati su regole più datati, quindi l’output suona più robotico rispetto a ElevenLabs o Google. Funziona meglio con le lingue europee (inglese, tedesco, francese, spagnolo, russo, olandese, svedese, italiano e altre) — il CJK non è supportato. Onestamente, se devi affrontare la fatica di configurare un modello locale, KittenTTS ti offre una qualità migliore con meno complicazioni. A meno che non ci sia una domanda significativa per OpenTTS, probabilmente lo deprecheremo in una versione futura.

Non richiede connessione internet. Nessuna API key. Ideale per la massima privacy con molte opzioni vocali.

Guida alla configurazione di OpenTTS

TTS di sistema

La sintesi vocale integrata nel tuo sistema operativo. Nulla da installare, nessuna API key, nessun server. Selezionalo e vai. La qualità vocale è basilare — sentirai il caratteristico tono robotico del TTS a livello di sistema operativo — ma funziona istantaneamente senza alcuna configurazione.

Su Linux si tratta tipicamente di eSpeak o speech-dispatcher; su macOS è la voce di sistema; su Windows è SAPI. Il supporto linguistico dipende interamente dai pacchetti vocali installati sul tuo sistema operativo.

Non richiede connessione internet. Ideale per test rapidi.

Guida alla configurazione del TTS di sistema

Confronto tra provider

Provider	Tipo	Qualità	Configurazione	Lingue
ElevenLabs	API Cloud	Eccezionale	API key	34+ (incl. CJK)
Google Cloud	API Cloud	Molto buona (WaveNet)	API key	30+ (incl. CJK)
KittenTTS	IA neurale locale	Buona	Python + venv	Solo inglese
OpenTTS	Docker locale	Discreta	Docker	Solo europee
Sistema (OS nativo)	Integrato nel SO	Basilare	Nessuna	Dipende dal SO

Nota sull’hardware: I provider locali (KittenTTS e OpenTTS) eseguono inferenza neurale sulla tua CPU. Necessitano di un processore moderno multi-core (8+ core raccomandati) per generare il parlato senza ritardi percepibili. Pensalo come far girare un ulteriore motore scacchistico sulla tua macchina. Se il tuo computer è datato o poco potente, usa uno dei provider cloud.

Il nostro consiglio

Inizia con ElevenLabs se vuoi la qualità vocale più ricca — il piano gratuito è sufficiente per provarlo. Per il miglior equilibrio tra qualità e utilizzo gratuito, Google Cloud copre centinaia di partite al mese. Per un TTS locale di alta qualità senza dipendenza dal cloud, KittenTTS è eccellente se hai una CPU moderna. Per un test senza alcuna configurazione, il TTS di sistema funziona istantaneamente. Per la massima privacy con molte opzioni vocali, OpenTTS esegue tutto localmente tramite Docker.

Riferimento impostazioni

Tutte le impostazioni TTS si trovano in Impostazioni > Suono:

Impostazione	Funzione
Text-to-Speech	Interruttore generale on/off per tutte le funzionalità TTS
Auto-Narrate on Move	Pronuncia automaticamente le annotazioni quando avanzi tra le mosse
TTS Provider	Passa da un provider all’altro tra i cinque disponibili
TTS Voice	Selezione della voce specifica del provider
TTS Language	Lingua della narrazione — i termini scacchistici vengono tradotti automaticamente
TTS Volume	Volume della narrazione
TTS Speed	Velocità di riproduzione (da 0.5x a 2x) — regola senza rigenerare l’audio
ElevenLabs API Key	La tua API key di ElevenLabs (visibile solo quando usi ElevenLabs)
Google Cloud API Key	La tua API key di Google Cloud (visibile solo quando usi Google)
KittenTTS CPU Threads	Thread CPU per l’inferenza (0 = automatico / usa tutti i core)
TTS Audio Cache	Svuota la cache audio per forzare la rigenerazione

Lingue supportate

La narrazione TTS supporta molte lingue con un vocabolario scacchistico completamente tradotto. Ecco alcuni esempi:

Lingua	Esempio scacchistico
English	Knight f3, check. A strong developing move.
Francais	Cavalier f3, echec. Un coup de developpement fort.
Espanol	Caballo f3, jaque. Un fuerte movimiento.
Deutsch	Springer f3, Schach. Ein starker Entwicklungszug.
日本語	ナイト f3、チェック。強い展開の手。
Русский	Конь f3, шах. Сильный развивающий ход.
中文	马 f3，将军。一步控制中心的强力出子。
한국어	나이트 f3, 체크. 중앙을 지배하는 강력한 전개 수.

Ogni termine scacchistico — nomi dei pezzi, “scacco”, “scacco matto”, “arrocco”, “cattura”, annotazioni sulla qualità delle mosse come “Mossa brillante” e “Errore grave” — viene pronunciato nella lingua selezionata. I commenti nei tuoi file PGN vengono pronunciati come scritti, quindi annota le tue partite nella lingua che vuoi sentire.

Preprocessamento del testo consapevole degli scacchi

Il motore TTS non legge semplicemente il testo grezzo — comprende la notazione scacchistica. Prima che qualsiasi testo venga pronunciato, una fase di preprocessamento converte la notazione PGN in parlato naturale:

Scritto nel PGN	Pronunciato ad alta voce
`Nf3`	”Knight f3”
`Bxe6+`	”Bishop takes e6, check”
`O-O-O`	”castles queenside”
`e8=Q#`	”e8 promotes to Queen, checkmate”
`Rae1`	”Rook a e1” (disambiguazione)
`5.Qxd8+` (nei commenti)	“5, Queen takes d8, check”
`en prise`	”on preez” (pronuncia francese)
`Ra8 is hanging`	”Rook on a8 is hanging”
`R vs R`	”Rook versus Rook”
`6...Bf5` (punti di numerazione mossa)	“6, Bishop f5” (pausa naturale, nessun “punto”)

I commenti vengono ripuliti prima della pronuncia: i tag [%eval], [%cal], [%csl] vengono rimossi. Le parole iniziali di qualità che duplicano il simbolo NAG vengono eliminate (così ?? {BLUNDER. The rook hangs} non balbetta “Blunder. Blunder.”).

Cache

Ogni narrazione viene memorizzata nella cache dopo la prima generazione. Spostarsi avanti e indietro in una partita riproduce istantaneamente dalla cache — nessuna chiamata API, nessun ritardo di rigenerazione. Puoi anche precaricare nella cache un intero albero di partita in background, così non ci sono pause durante la riproduzione.

La chiave della cache è provider:voiceId:lang:text, quindi cambiare voce o provider crea voci di cache separate. Cambiare la velocità di riproduzione non invalida la cache — la velocità viene applicata lato client sull’elemento audio.

Un pulsante Clear Audio Cache nelle Impostazioni ti permette di forzare la rigenerazione dopo aver modificato le annotazioni.

Consigli per la migliore esperienza

Usa Auto-Narrate. Attiva “Auto-Narrate on Move” e usa semplicemente i tasti freccia per scorrere le partite. Il commento arriva naturalmente mentre avanzi, come avere un allenatore alle spalle.
Annota le tue partite. Il TTS dà il meglio di sé quando ascolti il commento sulle tue partite. Annota le tue partite, poi scorrile con la narrazione. Sentire “Catturare il pedone sembra allettante, ma tutto il tuo lato di re sta ancora dormendo” mentre fissi la posizione ha un impatto diverso rispetto a leggerlo.
Prova velocità diverse. Alcuni giocatori preferiscono 1x per uno studio attento, altri preferiscono 1.3x per una revisione più rapida. Il cursore della velocità regola la riproduzione in tempo reale senza consumare caratteri API aggiuntivi.
Usa l’icona dell’altoparlante. Ogni commento nella lista delle mosse ha una piccola icona di altoparlante. Cliccala per ascoltare solo quella annotazione.
Cambia lingua per imparare il vocabolario scacchistico. Se stai studiando scacchi in una seconda lingua, imposta la lingua TTS in modo corrispondente. Imparerai naturalmente termini come “Cavalier” (Cavallo), “echec” (scacco) e “mat” (scacco matto) semplicemente ascoltando.

Scrivere annotazioni ottimizzate per il TTS

Queste linee guida producono la migliore narrazione parlata dalle tue annotazioni PGN.

SAN nei commenti

Usa la notazione SAN standard. Il preprocessore la espande automaticamente:

"After 7.Nf3, White controls e5" diventa “After 7, Knight f3, White controls e5”
"The Bg5 pins the knight" diventa “The Bishop g5 pins the knight”

Simboli di annotazione

Il glifo NAG (!, ??, !?, ecc.) genera automaticamente parole di qualità pronunciate. Non duplicarle nel commento:

Male: ?? {BLUNDER. A terrible move...} — il TTS dice “Blunder. Blunder. A terrible move”
Bene: ?? {A terrible move...} — il TTS dice “Blunder. A terrible move”

Punti di numerazione mossa

La notazione PGN standard funziona: 6...Bf5. Il preprocessore converte i punti in virgole per pause naturali invece di “punto punto punto”.

Punti per il ritmo

I punti creano pause naturali nel TTS. Usali tra idee distinte:

{Doubled isolated e-pawns. The f-file is ripped open. The position is strategically won.}

Frecce e cerchi

I tag [%cal ...] e [%csl ...] vengono automaticamente rimossi dall’audio. Usali liberamente per le annotazioni visive senza influire sulla narrazione.

Licenze audio

Una nota sulla ridistribuzione per chiunque sviluppi su En Parlant~:

ElevenLabs — Mantieni tutti i diritti sull’audio generato (Termini di utilizzo di ElevenLabs, sezione c(ii)). Puoi ridistribuirlo liberamente.
Google Cloud — Mantieni tutti i diritti di proprietà intellettuale sull’audio generato. Nessuna restrizione.
KittenTTS, OpenTTS, TTS di sistema — Nessuna restrizione sulla ridistribuzione dell’audio generato.

Informazioni su questa funzionalità

En Croissant è uno strumento open-source per lo studio degli scacchi creato da Francisco Salgueiro. Francisco ha costruito qualcosa di davvero speciale — una piattaforma gratuita, potente e guidata dalla comunità per studiare scacchi — e l’ha rilasciata sotto licenza GPL-3.0 affinché chiunque possa usarla, migliorarla e condividerla. Questa funzionalità TTS esiste grazie a quella generosità. Siamo grati per le fondamenta che ha costruito e siamo orgogliosi di contribuire a nostra volta.

Il plugin TTS è stato sviluppato da Darrell presso Red Shed, con l’aiuto di Claude Code. Cinque provider, supporto multilingue, vocabolario scacchistico tradotto in molte lingue, inferenza IA locale, gestione delle dipendenze — costruito dal codice sorgente, testato a mano e contribuito con cura.

Questa è la bellezza dell’open source. Qualcuno costruisce qualcosa di grande. Qualcun altro vi aggiunge. Tutti ne beneficiano.

Contattaci

Ci piacerebbe sapere come funziona il TTS per te. Commenti, suggerimenti e feedback sono sempre benvenuti.

Vuoi una lingua che non supportiamo ancora? Faccelo sapere — possiamo aggiungere nuove lingue rapidamente.
Hai trovato un bug? Comunicacelo e lo correggeremo in fretta.
Hai un’idea per un altro provider TTS? Saremo felici di aggiungerlo.
Vuoi semplicemente dirci che funziona? Anche questo fa piacere sentirlo.

Apri una issue su GitHub, o contattaci direttamente a darrell@redshed.ai.