Visão Geral dos Fornecedores de TTS

Porquê o TTS Muda a Forma Como Estuda Xadrez

Quando está a rever um jogo anotado, os seus olhos fazem duplo trabalho. Está a tentar seguir as peças no tabuleiro e ler os comentários ao mesmo tempo. O seu olhar salta entre o tabuleiro e o painel de anotações, e de cada vez que o faz, perde a posição por uma fração de segundo. Tem de reencontrar as peças, retraçar as linhas, reconstruir a imagem na sua cabeça.

O texto para fala resolve isto completamente.

Com o TTS ativado, avança pelo jogo e as anotações são lidas para si. Os seus olhos ficam no tabuleiro. Vê o cavalo aterrar em f3 enquanto uma voz lhe diz por que é um forte lance de desenvolvimento. Vê a estrutura de peões mudar enquanto o comentário explica a ideia estratégica por detrás. O tabuleiro e as palavras chegam juntos, da mesma forma que um treinador sentado à sua frente ensinaria.

Isto é especialmente poderoso para:

Estudo de aberturas — oiça as ideias por detrás de cada lance enquanto observa a posição a desenvolver-se
Revisão de jogos — avance pelos seus próprios jogos anotados e absorva as lições naturalmente
Prática de finais — mantenha o foco nas casas críticas enquanto o comentário o guia
Imersão linguística — estude xadrez em francês, alemão, espanhol, russo, japonês, chinês ou coreano com todos os termos de xadrez devidamente traduzidos. Ouça “Cavalier f3, echec” em vez de “Knight f3, check.” Aprenda o jogo na língua em que pensa.
Acessibilidade — para jogadores que acham mais fácil ouvir do que ler, ou que querem estudar longe de uma secretária

Depois de experimentar, voltar às anotações silenciosas é como ver um filme sem som.

Escolher um Fornecedor

En Parlant~ vem com cinco fornecedores de TTS, desde APIs na nuvem com vozes de qualidade profissional até opções completamente locais que não necessitam de internet. Só precisa de um para começar. Estão listados abaixo da melhor para a pior qualidade de voz.

ElevenLabs

A melhor qualidade de voz disponível. ElevenLabs produz fala expressiva e semelhante à humana, com verdadeira personalidade — algumas vozes soam como narradores de audiolivros, outras como locutores. Dezenas de vozes únicas à escolha. Suporta mais de 34 idiomas, incluindo excelente pronúncia CJK (japonês, chinês, coreano), além de árabe, hindi e todas as principais línguas europeias.

O nível gratuito dá-lhe 10.000 caracteres por mês (suficiente para 2-5 jogos anotados). Os planos pagos começam em $5/mês para 30.000 caracteres. A configuração é simples: crie uma conta, copie a sua chave API e cole-a em En Parlant~.

Requer internet. Ideal para entusiastas de qualidade de voz.

Guia de Configuração do ElevenLabs

Google Cloud TTS

O melhor equilíbrio entre qualidade, suporte de idiomas e valor. As vozes neurais WaveNet da Google soam naturais e claras em mais de 30 idiomas — incluindo CJK, árabe, hindi, bengali, filipino, vietnamita e todas as principais línguas europeias. O nível gratuito é generoso — um milhão de caracteres por mês cobre centenas de jogos anotados.

A configuração demora cerca de 5 minutos: crie uma conta Google Cloud, ative a API Text-to-Speech, gere uma chave API. Sem custos a menos que exceda o nível gratuito (muito difícil de fazer com anotações de xadrez).

Requer internet. Ideal para a maioria dos utilizadores.

Guia de Configuração do Google Cloud

KittenTTS

IA local de alta qualidade que funciona inteiramente na sua máquina. Utiliza um modelo neural leve de ~25MB com 8 vozes expressivas (4 masculinas, 4 femininas). A qualidade é notavelmente boa — entoação natural, pronúncia clara, expressividade genuína.

A contrapartida é o hardware: KittenTTS utiliza PyTorch para inferência em CPU, pelo que necessita de um processador moderno multi-core. Numa máquina com 8 cores soa excelente; num portátil mais antigo pode notar atrasos. Apenas inglês por agora.

Na primeira vez que cada anotação é lida, há um breve atraso de geração (1-2 segundos num CPU rápido, mais em hardware mais lento). Depois disso, o áudio fica em cache na memória e reproduz instantaneamente — avançar e recuar pelos lances que já ouviu tem zero atraso. Também pode pré-carregar um jogo inteiro em segundo plano a partir das definições, para que cada anotação esteja pronta antes de começar a estudar.

Sem necessidade de internet. Sem chaves API. Melhor qualidade local.

Guia de Configuração do KittenTTS

OpenTTS

Um servidor TTS de código aberto que funciona na sua máquina via Docker. Nada sai do seu computador. Inclui vários motores TTS (Larynx, Festival, eSpeak, Coqui-TTS), proporcionando mais de 75 vozes só para inglês.

A contrapartida é a qualidade de voz: estes são motores neurais e baseados em regras mais antigos, pelo que o resultado soa mais robótico do que ElevenLabs ou Google. Funciona melhor com línguas europeias (inglês, alemão, francês, espanhol, russo, neerlandês, sueco, italiano e mais) — CJK não é suportado. Honestamente, se vai passar pelo trabalho de configurar um modelo local, KittenTTS oferece-lhe melhor qualidade com menos complicações. A menos que haja procura significativa pelo OpenTTS, provavelmente iremos descontinuá-lo numa versão futura.

Sem necessidade de internet. Sem chaves API. Ideal para máxima privacidade com muitas opções de voz.

Guia de Configuração do OpenTTS

TTS do Sistema

A síntese de fala integrada do seu sistema operativo. Nada para instalar, sem chaves API, sem servidores. Selecione e comece. A qualidade de voz é básica — ouvirá o tom robótico característico do TTS a nível do SO — mas funciona instantaneamente com zero configuração.

No Linux é tipicamente eSpeak ou speech-dispatcher; no macOS é a voz do sistema; no Windows é SAPI. O suporte de idiomas depende inteiramente dos pacotes de voz instalados no seu sistema operativo.

Sem necessidade de internet. Ideal para testes rápidos.

Guia de Configuração do TTS do Sistema

Comparação de Fornecedores

Fornecedor	Tipo	Qualidade	Configuração	Idiomas
ElevenLabs	API na nuvem	Excecional	Chave API	34+ (incl. CJK)
Google Cloud	API na nuvem	Muito boa (WaveNet)	Chave API	30+ (incl. CJK)
KittenTTS	IA neural local	Boa	Python + venv	Apenas inglês
OpenTTS	Docker local	Razoável	Docker	Apenas europeus
Sistema (SO Nativo)	Integrado no SO	Básica	Nenhuma	Dependente do SO

Nota sobre hardware: Os fornecedores locais (KittenTTS e OpenTTS) executam inferência neural no seu CPU. Necessitam de um processador moderno multi-core (8+ cores recomendado) para gerar fala sem atraso perceptível. Pense nisso como executar mais um motor de xadrez na sua máquina. Se a sua máquina for mais antiga ou de baixo desempenho, utilize um dos fornecedores na nuvem.

A Nossa Recomendação

Comece com ElevenLabs se deseja a qualidade de voz mais rica — o nível gratuito é suficiente para experimentar. Para o melhor equilíbrio entre qualidade e utilização gratuita, Google Cloud cobre centenas de jogos por mês. Para TTS local de alta qualidade sem dependência da nuvem, KittenTTS é excelente se tiver um CPU moderno. Para testes sem configuração, TTS do Sistema funciona instantaneamente. Para máxima privacidade com muitas opções de voz, OpenTTS executa tudo localmente via Docker.

Referência de Definições

Todas as definições de TTS estão em Definições > Som:

Definição	O que faz
Text-to-Speech	Interruptor principal de ligar/desligar para todas as funcionalidades TTS
Auto-Narrate on Move	Lê automaticamente as anotações quando avança pelos lances
TTS Provider	Alternar entre os cinco fornecedores
TTS Voice	Seleção de voz específica do fornecedor
TTS Language	Idioma para a narração — os termos de xadrez são traduzidos automaticamente
TTS Volume	Volume da narração
TTS Speed	Velocidade de reprodução (0.5x a 2x) — ajusta sem regenerar o áudio
ElevenLabs API Key	A sua chave API do ElevenLabs (apenas visível quando usa ElevenLabs)
Google Cloud API Key	A sua chave API do Google Cloud (apenas visível quando usa Google)
KittenTTS CPU Threads	Threads de CPU para inferência (0 = auto / usar todos os cores)
TTS Audio Cache	Limpar áudio em cache para forçar a regeneração

Idiomas Suportados

A narração TTS suporta muitos idiomas com vocabulário de xadrez totalmente traduzido. Aqui estão alguns exemplos:

Idioma	Exemplo de xadrez
English	Knight f3, check. A strong developing move.
Francais	Cavalier f3, echec. Un coup de developpement fort.
Espanol	Caballo f3, jaque. Un fuerte movimiento.
Deutsch	Springer f3, Schach. Ein starker Entwicklungszug.
日本語	ナイト f3、チェック。強い展開の手。
Русский	Конь f3, шах. Сильный развивающий ход.
中文	马 f3，将军。一步控制中心的强力出子。
한국어	나이트 f3, 체크. 중앙을 지배하는 강력한 전개 수.

Cada termo de xadrez — nomes das peças, “xeque”, “xeque-mate”, “roque”, “captura”, anotações de qualidade de lance como “Lance brilhante” e “Erro grave” — é pronunciado no idioma selecionado. Os comentários nos seus ficheiros PGN são lidos tal como estão escritos, por isso anote os seus jogos no idioma que deseja ouvir.

Pré-processamento de Texto com Consciência de Xadrez

O motor TTS não se limita a ler texto em bruto — compreende a notação de xadrez. Antes de qualquer texto ser pronunciado, um passo de pré-processamento converte a notação PGN em fala natural:

Escrito em PGN	Pronunciado em voz alta
`Nf3`	”Knight f3”
`Bxe6+`	”Bishop takes e6, check”
`O-O-O`	”castles queenside”
`e8=Q#`	”e8 promotes to Queen, checkmate”
`Rae1`	”Rook a e1” (desambiguação)
`5.Qxd8+` (em comentários)	“5, Queen takes d8, check”
`en prise`	”on preez” (pronúncia francesa)
`Ra8 is hanging`	”Rook on a8 is hanging”
`R vs R`	”Rook versus Rook”
`6...Bf5` (pontos de número de lance)	“6, Bishop f5” (pausa natural, sem “ponto”)

Os comentários são limpos antes de serem pronunciados: as etiquetas [%eval], [%cal], [%csl] são removidas. Palavras iniciais de qualidade que duplicam o símbolo NAG são eliminadas (assim ?? {BLUNDER. The rook hangs} não gagueja “Blunder. Blunder.”).

Cache

Cada narração é guardada em cache na memória após a primeira geração. Avançar e recuar num jogo reproduz instantaneamente a partir da cache — sem chamadas à API, sem atraso de regeneração. Também pode pré-carregar toda a árvore de um jogo em segundo plano para que não haja pausas durante a reprodução.

A cache é indexada por provider:voiceId:lang:text, pelo que mudar a voz ou o fornecedor cria entradas de cache separadas. Mudar a velocidade de reprodução não invalida a cache — a velocidade é aplicada do lado do cliente no elemento de áudio.

Um botão Clear Audio Cache nas Definições permite-lhe forçar a regeneração após editar anotações.

Dicas para a Melhor Experiência

Use o Auto-Narrate. Ative “Auto-Narrate on Move” e simplesmente use as teclas de seta para avançar pelos jogos. O comentário chega naturalmente à medida que avança, como ter um treinador ao seu lado.
Anote os seus próprios jogos. O TTS brilha verdadeiramente quando está a ouvir comentários sobre os seus jogos. Anote os seus jogos e depois avance por eles com narração. Ouvir “Capturar o peão parece tentador, mas todo o seu flanco do rei ainda está a dormir” enquanto olha fixamente para a posição tem um impacto diferente de o ler.
Experimente diferentes velocidades. Alguns jogadores preferem 1x para estudo cuidadoso, outros preferem 1.3x para revisão mais rápida. O cursor de velocidade ajusta a reprodução em tempo real sem usar caracteres adicionais da API.
Use o ícone do altifalante. Cada comentário na lista de lances tem um pequeno ícone de altifalante. Clique nele para ouvir apenas essa anotação.
Mude de idioma para aprender vocabulário de xadrez. Se está a estudar xadrez numa segunda língua, defina o idioma do TTS para corresponder. Aprenderá naturalmente termos como “Cavalier” (Cavalo), “echec” (xeque) e “mat” (xeque-mate) simplesmente ao ouvir.

Escrever Anotações Adequadas para TTS

Estas orientações produzem a melhor narração falada a partir das suas anotações PGN.

SAN em comentários

Utilize a notação SAN padrão. O pré-processador expande-a automaticamente:

"After 7.Nf3, White controls e5" torna-se “After 7, Knight f3, White controls e5”
"The Bg5 pins the knight" torna-se “The Bishop g5 pins the knight”

Símbolos de anotação

O glifo NAG (!, ??, !?, etc.) gera palavras de qualidade faladas automaticamente. Não os duplique no comentário:

Mau: ?? {BLUNDER. A terrible move...} — o TTS diz “Blunder. Blunder. A terrible move”
Bom: ?? {A terrible move...} — o TTS diz “Blunder. A terrible move”

Pontos de número de lance

A notação PGN padrão funciona: 6...Bf5. O pré-processador converte os pontos em vírgulas para pausas naturais em vez de “ponto ponto ponto.”

Pontos finais para ritmo

Os pontos finais criam pausas naturais no TTS. Utilize-os entre ideias distintas:

{Doubled isolated e-pawns. The f-file is ripped open. The position is strategically won.}

Setas e círculos

As etiquetas [%cal ...] e [%csl ...] são removidas do áudio automaticamente. Utilize-as livremente para anotações visuais sem afetar a narração.

Licenciamento de Áudio

Uma nota sobre redistribuição para quem desenvolve sobre En Parlant~:

ElevenLabs — Retém todos os direitos sobre o áudio gerado (Termos de Uso do ElevenLabs, secção c(ii)). Pode redistribuí-lo livremente.
Google Cloud — Retém todos os direitos de propriedade intelectual sobre o áudio gerado. Sem restrições.
KittenTTS, OpenTTS, TTS do Sistema — Sem restrições de redistribuição sobre o áudio gerado.

Sobre Esta Funcionalidade

En Croissant é uma ferramenta de estudo de xadrez de código aberto criada por Francisco Salgueiro. Francisco construiu algo genuinamente especial — uma plataforma gratuita, poderosa e movida pela comunidade para estudar xadrez — e lançou-a sob a licença GPL-3.0 para que qualquer pessoa possa usá-la, melhorá-la e partilhá-la. Esta funcionalidade TTS existe graças a essa generosidade. Estamos gratos pela base que ele construiu e orgulhosos por contribuir de volta para ela.

O plugin TTS foi desenvolvido por Darrell na Red Shed, com a ajuda do Claude Code. Cinco fornecedores, suporte multilingue, vocabulário de xadrez traduzido em muitos idiomas, inferência de IA local, gestão de dependências — construído a partir do código-fonte, testado manualmente e contribuído com cuidado.

Essa é a beleza do código aberto. Alguém constrói algo excelente. Outra pessoa acrescenta algo. Todos beneficiam.

Entre em Contacto

Adoraríamos saber como o TTS está a funcionar para si. Comentários, sugestões e feedback são sempre bem-vindos.

Quer um idioma que ainda não suportamos? Diga-nos — podemos adicionar novos idiomas rapidamente.
Encontrou um erro? Diga-nos e corrigimo-lo depressa.
Tem uma ideia para outro fornecedor de TTS? Teremos todo o gosto em adicioná-lo.
Só quer dizer que está a funcionar? Também é ótimo saber.

Abra um issue no GitHub, ou contacte-nos diretamente em darrell@redshed.ai.