Pular para o conteúdo

Visão Geral dos Fornecedores de TTS

Quando está a rever um jogo anotado, os seus olhos fazem duplo trabalho. Está a tentar seguir as peças no tabuleiro e ler os comentários ao mesmo tempo. O seu olhar salta entre o tabuleiro e o painel de anotações, e de cada vez que o faz, perde a posição por uma fração de segundo. Tem de reencontrar as peças, retraçar as linhas, reconstruir a imagem na sua cabeça.

O texto para fala resolve isto completamente.

Com o TTS ativado, avança pelo jogo e as anotações são lidas para si. Os seus olhos ficam no tabuleiro. Vê o cavalo aterrar em f3 enquanto uma voz lhe diz por que é um forte lance de desenvolvimento. Vê a estrutura de peões mudar enquanto o comentário explica a ideia estratégica por detrás. O tabuleiro e as palavras chegam juntos, da mesma forma que um treinador sentado à sua frente ensinaria.

Isto é especialmente poderoso para:

  • Estudo de aberturas — oiça as ideias por detrás de cada lance enquanto observa a posição a desenvolver-se
  • Revisão de jogos — avance pelos seus próprios jogos anotados e absorva as lições naturalmente
  • Prática de finais — mantenha o foco nas casas críticas enquanto o comentário o guia
  • Imersão linguística — estude xadrez em francês, alemão, espanhol, russo, japonês, chinês ou coreano com todos os termos de xadrez devidamente traduzidos. Ouça “Cavalier f3, echec” em vez de “Knight f3, check.” Aprenda o jogo na língua em que pensa.
  • Acessibilidade — para jogadores que acham mais fácil ouvir do que ler, ou que querem estudar longe de uma secretária

Depois de experimentar, voltar às anotações silenciosas é como ver um filme sem som.

En Parlant~ vem com cinco fornecedores de TTS, desde APIs na nuvem com vozes de qualidade profissional até opções completamente locais que não necessitam de internet. Só precisa de um para começar. Estão listados abaixo da melhor para a pior qualidade de voz.

A melhor qualidade de voz disponível. ElevenLabs produz fala expressiva e semelhante à humana, com verdadeira personalidade — algumas vozes soam como narradores de audiolivros, outras como locutores. Dezenas de vozes únicas à escolha. Suporta mais de 34 idiomas, incluindo excelente pronúncia CJK (japonês, chinês, coreano), além de árabe, hindi e todas as principais línguas europeias.

O nível gratuito dá-lhe 10.000 caracteres por mês (suficiente para 2-5 jogos anotados). Os planos pagos começam em $5/mês para 30.000 caracteres. A configuração é simples: crie uma conta, copie a sua chave API e cole-a em En Parlant~.

Requer internet. Ideal para entusiastas de qualidade de voz.

Guia de Configuração do ElevenLabs

O melhor equilíbrio entre qualidade, suporte de idiomas e valor. As vozes neurais WaveNet da Google soam naturais e claras em mais de 30 idiomas — incluindo CJK, árabe, hindi, bengali, filipino, vietnamita e todas as principais línguas europeias. O nível gratuito é generoso — um milhão de caracteres por mês cobre centenas de jogos anotados.

A configuração demora cerca de 5 minutos: crie uma conta Google Cloud, ative a API Text-to-Speech, gere uma chave API. Sem custos a menos que exceda o nível gratuito (muito difícil de fazer com anotações de xadrez).

Requer internet. Ideal para a maioria dos utilizadores.

Guia de Configuração do Google Cloud

IA local de alta qualidade que funciona inteiramente na sua máquina. Utiliza um modelo neural leve de ~25MB com 8 vozes expressivas (4 masculinas, 4 femininas). A qualidade é notavelmente boa — entoação natural, pronúncia clara, expressividade genuína.

A contrapartida é o hardware: KittenTTS utiliza PyTorch para inferência em CPU, pelo que necessita de um processador moderno multi-core. Numa máquina com 8 cores soa excelente; num portátil mais antigo pode notar atrasos. Apenas inglês por agora.

Na primeira vez que cada anotação é lida, há um breve atraso de geração (1-2 segundos num CPU rápido, mais em hardware mais lento). Depois disso, o áudio fica em cache na memória e reproduz instantaneamente — avançar e recuar pelos lances que já ouviu tem zero atraso. Também pode pré-carregar um jogo inteiro em segundo plano a partir das definições, para que cada anotação esteja pronta antes de começar a estudar.

Sem necessidade de internet. Sem chaves API. Melhor qualidade local.

Guia de Configuração do KittenTTS

Um servidor TTS de código aberto que funciona na sua máquina via Docker. Nada sai do seu computador. Inclui vários motores TTS (Larynx, Festival, eSpeak, Coqui-TTS), proporcionando mais de 75 vozes só para inglês.

A contrapartida é a qualidade de voz: estes são motores neurais e baseados em regras mais antigos, pelo que o resultado soa mais robótico do que ElevenLabs ou Google. Funciona melhor com línguas europeias (inglês, alemão, francês, espanhol, russo, neerlandês, sueco, italiano e mais) — CJK não é suportado. Honestamente, se vai passar pelo trabalho de configurar um modelo local, KittenTTS oferece-lhe melhor qualidade com menos complicações. A menos que haja procura significativa pelo OpenTTS, provavelmente iremos descontinuá-lo numa versão futura.

Sem necessidade de internet. Sem chaves API. Ideal para máxima privacidade com muitas opções de voz.

Guia de Configuração do OpenTTS

A síntese de fala integrada do seu sistema operativo. Nada para instalar, sem chaves API, sem servidores. Selecione e comece. A qualidade de voz é básica — ouvirá o tom robótico característico do TTS a nível do SO — mas funciona instantaneamente com zero configuração.

No Linux é tipicamente eSpeak ou speech-dispatcher; no macOS é a voz do sistema; no Windows é SAPI. O suporte de idiomas depende inteiramente dos pacotes de voz instalados no seu sistema operativo.

Sem necessidade de internet. Ideal para testes rápidos.

Guia de Configuração do TTS do Sistema

FornecedorTipoQualidadeConfiguraçãoIdiomas
ElevenLabsAPI na nuvemExcecionalChave API34+ (incl. CJK)
Google CloudAPI na nuvemMuito boa (WaveNet)Chave API30+ (incl. CJK)
KittenTTSIA neural localBoaPython + venvApenas inglês
OpenTTSDocker localRazoávelDockerApenas europeus
Sistema (SO Nativo)Integrado no SOBásicaNenhumaDependente do SO

Nota sobre hardware: Os fornecedores locais (KittenTTS e OpenTTS) executam inferência neural no seu CPU. Necessitam de um processador moderno multi-core (8+ cores recomendado) para gerar fala sem atraso perceptível. Pense nisso como executar mais um motor de xadrez na sua máquina. Se a sua máquina for mais antiga ou de baixo desempenho, utilize um dos fornecedores na nuvem.

Comece com ElevenLabs se deseja a qualidade de voz mais rica — o nível gratuito é suficiente para experimentar. Para o melhor equilíbrio entre qualidade e utilização gratuita, Google Cloud cobre centenas de jogos por mês. Para TTS local de alta qualidade sem dependência da nuvem, KittenTTS é excelente se tiver um CPU moderno. Para testes sem configuração, TTS do Sistema funciona instantaneamente. Para máxima privacidade com muitas opções de voz, OpenTTS executa tudo localmente via Docker.

Todas as definições de TTS estão em Definições > Som:

DefiniçãoO que faz
Text-to-SpeechInterruptor principal de ligar/desligar para todas as funcionalidades TTS
Auto-Narrate on MoveLê automaticamente as anotações quando avança pelos lances
TTS ProviderAlternar entre os cinco fornecedores
TTS VoiceSeleção de voz específica do fornecedor
TTS LanguageIdioma para a narração — os termos de xadrez são traduzidos automaticamente
TTS VolumeVolume da narração
TTS SpeedVelocidade de reprodução (0.5x a 2x) — ajusta sem regenerar o áudio
ElevenLabs API KeyA sua chave API do ElevenLabs (apenas visível quando usa ElevenLabs)
Google Cloud API KeyA sua chave API do Google Cloud (apenas visível quando usa Google)
KittenTTS CPU ThreadsThreads de CPU para inferência (0 = auto / usar todos os cores)
TTS Audio CacheLimpar áudio em cache para forçar a regeneração

A narração TTS suporta muitos idiomas com vocabulário de xadrez totalmente traduzido. Aqui estão alguns exemplos:

IdiomaExemplo de xadrez
EnglishKnight f3, check. A strong developing move.
FrancaisCavalier f3, echec. Un coup de developpement fort.
EspanolCaballo f3, jaque. Un fuerte movimiento.
DeutschSpringer f3, Schach. Ein starker Entwicklungszug.
日本語ナイト f3、チェック。強い展開の手。
РусскийКонь f3, шах. Сильный развивающий ход.
中文马 f3,将军。一步控制中心的强力出子。
한국어나이트 f3, 체크. 중앙을 지배하는 강력한 전개 수.

Cada termo de xadrez — nomes das peças, “xeque”, “xeque-mate”, “roque”, “captura”, anotações de qualidade de lance como “Lance brilhante” e “Erro grave” — é pronunciado no idioma selecionado. Os comentários nos seus ficheiros PGN são lidos tal como estão escritos, por isso anote os seus jogos no idioma que deseja ouvir.

Pré-processamento de Texto com Consciência de Xadrez

Seção intitulada “Pré-processamento de Texto com Consciência de Xadrez”

O motor TTS não se limita a ler texto em bruto — compreende a notação de xadrez. Antes de qualquer texto ser pronunciado, um passo de pré-processamento converte a notação PGN em fala natural:

Escrito em PGNPronunciado em voz alta
Nf3”Knight f3”
Bxe6+”Bishop takes e6, check”
O-O-O”castles queenside”
e8=Q#”e8 promotes to Queen, checkmate”
Rae1”Rook a e1” (desambiguação)
5.Qxd8+ (em comentários)“5, Queen takes d8, check”
en prise”on preez” (pronúncia francesa)
Ra8 is hanging”Rook on a8 is hanging”
R vs R”Rook versus Rook”
6...Bf5 (pontos de número de lance)“6, Bishop f5” (pausa natural, sem “ponto”)

Os comentários são limpos antes de serem pronunciados: as etiquetas [%eval], [%cal], [%csl] são removidas. Palavras iniciais de qualidade que duplicam o símbolo NAG são eliminadas (assim ?? {BLUNDER. The rook hangs} não gagueja “Blunder. Blunder.”).

Cada narração é guardada em cache na memória após a primeira geração. Avançar e recuar num jogo reproduz instantaneamente a partir da cache — sem chamadas à API, sem atraso de regeneração. Também pode pré-carregar toda a árvore de um jogo em segundo plano para que não haja pausas durante a reprodução.

A cache é indexada por provider:voiceId:lang:text, pelo que mudar a voz ou o fornecedor cria entradas de cache separadas. Mudar a velocidade de reprodução não invalida a cache — a velocidade é aplicada do lado do cliente no elemento de áudio.

Um botão Clear Audio Cache nas Definições permite-lhe forçar a regeneração após editar anotações.

  • Use o Auto-Narrate. Ative “Auto-Narrate on Move” e simplesmente use as teclas de seta para avançar pelos jogos. O comentário chega naturalmente à medida que avança, como ter um treinador ao seu lado.

  • Anote os seus próprios jogos. O TTS brilha verdadeiramente quando está a ouvir comentários sobre os seus jogos. Anote os seus jogos e depois avance por eles com narração. Ouvir “Capturar o peão parece tentador, mas todo o seu flanco do rei ainda está a dormir” enquanto olha fixamente para a posição tem um impacto diferente de o ler.

  • Experimente diferentes velocidades. Alguns jogadores preferem 1x para estudo cuidadoso, outros preferem 1.3x para revisão mais rápida. O cursor de velocidade ajusta a reprodução em tempo real sem usar caracteres adicionais da API.

  • Use o ícone do altifalante. Cada comentário na lista de lances tem um pequeno ícone de altifalante. Clique nele para ouvir apenas essa anotação.

  • Mude de idioma para aprender vocabulário de xadrez. Se está a estudar xadrez numa segunda língua, defina o idioma do TTS para corresponder. Aprenderá naturalmente termos como “Cavalier” (Cavalo), “echec” (xeque) e “mat” (xeque-mate) simplesmente ao ouvir.

Estas orientações produzem a melhor narração falada a partir das suas anotações PGN.

Utilize a notação SAN padrão. O pré-processador expande-a automaticamente:

  • "After 7.Nf3, White controls e5" torna-se “After 7, Knight f3, White controls e5”
  • "The Bg5 pins the knight" torna-se “The Bishop g5 pins the knight”

O glifo NAG (!, ??, !?, etc.) gera palavras de qualidade faladas automaticamente. Não os duplique no comentário:

  • Mau: ?? {BLUNDER. A terrible move...} — o TTS diz “Blunder. Blunder. A terrible move”
  • Bom: ?? {A terrible move...} — o TTS diz “Blunder. A terrible move”

A notação PGN padrão funciona: 6...Bf5. O pré-processador converte os pontos em vírgulas para pausas naturais em vez de “ponto ponto ponto.”

Os pontos finais criam pausas naturais no TTS. Utilize-os entre ideias distintas:

{Doubled isolated e-pawns. The f-file is ripped open. The position is strategically won.}

As etiquetas [%cal ...] e [%csl ...] são removidas do áudio automaticamente. Utilize-as livremente para anotações visuais sem afetar a narração.

Uma nota sobre redistribuição para quem desenvolve sobre En Parlant~:

  • ElevenLabs — Retém todos os direitos sobre o áudio gerado (Termos de Uso do ElevenLabs, secção c(ii)). Pode redistribuí-lo livremente.
  • Google Cloud — Retém todos os direitos de propriedade intelectual sobre o áudio gerado. Sem restrições.
  • KittenTTS, OpenTTS, TTS do Sistema — Sem restrições de redistribuição sobre o áudio gerado.

En Croissant é uma ferramenta de estudo de xadrez de código aberto criada por Francisco Salgueiro. Francisco construiu algo genuinamente especial — uma plataforma gratuita, poderosa e movida pela comunidade para estudar xadrez — e lançou-a sob a licença GPL-3.0 para que qualquer pessoa possa usá-la, melhorá-la e partilhá-la. Esta funcionalidade TTS existe graças a essa generosidade. Estamos gratos pela base que ele construiu e orgulhosos por contribuir de volta para ela.

O plugin TTS foi desenvolvido por Darrell na Red Shed, com a ajuda do Claude Code. Cinco fornecedores, suporte multilingue, vocabulário de xadrez traduzido em muitos idiomas, inferência de IA local, gestão de dependências — construído a partir do código-fonte, testado manualmente e contribuído com cuidado.

Essa é a beleza do código aberto. Alguém constrói algo excelente. Outra pessoa acrescenta algo. Todos beneficiam.

Adoraríamos saber como o TTS está a funcionar para si. Comentários, sugestões e feedback são sempre bem-vindos.

  • Quer um idioma que ainda não suportamos? Diga-nos — podemos adicionar novos idiomas rapidamente.
  • Encontrou um erro? Diga-nos e corrigimo-lo depressa.
  • Tem uma ideia para outro fornecedor de TTS? Teremos todo o gosto em adicioná-lo.
  • Só quer dizer que está a funcionar? Também é ótimo saber.

Abra um issue no GitHub, ou contacte-nos diretamente em darrell@redshed.ai.