Resumen de proveedores de TTS

Por qué el TTS cambia tu forma de estudiar ajedrez

Cuando estás revisando una partida anotada, tus ojos hacen doble trabajo. Intentas seguir las piezas en el tablero y leer los comentarios al mismo tiempo. Tu mirada salta entre el tablero y el panel de anotaciones, y cada vez que lo hace, pierdes la posición por una fracción de segundo. Tienes que volver a encontrar las piezas, volver a trazar las líneas, volver a construir la imagen en tu cabeza.

El texto a voz soluciona esto por completo.

Con el TTS activado, avanzas por una partida y las anotaciones se te leen en voz alta. Tus ojos permanecen en el tablero. Ves al caballo llegar a f3 mientras una voz te explica por qué es un buen movimiento de desarrollo. Ves cómo cambia la estructura de peones mientras el comentario explica la idea estratégica detrás. El tablero y las palabras llegan juntos, de la misma forma en que te enseñaría un entrenador sentado frente a ti.

Esto es especialmente poderoso para:

Estudio de aperturas — escucha las ideas detrás de cada movimiento mientras observas cómo se desarrolla la posición
Revisión de partidas — avanza por tus propias partidas anotadas y absorbe las lecciones de forma natural
Práctica de finales — mantén tu atención en las casillas críticas mientras el comentario te guía
Inmersión lingüística — estudia ajedrez en francés, alemán, español, ruso, japonés, chino o coreano con todos los términos ajedrecísticos correctamente traducidos. Escucha “Cavalier f3, echec” en lugar de “Knight f3, check”. Aprende el juego en el idioma en el que piensas.
Accesibilidad — para jugadores que les resulta más fácil escuchar que leer, o que quieren estudiar lejos del escritorio

Una vez que lo pruebes, volver a las anotaciones silenciosas se siente como ver una película en silencio.

Elegir un proveedor

En Parlant~ incluye cinco proveedores de TTS, desde APIs en la nube con voces de calidad de estudio hasta opciones completamente locales que no necesitan internet en absoluto. Solo necesitas uno para empezar. Se enumeran a continuación de mejor a peor calidad de voz.

ElevenLabs

La mejor calidad de voz disponible. ElevenLabs produce un habla expresiva y similar a la humana con verdadera personalidad — algunas voces suenan como narradores de audiolibros, otras como locutores. Decenas de voces únicas para elegir. Compatible con más de 34 idiomas, incluyendo una excelente pronunciación CJK (japonés, chino, coreano), además de árabe, hindi y todos los principales idiomas europeos.

El plan gratuito te da 10.000 caracteres al mes (suficiente para 2-5 partidas anotadas). Los planes de pago empiezan en $5/mes por 30.000 caracteres. La configuración es sencilla: crea una cuenta, copia tu clave API y pégala en En Parlant~.

Requiere internet. Ideal para entusiastas de la calidad de voz.

Guía de configuración de ElevenLabs

Google Cloud TTS

El mejor equilibrio entre calidad, soporte de idiomas y valor. Las voces neuronales WaveNet de Google suenan naturales y claras en más de 30 idiomas — incluyendo CJK, árabe, hindi, bengalí, filipino, vietnamita y todos los principales idiomas europeos. El plan gratuito es generoso: un millón de caracteres al mes cubre cientos de partidas anotadas.

La configuración lleva unos 5 minutos: crea una cuenta de Google Cloud, habilita la API de Text-to-Speech y genera una clave API. Sin cargos a menos que excedas el plan gratuito (muy difícil de hacer con anotaciones de ajedrez).

Requiere internet. Ideal para la mayoría de usuarios.

Guía de configuración de Google Cloud

KittenTTS

IA local de alta calidad que se ejecuta completamente en tu máquina. Utiliza un modelo neuronal ligero de ~25MB con 8 voces expresivas (4 masculinas, 4 femeninas). La calidad es notablemente buena — entonación natural, pronunciación clara y expresividad genuina.

La contrapartida es el hardware: KittenTTS usa PyTorch para inferencia en CPU, por lo que necesita un procesador multinúcleo moderno. En una máquina de 8 núcleos suena genial; en un portátil antiguo podrías notar retraso. Solo en inglés por ahora.

La primera vez que se lee cada anotación hay un breve retraso de generación (1-2 segundos en una CPU rápida, más en hardware más lento). Después, el audio se almacena en caché en memoria y se reproduce al instante — avanzar y retroceder por movimientos que ya has escuchado tiene cero retraso. También puedes precargar una partida completa en segundo plano desde los ajustes, para que cada anotación esté lista antes de empezar a estudiar.

No requiere internet. No necesita claves API. La mejor calidad local.

Guía de configuración de KittenTTS

OpenTTS

Un servidor TTS de código abierto que se ejecuta en tu máquina a través de Docker. Nada sale de tu ordenador. Incluye varios motores TTS (Larynx, Festival, eSpeak, Coqui-TTS), ofreciéndote más de 75 voces solo para inglés.

La contrapartida es la calidad de voz: estos son motores neuronales y basados en reglas más antiguos, por lo que el resultado suena más robótico que ElevenLabs o Google. Funciona mejor con idiomas europeos (inglés, alemán, francés, español, ruso, holandés, sueco, italiano y más) — CJK no es compatible. Honestamente, si vas a tomarte la molestia de configurar un modelo local, KittenTTS te ofrece mejor calidad con menos complicaciones. A menos que haya una demanda significativa de OpenTTS, probablemente lo descontinuaremos en una futura versión.

No requiere internet. No necesita claves API. Ideal para máxima privacidad con muchas opciones de voz.

Guía de configuración de OpenTTS

System TTS

La síntesis de voz integrada en tu sistema operativo. No hay nada que instalar, no necesitas claves API ni servidores. Selecciónalo y listo. La calidad de voz es básica — escucharás el tono robótico característico del TTS del sistema operativo — pero funciona al instante sin configuración alguna.

En Linux generalmente es eSpeak o speech-dispatcher; en macOS es la voz del sistema; en Windows es SAPI. El soporte de idiomas depende completamente de los paquetes de voz que tenga instalados tu sistema operativo.

No requiere internet. Ideal para pruebas rápidas.

Guía de configuración de System TTS

Comparación de proveedores

Proveedor	Tipo	Calidad	Configuración	Idiomas
ElevenLabs	API en la nube	Excepcional	Clave API	34+ (incl. CJK)
Google Cloud	API en la nube	Muy buena (WaveNet)	Clave API	30+ (incl. CJK)
KittenTTS	IA neuronal local	Buena	Python + venv	Solo inglés
OpenTTS	Docker local	Aceptable	Docker	Solo europeos
System (OS nativo)	Integrado en el SO	Básica	Ninguna	Depende del SO

Nota sobre hardware: Los proveedores locales (KittenTTS y OpenTTS) ejecutan inferencia neuronal en tu CPU. Necesitan un procesador multinúcleo moderno (se recomiendan 8+ núcleos) para generar voz sin retraso perceptible. Piensa en ello como ejecutar otro motor de ajedrez más en tu máquina. Si tu equipo es antiguo o de baja potencia, usa uno de los proveedores en la nube.

Nuestra recomendación

Empieza con ElevenLabs si quieres la mayor riqueza de voz — el plan gratuito es suficiente para probarlo. Para el mejor equilibrio entre calidad y uso gratuito, Google Cloud cubre cientos de partidas al mes. Para TTS local de alta calidad sin dependencia de la nube, KittenTTS es excelente si tienes una CPU moderna. Para pruebas sin configuración, System TTS funciona al instante. Para máxima privacidad con muchas opciones de voz, OpenTTS ejecuta todo localmente a través de Docker.

Referencia de ajustes

Todos los ajustes de TTS se encuentran en Ajustes > Sonido:

Ajuste	Qué hace
Text-to-Speech	Interruptor principal de activación/desactivación para todas las funciones de TTS
Auto-Narrate on Move	Lee automáticamente las anotaciones cuando avanzas por los movimientos
TTS Provider	Cambia entre los cinco proveedores
TTS Voice	Selección de voz específica del proveedor
TTS Language	Idioma de narración — los términos de ajedrez se traducen automáticamente
TTS Volume	Volumen de la narración
TTS Speed	Velocidad de reproducción (0.5x a 2x) — se ajusta sin regenerar el audio
ElevenLabs API Key	Tu clave API de ElevenLabs (solo se muestra al usar ElevenLabs)
Google Cloud API Key	Tu clave API de Google Cloud (solo se muestra al usar Google)
KittenTTS CPU Threads	Hilos de CPU para inferencia (0 = automático / usar todos los núcleos)
TTS Audio Cache	Limpiar el audio en caché para forzar la regeneración

Idiomas compatibles

La narración TTS es compatible con muchos idiomas con vocabulario ajedrecístico completamente traducido. Aquí tienes algunos ejemplos:

Idioma	Ejemplo de ajedrez
English	Knight f3, check. A strong developing move.
Francais	Cavalier f3, echec. Un coup de developpement fort.
Espanol	Caballo f3, jaque. Un fuerte movimiento.
Deutsch	Springer f3, Schach. Ein starker Entwicklungszug.
日本語	ナイト f3、チェック。強い展開の手。
Русский	Конь f3, шах. Сильный развивающий ход.
中文	马 f3，将军。一步控制中心的强力出子。
한국어	나이트 f3, 체크. 중앙을 지배하는 강력한 전개 수.

Cada término de ajedrez — nombres de piezas, “jaque”, “jaque mate”, “enroque”, “captura”, anotaciones de calidad de movimiento como “Jugada brillante” y “Error grave” — se pronuncia en el idioma seleccionado. Los comentarios en tus archivos PGN se leen tal como están escritos, así que anota tus partidas en el idioma que quieras escuchar.

Preprocesamiento de texto adaptado al ajedrez

El motor de TTS no se limita a leer texto sin más — entiende la notación de ajedrez. Antes de pronunciar cualquier texto, un paso de preprocesamiento convierte la notación PGN en habla natural:

Escrito en PGN	Pronunciado en voz alta
`Nf3`	”Knight f3”
`Bxe6+`	”Bishop takes e6, check”
`O-O-O`	”castles queenside”
`e8=Q#`	”e8 promotes to Queen, checkmate”
`Rae1`	”Rook a e1” (desambiguación)
`5.Qxd8+` (en comentarios)	“5, Queen takes d8, check”
`en prise`	”on preez” (pronunciación francesa)
`Ra8 is hanging`	”Rook on a8 is hanging”
`R vs R`	”Rook versus Rook”
`6...Bf5` (puntos de número de movimiento)	“6, Bishop f5” (pausa natural, sin “punto”)

Los comentarios se limpian antes de pronunciarse: las etiquetas [%eval], [%cal], [%csl] se eliminan. Las palabras de calidad iniciales que duplican el símbolo NAG se eliminan (así ?? {BLUNDER. The rook hangs} no tartamudea “Blunder. Blunder.”).

Caché

Cada narración se almacena en caché en memoria después de la primera generación. Avanzar y retroceder por una partida reproduce al instante desde la caché — sin llamadas a la API, sin retraso de regeneración. También puedes precargar un árbol de partida completo en segundo plano para que no haya pausas durante la reproducción.

La caché se indexa por provider:voiceId:lang:text, así que cambiar la voz o el proveedor crea entradas de caché separadas. Cambiar la velocidad de reproducción no invalida la caché — la velocidad se aplica del lado del cliente sobre el elemento de audio.

Un botón Clear Audio Cache en los Ajustes te permite forzar la regeneración después de editar las anotaciones.

Consejos para la mejor experiencia

Usa Auto-Narrate. Activa “Auto-Narrate on Move” y simplemente usa las teclas de flecha para avanzar por las partidas. El comentario llega de forma natural mientras te mueves, como tener un entrenador a tu lado.
Anota tus propias partidas. El TTS realmente brilla cuando escuchas comentarios sobre tus partidas. Anota tus partidas y luego avanza por ellas con narración. Escuchar “Capturar el peón parece tentador, pero todo tu flanco de rey sigue dormido” mientras miras fijamente la posición tiene un impacto diferente a leerlo.
Prueba diferentes velocidades. Algunos jugadores prefieren 1x para estudio cuidadoso, otros prefieren 1.3x para una revisión más rápida. El control de velocidad ajusta la reproducción en tiempo real sin consumir caracteres adicionales de la API.
Usa el icono de altavoz. Cada comentario en la lista de movimientos tiene un pequeño icono de altavoz. Haz clic en él para escuchar solo esa anotación.
Cambia de idioma para aprender vocabulario ajedrecístico. Si estás estudiando ajedrez en un segundo idioma, configura el idioma del TTS para que coincida. Aprenderás naturalmente términos como “Cavalier” (Caballo), “echec” (jaque) y “mat” (mate) simplemente escuchando.

Escribir anotaciones optimizadas para TTS

Estas pautas producen la mejor narración hablada a partir de tus anotaciones PGN.

SAN en los comentarios

Usa notación SAN estándar. El preprocesador la expande automáticamente:

"After 7.Nf3, White controls e5" se convierte en “After 7, Knight f3, White controls e5”
"The Bg5 pins the knight" se convierte en “The Bishop g5 pins the knight”

Símbolos de anotación

El glifo NAG (!, ??, !?, etc.) genera palabras de calidad habladas automáticamente. No los dupliques en el comentario:

Mal: ?? {BLUNDER. A terrible move...} — el TTS dice “Blunder. Blunder. A terrible move”
Bien: ?? {A terrible move...} — el TTS dice “Blunder. A terrible move”

Puntos en números de movimiento

La notación PGN estándar funciona: 6...Bf5. El preprocesador convierte los puntos en comas para pausas naturales en lugar de “punto punto punto”.

Puntos para marcar el ritmo

Los puntos crean pausas naturales en el TTS. Úsalos entre ideas distintas:

{Doubled isolated e-pawns. The f-file is ripped open. The position is strategically won.}

Flechas y círculos

Las etiquetas [%cal ...] y [%csl ...] se eliminan del audio automáticamente. Úsalas libremente para anotaciones visuales sin afectar la narración.

Licencias de audio

Una nota sobre redistribución para cualquiera que construya sobre En Parlant~:

ElevenLabs — Conservas todos los derechos sobre tu audio generado (Términos de uso de ElevenLabs, sección c(ii)). Puedes redistribuirlo libremente.
Google Cloud — Conservas todos los derechos de propiedad intelectual sobre el audio generado. Sin restricciones.
KittenTTS, OpenTTS, System TTS — Sin restricciones de redistribución sobre el audio generado.

Acerca de esta funcionalidad

En Croissant es una herramienta de estudio de ajedrez de código abierto creada por Francisco Salgueiro. Francisco construyó algo realmente especial — una plataforma gratuita, potente e impulsada por la comunidad para estudiar ajedrez — y la publicó bajo la licencia GPL-3.0 para que cualquiera pueda usarla, mejorarla y compartirla. Esta funcionalidad de TTS existe gracias a esa generosidad. Estamos agradecidos por la base que construyó, y estamos orgullosos de contribuir de vuelta.

El plugin de TTS fue desarrollado por Darrell en Red Shed, con la ayuda de Claude Code. Cinco proveedores, soporte multilingüe, vocabulario ajedrecístico traducido a muchos idiomas, inferencia de IA local, gestión de dependencias — construido desde el código fuente, probado a mano y contribuido con esmero.

Esa es la belleza del código abierto. Alguien construye algo genial. Alguien más le añade algo. Todos se benefician.

Contacto

Nos encantaría saber cómo te está funcionando el TTS. Los comentarios, sugerencias y opiniones son siempre bienvenidos.

¿Quieres un idioma que aún no soportamos? Avísanos — podemos añadir nuevos idiomas rápidamente.
¿Encontraste un error? Cuéntanos y lo arreglaremos rápido.
¿Tienes una idea para otro proveedor de TTS? Estaremos encantados de añadirlo.
¿Solo quieres decirnos que funciona bien? También nos alegra saberlo.

Abre un issue en GitHub, o escríbenos directamente a darrell@redshed.ai.