Resumen de proveedores de TTS
Por qué el TTS cambia tu forma de estudiar ajedrez
Sección titulada «Por qué el TTS cambia tu forma de estudiar ajedrez»Cuando estás revisando una partida anotada, tus ojos hacen doble trabajo. Intentas seguir las piezas en el tablero y leer los comentarios al mismo tiempo. Tu mirada salta entre el tablero y el panel de anotaciones, y cada vez que lo hace, pierdes la posición por una fracción de segundo. Tienes que volver a encontrar las piezas, volver a trazar las líneas, volver a construir la imagen en tu cabeza.
El texto a voz soluciona esto por completo.
Con el TTS activado, avanzas por una partida y las anotaciones se te leen en voz alta. Tus ojos permanecen en el tablero. Ves al caballo llegar a f3 mientras una voz te explica por qué es un buen movimiento de desarrollo. Ves cómo cambia la estructura de peones mientras el comentario explica la idea estratégica detrás. El tablero y las palabras llegan juntos, de la misma forma en que te enseñaría un entrenador sentado frente a ti.
Esto es especialmente poderoso para:
- Estudio de aperturas — escucha las ideas detrás de cada movimiento mientras observas cómo se desarrolla la posición
- Revisión de partidas — avanza por tus propias partidas anotadas y absorbe las lecciones de forma natural
- Práctica de finales — mantén tu atención en las casillas críticas mientras el comentario te guía
- Inmersión lingüística — estudia ajedrez en francés, alemán, español, ruso, japonés, chino o coreano con todos los términos ajedrecísticos correctamente traducidos. Escucha “Cavalier f3, echec” en lugar de “Knight f3, check”. Aprende el juego en el idioma en el que piensas.
- Accesibilidad — para jugadores que les resulta más fácil escuchar que leer, o que quieren estudiar lejos del escritorio
Una vez que lo pruebes, volver a las anotaciones silenciosas se siente como ver una película en silencio.
Elegir un proveedor
Sección titulada «Elegir un proveedor»En Parlant~ incluye cinco proveedores de TTS, desde APIs en la nube con voces de calidad de estudio hasta opciones completamente locales que no necesitan internet en absoluto. Solo necesitas uno para empezar. Se enumeran a continuación de mejor a peor calidad de voz.
ElevenLabs
Sección titulada «ElevenLabs»La mejor calidad de voz disponible. ElevenLabs produce un habla expresiva y similar a la humana con verdadera personalidad — algunas voces suenan como narradores de audiolibros, otras como locutores. Decenas de voces únicas para elegir. Compatible con más de 34 idiomas, incluyendo una excelente pronunciación CJK (japonés, chino, coreano), además de árabe, hindi y todos los principales idiomas europeos.
El plan gratuito te da 10.000 caracteres al mes (suficiente para 2-5 partidas anotadas). Los planes de pago empiezan en $5/mes por 30.000 caracteres. La configuración es sencilla: crea una cuenta, copia tu clave API y pégala en En Parlant~.
Requiere internet. Ideal para entusiastas de la calidad de voz.
Guía de configuración de ElevenLabs
Google Cloud TTS
Sección titulada «Google Cloud TTS»El mejor equilibrio entre calidad, soporte de idiomas y valor. Las voces neuronales WaveNet de Google suenan naturales y claras en más de 30 idiomas — incluyendo CJK, árabe, hindi, bengalí, filipino, vietnamita y todos los principales idiomas europeos. El plan gratuito es generoso: un millón de caracteres al mes cubre cientos de partidas anotadas.
La configuración lleva unos 5 minutos: crea una cuenta de Google Cloud, habilita la API de Text-to-Speech y genera una clave API. Sin cargos a menos que excedas el plan gratuito (muy difícil de hacer con anotaciones de ajedrez).
Requiere internet. Ideal para la mayoría de usuarios.
Guía de configuración de Google Cloud
KittenTTS
Sección titulada «KittenTTS»IA local de alta calidad que se ejecuta completamente en tu máquina. Utiliza un modelo neuronal ligero de ~25MB con 8 voces expresivas (4 masculinas, 4 femeninas). La calidad es notablemente buena — entonación natural, pronunciación clara y expresividad genuina.
La contrapartida es el hardware: KittenTTS usa PyTorch para inferencia en CPU, por lo que necesita un procesador multinúcleo moderno. En una máquina de 8 núcleos suena genial; en un portátil antiguo podrías notar retraso. Solo en inglés por ahora.
La primera vez que se lee cada anotación hay un breve retraso de generación (1-2 segundos en una CPU rápida, más en hardware más lento). Después, el audio se almacena en caché en memoria y se reproduce al instante — avanzar y retroceder por movimientos que ya has escuchado tiene cero retraso. También puedes precargar una partida completa en segundo plano desde los ajustes, para que cada anotación esté lista antes de empezar a estudiar.
No requiere internet. No necesita claves API. La mejor calidad local.
Guía de configuración de KittenTTS
OpenTTS
Sección titulada «OpenTTS»Un servidor TTS de código abierto que se ejecuta en tu máquina a través de Docker. Nada sale de tu ordenador. Incluye varios motores TTS (Larynx, Festival, eSpeak, Coqui-TTS), ofreciéndote más de 75 voces solo para inglés.
La contrapartida es la calidad de voz: estos son motores neuronales y basados en reglas más antiguos, por lo que el resultado suena más robótico que ElevenLabs o Google. Funciona mejor con idiomas europeos (inglés, alemán, francés, español, ruso, holandés, sueco, italiano y más) — CJK no es compatible. Honestamente, si vas a tomarte la molestia de configurar un modelo local, KittenTTS te ofrece mejor calidad con menos complicaciones. A menos que haya una demanda significativa de OpenTTS, probablemente lo descontinuaremos en una futura versión.
No requiere internet. No necesita claves API. Ideal para máxima privacidad con muchas opciones de voz.
Guía de configuración de OpenTTS
System TTS
Sección titulada «System TTS»La síntesis de voz integrada en tu sistema operativo. No hay nada que instalar, no necesitas claves API ni servidores. Selecciónalo y listo. La calidad de voz es básica — escucharás el tono robótico característico del TTS del sistema operativo — pero funciona al instante sin configuración alguna.
En Linux generalmente es eSpeak o speech-dispatcher; en macOS es la voz del sistema; en Windows es SAPI. El soporte de idiomas depende completamente de los paquetes de voz que tenga instalados tu sistema operativo.
No requiere internet. Ideal para pruebas rápidas.
Guía de configuración de System TTS
Comparación de proveedores
Sección titulada «Comparación de proveedores»| Proveedor | Tipo | Calidad | Configuración | Idiomas |
|---|---|---|---|---|
| ElevenLabs | API en la nube | Excepcional | Clave API | 34+ (incl. CJK) |
| Google Cloud | API en la nube | Muy buena (WaveNet) | Clave API | 30+ (incl. CJK) |
| KittenTTS | IA neuronal local | Buena | Python + venv | Solo inglés |
| OpenTTS | Docker local | Aceptable | Docker | Solo europeos |
| System (OS nativo) | Integrado en el SO | Básica | Ninguna | Depende del SO |
Nota sobre hardware: Los proveedores locales (KittenTTS y OpenTTS) ejecutan inferencia neuronal en tu CPU. Necesitan un procesador multinúcleo moderno (se recomiendan 8+ núcleos) para generar voz sin retraso perceptible. Piensa en ello como ejecutar otro motor de ajedrez más en tu máquina. Si tu equipo es antiguo o de baja potencia, usa uno de los proveedores en la nube.
Nuestra recomendación
Sección titulada «Nuestra recomendación»Empieza con ElevenLabs si quieres la mayor riqueza de voz — el plan gratuito es suficiente para probarlo. Para el mejor equilibrio entre calidad y uso gratuito, Google Cloud cubre cientos de partidas al mes. Para TTS local de alta calidad sin dependencia de la nube, KittenTTS es excelente si tienes una CPU moderna. Para pruebas sin configuración, System TTS funciona al instante. Para máxima privacidad con muchas opciones de voz, OpenTTS ejecuta todo localmente a través de Docker.
Referencia de ajustes
Sección titulada «Referencia de ajustes»Todos los ajustes de TTS se encuentran en Ajustes > Sonido:
| Ajuste | Qué hace |
|---|---|
| Text-to-Speech | Interruptor principal de activación/desactivación para todas las funciones de TTS |
| Auto-Narrate on Move | Lee automáticamente las anotaciones cuando avanzas por los movimientos |
| TTS Provider | Cambia entre los cinco proveedores |
| TTS Voice | Selección de voz específica del proveedor |
| TTS Language | Idioma de narración — los términos de ajedrez se traducen automáticamente |
| TTS Volume | Volumen de la narración |
| TTS Speed | Velocidad de reproducción (0.5x a 2x) — se ajusta sin regenerar el audio |
| ElevenLabs API Key | Tu clave API de ElevenLabs (solo se muestra al usar ElevenLabs) |
| Google Cloud API Key | Tu clave API de Google Cloud (solo se muestra al usar Google) |
| KittenTTS CPU Threads | Hilos de CPU para inferencia (0 = automático / usar todos los núcleos) |
| TTS Audio Cache | Limpiar el audio en caché para forzar la regeneración |
Idiomas compatibles
Sección titulada «Idiomas compatibles»La narración TTS es compatible con muchos idiomas con vocabulario ajedrecístico completamente traducido. Aquí tienes algunos ejemplos:
| Idioma | Ejemplo de ajedrez |
|---|---|
| English | Knight f3, check. A strong developing move. |
| Francais | Cavalier f3, echec. Un coup de developpement fort. |
| Espanol | Caballo f3, jaque. Un fuerte movimiento. |
| Deutsch | Springer f3, Schach. Ein starker Entwicklungszug. |
| 日本語 | ナイト f3、チェック。強い展開の手。 |
| Русский | Конь f3, шах. Сильный развивающий ход. |
| 中文 | 马 f3,将军。一步控制中心的强力出子。 |
| 한국어 | 나이트 f3, 체크. 중앙을 지배하는 강력한 전개 수. |
Cada término de ajedrez — nombres de piezas, “jaque”, “jaque mate”, “enroque”, “captura”, anotaciones de calidad de movimiento como “Jugada brillante” y “Error grave” — se pronuncia en el idioma seleccionado. Los comentarios en tus archivos PGN se leen tal como están escritos, así que anota tus partidas en el idioma que quieras escuchar.
Preprocesamiento de texto adaptado al ajedrez
Sección titulada «Preprocesamiento de texto adaptado al ajedrez»El motor de TTS no se limita a leer texto sin más — entiende la notación de ajedrez. Antes de pronunciar cualquier texto, un paso de preprocesamiento convierte la notación PGN en habla natural:
| Escrito en PGN | Pronunciado en voz alta |
|---|---|
Nf3 | ”Knight f3” |
Bxe6+ | ”Bishop takes e6, check” |
O-O-O | ”castles queenside” |
e8=Q# | ”e8 promotes to Queen, checkmate” |
Rae1 | ”Rook a e1” (desambiguación) |
5.Qxd8+ (en comentarios) | “5, Queen takes d8, check” |
en prise | ”on preez” (pronunciación francesa) |
Ra8 is hanging | ”Rook on a8 is hanging” |
R vs R | ”Rook versus Rook” |
6...Bf5 (puntos de número de movimiento) | “6, Bishop f5” (pausa natural, sin “punto”) |
Los comentarios se limpian antes de pronunciarse: las etiquetas [%eval], [%cal], [%csl] se eliminan. Las palabras de calidad iniciales que duplican el símbolo NAG se eliminan (así ?? {BLUNDER. The rook hangs} no tartamudea “Blunder. Blunder.”).
Cada narración se almacena en caché en memoria después de la primera generación. Avanzar y retroceder por una partida reproduce al instante desde la caché — sin llamadas a la API, sin retraso de regeneración. También puedes precargar un árbol de partida completo en segundo plano para que no haya pausas durante la reproducción.
La caché se indexa por provider:voiceId:lang:text, así que cambiar la voz o el proveedor crea entradas de caché separadas. Cambiar la velocidad de reproducción no invalida la caché — la velocidad se aplica del lado del cliente sobre el elemento de audio.
Un botón Clear Audio Cache en los Ajustes te permite forzar la regeneración después de editar las anotaciones.
Consejos para la mejor experiencia
Sección titulada «Consejos para la mejor experiencia»-
Usa Auto-Narrate. Activa “Auto-Narrate on Move” y simplemente usa las teclas de flecha para avanzar por las partidas. El comentario llega de forma natural mientras te mueves, como tener un entrenador a tu lado.
-
Anota tus propias partidas. El TTS realmente brilla cuando escuchas comentarios sobre tus partidas. Anota tus partidas y luego avanza por ellas con narración. Escuchar “Capturar el peón parece tentador, pero todo tu flanco de rey sigue dormido” mientras miras fijamente la posición tiene un impacto diferente a leerlo.
-
Prueba diferentes velocidades. Algunos jugadores prefieren 1x para estudio cuidadoso, otros prefieren 1.3x para una revisión más rápida. El control de velocidad ajusta la reproducción en tiempo real sin consumir caracteres adicionales de la API.
-
Usa el icono de altavoz. Cada comentario en la lista de movimientos tiene un pequeño icono de altavoz. Haz clic en él para escuchar solo esa anotación.
-
Cambia de idioma para aprender vocabulario ajedrecístico. Si estás estudiando ajedrez en un segundo idioma, configura el idioma del TTS para que coincida. Aprenderás naturalmente términos como “Cavalier” (Caballo), “echec” (jaque) y “mat” (mate) simplemente escuchando.
Escribir anotaciones optimizadas para TTS
Sección titulada «Escribir anotaciones optimizadas para TTS»Estas pautas producen la mejor narración hablada a partir de tus anotaciones PGN.
SAN en los comentarios
Sección titulada «SAN en los comentarios»Usa notación SAN estándar. El preprocesador la expande automáticamente:
"After 7.Nf3, White controls e5"se convierte en “After 7, Knight f3, White controls e5”"The Bg5 pins the knight"se convierte en “The Bishop g5 pins the knight”
Símbolos de anotación
Sección titulada «Símbolos de anotación»El glifo NAG (!, ??, !?, etc.) genera palabras de calidad habladas automáticamente. No los dupliques en el comentario:
- Mal:
?? {BLUNDER. A terrible move...}— el TTS dice “Blunder. Blunder. A terrible move” - Bien:
?? {A terrible move...}— el TTS dice “Blunder. A terrible move”
Puntos en números de movimiento
Sección titulada «Puntos en números de movimiento»La notación PGN estándar funciona: 6...Bf5. El preprocesador convierte los puntos en comas para pausas naturales en lugar de “punto punto punto”.
Puntos para marcar el ritmo
Sección titulada «Puntos para marcar el ritmo»Los puntos crean pausas naturales en el TTS. Úsalos entre ideas distintas:
{Doubled isolated e-pawns. The f-file is ripped open. The position is strategically won.}Flechas y círculos
Sección titulada «Flechas y círculos»Las etiquetas [%cal ...] y [%csl ...] se eliminan del audio automáticamente. Úsalas libremente para anotaciones visuales sin afectar la narración.
Licencias de audio
Sección titulada «Licencias de audio»Una nota sobre redistribución para cualquiera que construya sobre En Parlant~:
- ElevenLabs — Conservas todos los derechos sobre tu audio generado (Términos de uso de ElevenLabs, sección c(ii)). Puedes redistribuirlo libremente.
- Google Cloud — Conservas todos los derechos de propiedad intelectual sobre el audio generado. Sin restricciones.
- KittenTTS, OpenTTS, System TTS — Sin restricciones de redistribución sobre el audio generado.
Acerca de esta funcionalidad
Sección titulada «Acerca de esta funcionalidad»En Croissant es una herramienta de estudio de ajedrez de código abierto creada por Francisco Salgueiro. Francisco construyó algo realmente especial — una plataforma gratuita, potente e impulsada por la comunidad para estudiar ajedrez — y la publicó bajo la licencia GPL-3.0 para que cualquiera pueda usarla, mejorarla y compartirla. Esta funcionalidad de TTS existe gracias a esa generosidad. Estamos agradecidos por la base que construyó, y estamos orgullosos de contribuir de vuelta.
El plugin de TTS fue desarrollado por Darrell en Red Shed, con la ayuda de Claude Code. Cinco proveedores, soporte multilingüe, vocabulario ajedrecístico traducido a muchos idiomas, inferencia de IA local, gestión de dependencias — construido desde el código fuente, probado a mano y contribuido con esmero.
Esa es la belleza del código abierto. Alguien construye algo genial. Alguien más le añade algo. Todos se benefician.
Contacto
Sección titulada «Contacto»Nos encantaría saber cómo te está funcionando el TTS. Los comentarios, sugerencias y opiniones son siempre bienvenidos.
- ¿Quieres un idioma que aún no soportamos? Avísanos — podemos añadir nuevos idiomas rápidamente.
- ¿Encontraste un error? Cuéntanos y lo arreglaremos rápido.
- ¿Tienes una idea para otro proveedor de TTS? Estaremos encantados de añadirlo.
- ¿Solo quieres decirnos que funciona bien? También nos alegra saberlo.
Abre un issue en GitHub, o escríbenos directamente a darrell@redshed.ai.