Ir al contenido

Resumen de proveedores de TTS

Por qué el TTS cambia tu forma de estudiar ajedrez

Sección titulada «Por qué el TTS cambia tu forma de estudiar ajedrez»

Cuando estás revisando una partida anotada, tus ojos hacen doble trabajo. Intentas seguir las piezas en el tablero y leer los comentarios al mismo tiempo. Tu mirada salta entre el tablero y el panel de anotaciones, y cada vez que lo hace, pierdes la posición por una fracción de segundo. Tienes que volver a encontrar las piezas, volver a trazar las líneas, volver a construir la imagen en tu cabeza.

El texto a voz soluciona esto por completo.

Con el TTS activado, avanzas por una partida y las anotaciones se te leen en voz alta. Tus ojos permanecen en el tablero. Ves al caballo llegar a f3 mientras una voz te explica por qué es un buen movimiento de desarrollo. Ves cómo cambia la estructura de peones mientras el comentario explica la idea estratégica detrás. El tablero y las palabras llegan juntos, de la misma forma en que te enseñaría un entrenador sentado frente a ti.

Esto es especialmente poderoso para:

  • Estudio de aperturas — escucha las ideas detrás de cada movimiento mientras observas cómo se desarrolla la posición
  • Revisión de partidas — avanza por tus propias partidas anotadas y absorbe las lecciones de forma natural
  • Práctica de finales — mantén tu atención en las casillas críticas mientras el comentario te guía
  • Inmersión lingüística — estudia ajedrez en francés, alemán, español, ruso, japonés, chino o coreano con todos los términos ajedrecísticos correctamente traducidos. Escucha “Cavalier f3, echec” en lugar de “Knight f3, check”. Aprende el juego en el idioma en el que piensas.
  • Accesibilidad — para jugadores que les resulta más fácil escuchar que leer, o que quieren estudiar lejos del escritorio

Una vez que lo pruebes, volver a las anotaciones silenciosas se siente como ver una película en silencio.

En Parlant~ incluye cinco proveedores de TTS, desde APIs en la nube con voces de calidad de estudio hasta opciones completamente locales que no necesitan internet en absoluto. Solo necesitas uno para empezar. Se enumeran a continuación de mejor a peor calidad de voz.

La mejor calidad de voz disponible. ElevenLabs produce un habla expresiva y similar a la humana con verdadera personalidad — algunas voces suenan como narradores de audiolibros, otras como locutores. Decenas de voces únicas para elegir. Compatible con más de 34 idiomas, incluyendo una excelente pronunciación CJK (japonés, chino, coreano), además de árabe, hindi y todos los principales idiomas europeos.

El plan gratuito te da 10.000 caracteres al mes (suficiente para 2-5 partidas anotadas). Los planes de pago empiezan en $5/mes por 30.000 caracteres. La configuración es sencilla: crea una cuenta, copia tu clave API y pégala en En Parlant~.

Requiere internet. Ideal para entusiastas de la calidad de voz.

Guía de configuración de ElevenLabs

El mejor equilibrio entre calidad, soporte de idiomas y valor. Las voces neuronales WaveNet de Google suenan naturales y claras en más de 30 idiomas — incluyendo CJK, árabe, hindi, bengalí, filipino, vietnamita y todos los principales idiomas europeos. El plan gratuito es generoso: un millón de caracteres al mes cubre cientos de partidas anotadas.

La configuración lleva unos 5 minutos: crea una cuenta de Google Cloud, habilita la API de Text-to-Speech y genera una clave API. Sin cargos a menos que excedas el plan gratuito (muy difícil de hacer con anotaciones de ajedrez).

Requiere internet. Ideal para la mayoría de usuarios.

Guía de configuración de Google Cloud

IA local de alta calidad que se ejecuta completamente en tu máquina. Utiliza un modelo neuronal ligero de ~25MB con 8 voces expresivas (4 masculinas, 4 femeninas). La calidad es notablemente buena — entonación natural, pronunciación clara y expresividad genuina.

La contrapartida es el hardware: KittenTTS usa PyTorch para inferencia en CPU, por lo que necesita un procesador multinúcleo moderno. En una máquina de 8 núcleos suena genial; en un portátil antiguo podrías notar retraso. Solo en inglés por ahora.

La primera vez que se lee cada anotación hay un breve retraso de generación (1-2 segundos en una CPU rápida, más en hardware más lento). Después, el audio se almacena en caché en memoria y se reproduce al instante — avanzar y retroceder por movimientos que ya has escuchado tiene cero retraso. También puedes precargar una partida completa en segundo plano desde los ajustes, para que cada anotación esté lista antes de empezar a estudiar.

No requiere internet. No necesita claves API. La mejor calidad local.

Guía de configuración de KittenTTS

Un servidor TTS de código abierto que se ejecuta en tu máquina a través de Docker. Nada sale de tu ordenador. Incluye varios motores TTS (Larynx, Festival, eSpeak, Coqui-TTS), ofreciéndote más de 75 voces solo para inglés.

La contrapartida es la calidad de voz: estos son motores neuronales y basados en reglas más antiguos, por lo que el resultado suena más robótico que ElevenLabs o Google. Funciona mejor con idiomas europeos (inglés, alemán, francés, español, ruso, holandés, sueco, italiano y más) — CJK no es compatible. Honestamente, si vas a tomarte la molestia de configurar un modelo local, KittenTTS te ofrece mejor calidad con menos complicaciones. A menos que haya una demanda significativa de OpenTTS, probablemente lo descontinuaremos en una futura versión.

No requiere internet. No necesita claves API. Ideal para máxima privacidad con muchas opciones de voz.

Guía de configuración de OpenTTS

La síntesis de voz integrada en tu sistema operativo. No hay nada que instalar, no necesitas claves API ni servidores. Selecciónalo y listo. La calidad de voz es básica — escucharás el tono robótico característico del TTS del sistema operativo — pero funciona al instante sin configuración alguna.

En Linux generalmente es eSpeak o speech-dispatcher; en macOS es la voz del sistema; en Windows es SAPI. El soporte de idiomas depende completamente de los paquetes de voz que tenga instalados tu sistema operativo.

No requiere internet. Ideal para pruebas rápidas.

Guía de configuración de System TTS

ProveedorTipoCalidadConfiguraciónIdiomas
ElevenLabsAPI en la nubeExcepcionalClave API34+ (incl. CJK)
Google CloudAPI en la nubeMuy buena (WaveNet)Clave API30+ (incl. CJK)
KittenTTSIA neuronal localBuenaPython + venvSolo inglés
OpenTTSDocker localAceptableDockerSolo europeos
System (OS nativo)Integrado en el SOBásicaNingunaDepende del SO

Nota sobre hardware: Los proveedores locales (KittenTTS y OpenTTS) ejecutan inferencia neuronal en tu CPU. Necesitan un procesador multinúcleo moderno (se recomiendan 8+ núcleos) para generar voz sin retraso perceptible. Piensa en ello como ejecutar otro motor de ajedrez más en tu máquina. Si tu equipo es antiguo o de baja potencia, usa uno de los proveedores en la nube.

Empieza con ElevenLabs si quieres la mayor riqueza de voz — el plan gratuito es suficiente para probarlo. Para el mejor equilibrio entre calidad y uso gratuito, Google Cloud cubre cientos de partidas al mes. Para TTS local de alta calidad sin dependencia de la nube, KittenTTS es excelente si tienes una CPU moderna. Para pruebas sin configuración, System TTS funciona al instante. Para máxima privacidad con muchas opciones de voz, OpenTTS ejecuta todo localmente a través de Docker.

Todos los ajustes de TTS se encuentran en Ajustes > Sonido:

AjusteQué hace
Text-to-SpeechInterruptor principal de activación/desactivación para todas las funciones de TTS
Auto-Narrate on MoveLee automáticamente las anotaciones cuando avanzas por los movimientos
TTS ProviderCambia entre los cinco proveedores
TTS VoiceSelección de voz específica del proveedor
TTS LanguageIdioma de narración — los términos de ajedrez se traducen automáticamente
TTS VolumeVolumen de la narración
TTS SpeedVelocidad de reproducción (0.5x a 2x) — se ajusta sin regenerar el audio
ElevenLabs API KeyTu clave API de ElevenLabs (solo se muestra al usar ElevenLabs)
Google Cloud API KeyTu clave API de Google Cloud (solo se muestra al usar Google)
KittenTTS CPU ThreadsHilos de CPU para inferencia (0 = automático / usar todos los núcleos)
TTS Audio CacheLimpiar el audio en caché para forzar la regeneración

La narración TTS es compatible con muchos idiomas con vocabulario ajedrecístico completamente traducido. Aquí tienes algunos ejemplos:

IdiomaEjemplo de ajedrez
EnglishKnight f3, check. A strong developing move.
FrancaisCavalier f3, echec. Un coup de developpement fort.
EspanolCaballo f3, jaque. Un fuerte movimiento.
DeutschSpringer f3, Schach. Ein starker Entwicklungszug.
日本語ナイト f3、チェック。強い展開の手。
РусскийКонь f3, шах. Сильный развивающий ход.
中文马 f3,将军。一步控制中心的强力出子。
한국어나이트 f3, 체크. 중앙을 지배하는 강력한 전개 수.

Cada término de ajedrez — nombres de piezas, “jaque”, “jaque mate”, “enroque”, “captura”, anotaciones de calidad de movimiento como “Jugada brillante” y “Error grave” — se pronuncia en el idioma seleccionado. Los comentarios en tus archivos PGN se leen tal como están escritos, así que anota tus partidas en el idioma que quieras escuchar.

Preprocesamiento de texto adaptado al ajedrez

Sección titulada «Preprocesamiento de texto adaptado al ajedrez»

El motor de TTS no se limita a leer texto sin más — entiende la notación de ajedrez. Antes de pronunciar cualquier texto, un paso de preprocesamiento convierte la notación PGN en habla natural:

Escrito en PGNPronunciado en voz alta
Nf3”Knight f3”
Bxe6+”Bishop takes e6, check”
O-O-O”castles queenside”
e8=Q#”e8 promotes to Queen, checkmate”
Rae1”Rook a e1” (desambiguación)
5.Qxd8+ (en comentarios)“5, Queen takes d8, check”
en prise”on preez” (pronunciación francesa)
Ra8 is hanging”Rook on a8 is hanging”
R vs R”Rook versus Rook”
6...Bf5 (puntos de número de movimiento)“6, Bishop f5” (pausa natural, sin “punto”)

Los comentarios se limpian antes de pronunciarse: las etiquetas [%eval], [%cal], [%csl] se eliminan. Las palabras de calidad iniciales que duplican el símbolo NAG se eliminan (así ?? {BLUNDER. The rook hangs} no tartamudea “Blunder. Blunder.”).

Cada narración se almacena en caché en memoria después de la primera generación. Avanzar y retroceder por una partida reproduce al instante desde la caché — sin llamadas a la API, sin retraso de regeneración. También puedes precargar un árbol de partida completo en segundo plano para que no haya pausas durante la reproducción.

La caché se indexa por provider:voiceId:lang:text, así que cambiar la voz o el proveedor crea entradas de caché separadas. Cambiar la velocidad de reproducción no invalida la caché — la velocidad se aplica del lado del cliente sobre el elemento de audio.

Un botón Clear Audio Cache en los Ajustes te permite forzar la regeneración después de editar las anotaciones.

  • Usa Auto-Narrate. Activa “Auto-Narrate on Move” y simplemente usa las teclas de flecha para avanzar por las partidas. El comentario llega de forma natural mientras te mueves, como tener un entrenador a tu lado.

  • Anota tus propias partidas. El TTS realmente brilla cuando escuchas comentarios sobre tus partidas. Anota tus partidas y luego avanza por ellas con narración. Escuchar “Capturar el peón parece tentador, pero todo tu flanco de rey sigue dormido” mientras miras fijamente la posición tiene un impacto diferente a leerlo.

  • Prueba diferentes velocidades. Algunos jugadores prefieren 1x para estudio cuidadoso, otros prefieren 1.3x para una revisión más rápida. El control de velocidad ajusta la reproducción en tiempo real sin consumir caracteres adicionales de la API.

  • Usa el icono de altavoz. Cada comentario en la lista de movimientos tiene un pequeño icono de altavoz. Haz clic en él para escuchar solo esa anotación.

  • Cambia de idioma para aprender vocabulario ajedrecístico. Si estás estudiando ajedrez en un segundo idioma, configura el idioma del TTS para que coincida. Aprenderás naturalmente términos como “Cavalier” (Caballo), “echec” (jaque) y “mat” (mate) simplemente escuchando.

Estas pautas producen la mejor narración hablada a partir de tus anotaciones PGN.

Usa notación SAN estándar. El preprocesador la expande automáticamente:

  • "After 7.Nf3, White controls e5" se convierte en “After 7, Knight f3, White controls e5”
  • "The Bg5 pins the knight" se convierte en “The Bishop g5 pins the knight”

El glifo NAG (!, ??, !?, etc.) genera palabras de calidad habladas automáticamente. No los dupliques en el comentario:

  • Mal: ?? {BLUNDER. A terrible move...} — el TTS dice “Blunder. Blunder. A terrible move”
  • Bien: ?? {A terrible move...} — el TTS dice “Blunder. A terrible move”

La notación PGN estándar funciona: 6...Bf5. El preprocesador convierte los puntos en comas para pausas naturales en lugar de “punto punto punto”.

Los puntos crean pausas naturales en el TTS. Úsalos entre ideas distintas:

{Doubled isolated e-pawns. The f-file is ripped open. The position is strategically won.}

Las etiquetas [%cal ...] y [%csl ...] se eliminan del audio automáticamente. Úsalas libremente para anotaciones visuales sin afectar la narración.

Una nota sobre redistribución para cualquiera que construya sobre En Parlant~:

  • ElevenLabs — Conservas todos los derechos sobre tu audio generado (Términos de uso de ElevenLabs, sección c(ii)). Puedes redistribuirlo libremente.
  • Google Cloud — Conservas todos los derechos de propiedad intelectual sobre el audio generado. Sin restricciones.
  • KittenTTS, OpenTTS, System TTS — Sin restricciones de redistribución sobre el audio generado.

En Croissant es una herramienta de estudio de ajedrez de código abierto creada por Francisco Salgueiro. Francisco construyó algo realmente especial — una plataforma gratuita, potente e impulsada por la comunidad para estudiar ajedrez — y la publicó bajo la licencia GPL-3.0 para que cualquiera pueda usarla, mejorarla y compartirla. Esta funcionalidad de TTS existe gracias a esa generosidad. Estamos agradecidos por la base que construyó, y estamos orgullosos de contribuir de vuelta.

El plugin de TTS fue desarrollado por Darrell en Red Shed, con la ayuda de Claude Code. Cinco proveedores, soporte multilingüe, vocabulario ajedrecístico traducido a muchos idiomas, inferencia de IA local, gestión de dependencias — construido desde el código fuente, probado a mano y contribuido con esmero.

Esa es la belleza del código abierto. Alguien construye algo genial. Alguien más le añade algo. Todos se benefician.

Nos encantaría saber cómo te está funcionando el TTS. Los comentarios, sugerencias y opiniones son siempre bienvenidos.

  • ¿Quieres un idioma que aún no soportamos? Avísanos — podemos añadir nuevos idiomas rápidamente.
  • ¿Encontraste un error? Cuéntanos y lo arreglaremos rápido.
  • ¿Tienes una idea para otro proveedor de TTS? Estaremos encantados de añadirlo.
  • ¿Solo quieres decirnos que funciona bien? También nos alegra saberlo.

Abre un issue en GitHub, o escríbenos directamente a darrell@redshed.ai.