Configuración de OpenTTS

Volver a la Descripción general de proveedores de TTS

OpenTTS es un servidor TTS de código abierto que se ejecuta en tu propio ordenador usando Docker. Sin cuenta, sin clave API, sin datos saliendo de tu máquina. La configuración toma aproximadamente 2 minutos si ya tienes Docker instalado.

Nota: OpenTTS utiliza motores neuronales antiguos y basados en reglas. La calidad de voz es funcional, pero notablemente más robótica que la de ElevenLabs, Google Cloud o KittenTTS. Podría eliminarse en una versión futura si surgen mejores opciones locales.

Paso 1: Instalar Docker

Si aún no tienes Docker:

Linux (Ubuntu/Debian): sudo apt install docker.io
Linux (Fedora): sudo dnf install docker
macOS / Windows: Descarga Docker Desktop

Paso 2: Iniciar el servidor OpenTTS

Abre una terminal y ejecuta:

docker run -d -p 5500:5500 --name opentts synesthesiam/opentts:en

Esto descarga el paquete de voces en inglés (~1,5 GB en la primera ejecución) e inicia el servidor en segundo plano. Se ejecuta hasta que lo detengas.

Otros idiomas

Hay otros paquetes de idiomas disponibles: de, fr, es, ru, nl, sv, it, y más. Para todos los idiomas (descarga más grande):

docker run -d -p 5500:5500 --name opentts synesthesiam/opentts:all

Advertencia sobre CJK: OpenTTS funciona mejor con idiomas europeos. El texto en japonés, chino y coreano no se pronunciará correctamente. Para idiomas CJK, utiliza ElevenLabs o Google Cloud en su lugar.

Paso 3: Configurar En Parlant~

Abre En Parlant~ y ve a Configuración (icono de engranaje) > pestaña Sonido
Desplázate hasta la sección de TTS
Establece Proveedor de TTS en OpenTTS (Self-Hosted)
Confirma que la URL del servidor OpenTTS sea http://localhost:5500
El desplegable de Voz TTS se llenará con las voces disponibles. Prueba una voz de larynx (como harvard) para obtener la mejor calidad
Establece Texto a voz en Activado
Haz clic en el botón Probar junto al selector de voz

Deberías escuchar un movimiento de ajedrez pronunciado en voz alta.

Guía de calidad de voz

Las voces provienen de varios motores incluidos en OpenTTS. De mejor a más básico:

Larynx — neuronal, sonido más natural
Coqui-TTS — neuronal, múltiples hablantes
MaryTTS — basado en Java, calidad decente
Festival — síntesis tradicional
eSpeak — robótico pero rápido

El desplegable de voces muestra el nombre del motor entre paréntesis para que puedas elegir en consecuencia.

Gestión del servidor

El contenedor de OpenTTS se ejecuta en segundo plano. Comandos habituales:

# Detener el servidor
docker stop opentts

# Iniciarlo de nuevo
docker start opentts

# Eliminarlo por completo
docker rm -f opentts

# Verificar si está en ejecución
docker ps | grep opentts

Solución de problemas

¿Error de “Connection refused”? Es posible que el contenedor Docker no esté en ejecución. Ejecuta docker ps para comprobarlo. Si no aparece en la lista, inícialo con docker start opentts o vuelve a ejecutar el comando docker run del Paso 2.
¿No aparecen voces en el desplegable? Asegúrate de que el contenedor esté en ejecución y accesible en http://localhost:5500. Puedes comprobarlo abriendo esa URL en tu navegador — deberías ver la interfaz web de OpenTTS.
¿Las voces suenan muy robóticas? Prueba cambiar a una voz de Larynx — son la opción de mayor calidad en OpenTTS. Si deseas una mejor calidad general, considera actualizar a KittenTTS, Google Cloud o ElevenLabs.