Ir al contenido

Configuración de OpenTTS

Volver a la Descripción general de proveedores de TTS

OpenTTS es un servidor TTS de código abierto que se ejecuta en tu propio ordenador usando Docker. Sin cuenta, sin clave API, sin datos saliendo de tu máquina. La configuración toma aproximadamente 2 minutos si ya tienes Docker instalado.

Nota: OpenTTS utiliza motores neuronales antiguos y basados en reglas. La calidad de voz es funcional, pero notablemente más robótica que la de ElevenLabs, Google Cloud o KittenTTS. Podría eliminarse en una versión futura si surgen mejores opciones locales.

Si aún no tienes Docker:

  • Linux (Ubuntu/Debian): sudo apt install docker.io
  • Linux (Fedora): sudo dnf install docker
  • macOS / Windows: Descarga Docker Desktop

Abre una terminal y ejecuta:

Ventana de terminal
docker run -d -p 5500:5500 --name opentts synesthesiam/opentts:en

Esto descarga el paquete de voces en inglés (~1,5 GB en la primera ejecución) e inicia el servidor en segundo plano. Se ejecuta hasta que lo detengas.

Hay otros paquetes de idiomas disponibles: de, fr, es, ru, nl, sv, it, y más. Para todos los idiomas (descarga más grande):

Ventana de terminal
docker run -d -p 5500:5500 --name opentts synesthesiam/opentts:all

Advertencia sobre CJK: OpenTTS funciona mejor con idiomas europeos. El texto en japonés, chino y coreano no se pronunciará correctamente. Para idiomas CJK, utiliza ElevenLabs o Google Cloud en su lugar.

  1. Abre En Parlant~ y ve a Configuración (icono de engranaje) > pestaña Sonido
  2. Desplázate hasta la sección de TTS
  3. Establece Proveedor de TTS en OpenTTS (Self-Hosted)
  4. Confirma que la URL del servidor OpenTTS sea http://localhost:5500
  5. El desplegable de Voz TTS se llenará con las voces disponibles. Prueba una voz de larynx (como harvard) para obtener la mejor calidad
  6. Establece Texto a voz en Activado
  7. Haz clic en el botón Probar junto al selector de voz

Deberías escuchar un movimiento de ajedrez pronunciado en voz alta.

Las voces provienen de varios motores incluidos en OpenTTS. De mejor a más básico:

  1. Larynx — neuronal, sonido más natural
  2. Coqui-TTS — neuronal, múltiples hablantes
  3. MaryTTS — basado en Java, calidad decente
  4. Festival — síntesis tradicional
  5. eSpeak — robótico pero rápido

El desplegable de voces muestra el nombre del motor entre paréntesis para que puedas elegir en consecuencia.

El contenedor de OpenTTS se ejecuta en segundo plano. Comandos habituales:

Ventana de terminal
# Detener el servidor
docker stop opentts
# Iniciarlo de nuevo
docker start opentts
# Eliminarlo por completo
docker rm -f opentts
# Verificar si está en ejecución
docker ps | grep opentts
  • ¿Error de “Connection refused”? Es posible que el contenedor Docker no esté en ejecución. Ejecuta docker ps para comprobarlo. Si no aparece en la lista, inícialo con docker start opentts o vuelve a ejecutar el comando docker run del Paso 2.
  • ¿No aparecen voces en el desplegable? Asegúrate de que el contenedor esté en ejecución y accesible en http://localhost:5500. Puedes comprobarlo abriendo esa URL en tu navegador — deberías ver la interfaz web de OpenTTS.
  • ¿Las voces suenan muy robóticas? Prueba cambiar a una voz de Larynx — son la opción de mayor calidad en OpenTTS. Si deseas una mejor calidad general, considera actualizar a KittenTTS, Google Cloud o ElevenLabs.