Configuración de KittenTTS

Volver a la Descripción general de proveedores TTS

KittenTTS ejecuta un modelo neuronal de TTS directamente en tu máquina. Sin nube, sin claves de API, sin datos que salgan de tu ordenador — y la calidad de voz es genuinamente buena. La configuración toma aproximadamente 5 minutos. Solo inglés por ahora.

Requisitos de hardware

KittenTTS utiliza PyTorch para la inferencia de redes neuronales en tu CPU. Esto significa que necesita potencia de cómputo real:

Hardware	Experiencia
8+ núcleos, CPU moderna (Ryzen 7, i7, Xeon)	Excelente. La voz se genera rápidamente, impacto mínimo en otras tareas
4-6 núcleos (Ryzen 5, i5)	Buena. Uso notable de CPU durante la generación, pero perfectamente utilizable
2 núcleos / CPU antigua	Lenta. La generación puede tardar varios segundos por enunciado. Considera usar Google Cloud en su lugar

El uso de CPU es temporal — KittenTTS solo utiliza la CPU mientras genera voz activamente (normalmente 1-2 segundos por enunciado). Entre enunciados, el uso de CPU cae prácticamente a cero.

Gestión de hilos

Por defecto, KittenTTS utiliza todos los núcleos de CPU disponibles para máxima velocidad. Si también estás ejecutando un motor de ajedrez (como Stockfish), es posible que desees limitar los hilos que utiliza KittenTTS.

En Settings > Sound > KittenTTS CPU Threads, establece un valor para limitar el uso de hilos. Configúralo en 0 para automático (usar todos los núcleos). Un buen punto de partida para uso compartido con un motor de ajedrez es la mitad de tu número de núcleos.

Consejo: KittenTTS y Stockfish compiten por los núcleos de CPU. Si estás analizando a profundidad máxima mientras KittenTTS genera voz, ambos competirán por el tiempo de CPU. En una máquina con 8+ núcleos, rara vez lo notarás. Con 4 núcleos, asigna 2 hilos a KittenTTS y deja el resto para el motor.

Paso 1: Instalar dependencias

KittenTTS requiere Python 3.10+ y algunos paquetes de Python. Elige uno de estos métodos:

Opción A: Asistente de configuración en la aplicación (Recomendado)

Abre En Parlant~ y ve a Settings > Sound
Configura TTS Provider como KittenTTS (English Only)
Si faltan dependencias, aparecerá una alerta amarilla de “Setup Guide”
Haz clic en la alerta para abrir el asistente de configuración
El asistente te guía paso a paso con botones “Fix” para la instalación automática

Opción B: Script de configuración por terminal

cd /path/to/en-parlant
./scripts/setup-tts.sh --kittentts

Esto crea un entorno virtual de Python e instala los paquetes necesarios (kittentts, flask, soundfile, numpy). El modelo nano (~25MB) se descarga desde HuggingFace en la primera ejecución.

Opción C: Configuración manual

cd /path/to/en-parlant/scripts
python3 -m venv .venv
.venv/bin/pip install kittentts flask soundfile numpy

Paso 2: Configurar En Parlant~

Abre En Parlant~ y ve a Settings (icono de engranaje) > pestaña Sound
Configura TTS Provider como KittenTTS (English Only)
El servidor se inicia automáticamente cuando seleccionas este proveedor
Espera unos segundos a que el modelo se cargue (la primera ejecución descarga desde HuggingFace)
Elige una voz — hay 8 opciones (4 masculinas, 4 femeninas)
Haz clic en el botón Test junto al selector de voz

Deberías escuchar un movimiento de ajedrez pronunciado en voz alta con voz de IA natural y expresiva.

Solución de problemas

¿Error “Server not responding”? Es posible que el servidor de KittenTTS no se haya iniciado. Revisa el asistente de configuración en Settings — muestra el estado de las dependencias y puede corregir automáticamente los paquetes faltantes.
¿La primera ejecución es lenta? El modelo nano de ~25MB se descarga desde HuggingFace en el primer uso. Es una descarga única. Los inicios posteriores tardan entre 2 y 5 segundos.
¿Uso elevado de CPU? Esto es normal durante la generación de voz. Reduce el número de hilos en Settings si está afectando a otras tareas.
¿No hay sonido? Asegúrate de que Python 3.10+ esté instalado y de que el entorno virtual se haya creado correctamente. El asistente de configuración puede diagnosticar esto.

Guía de voces

KittenTTS ofrece 8 voces numeradas del 2 al 5, cada una en variante masculina y femenina. Todas las voces son en inglés con cualidades tonales ligeramente diferentes. Prueba varias para encontrar la que más te guste.

Nota sobre idiomas

KittenTTS actualmente solo admite inglés. Para otros idiomas, utiliza ElevenLabs o Google Cloud. La configuración de idioma del TTS se ignora cuando se usa KittenTTS — los términos de ajedrez siempre se pronuncian en inglés.