Configuración de KittenTTS
Volver a la Descripción general de proveedores TTS
KittenTTS ejecuta un modelo neuronal de TTS directamente en tu máquina. Sin nube, sin claves de API, sin datos que salgan de tu ordenador — y la calidad de voz es genuinamente buena. La configuración toma aproximadamente 5 minutos. Solo inglés por ahora.
Requisitos de hardware
Sección titulada «Requisitos de hardware»KittenTTS utiliza PyTorch para la inferencia de redes neuronales en tu CPU. Esto significa que necesita potencia de cómputo real:
| Hardware | Experiencia |
|---|---|
| 8+ núcleos, CPU moderna (Ryzen 7, i7, Xeon) | Excelente. La voz se genera rápidamente, impacto mínimo en otras tareas |
| 4-6 núcleos (Ryzen 5, i5) | Buena. Uso notable de CPU durante la generación, pero perfectamente utilizable |
| 2 núcleos / CPU antigua | Lenta. La generación puede tardar varios segundos por enunciado. Considera usar Google Cloud en su lugar |
El uso de CPU es temporal — KittenTTS solo utiliza la CPU mientras genera voz activamente (normalmente 1-2 segundos por enunciado). Entre enunciados, el uso de CPU cae prácticamente a cero.
Gestión de hilos
Sección titulada «Gestión de hilos»Por defecto, KittenTTS utiliza todos los núcleos de CPU disponibles para máxima velocidad. Si también estás ejecutando un motor de ajedrez (como Stockfish), es posible que desees limitar los hilos que utiliza KittenTTS.
En Settings > Sound > KittenTTS CPU Threads, establece un valor para limitar el uso de hilos. Configúralo en 0 para automático (usar todos los núcleos). Un buen punto de partida para uso compartido con un motor de ajedrez es la mitad de tu número de núcleos.
Consejo: KittenTTS y Stockfish compiten por los núcleos de CPU. Si estás analizando a profundidad máxima mientras KittenTTS genera voz, ambos competirán por el tiempo de CPU. En una máquina con 8+ núcleos, rara vez lo notarás. Con 4 núcleos, asigna 2 hilos a KittenTTS y deja el resto para el motor.
Paso 1: Instalar dependencias
Sección titulada «Paso 1: Instalar dependencias»KittenTTS requiere Python 3.10+ y algunos paquetes de Python. Elige uno de estos métodos:
Opción A: Asistente de configuración en la aplicación (Recomendado)
Sección titulada «Opción A: Asistente de configuración en la aplicación (Recomendado)»- Abre En Parlant~ y ve a Settings > Sound
- Configura TTS Provider como KittenTTS (English Only)
- Si faltan dependencias, aparecerá una alerta amarilla de “Setup Guide”
- Haz clic en la alerta para abrir el asistente de configuración
- El asistente te guía paso a paso con botones “Fix” para la instalación automática
Opción B: Script de configuración por terminal
Sección titulada «Opción B: Script de configuración por terminal»cd /path/to/en-parlant./scripts/setup-tts.sh --kittenttsEsto crea un entorno virtual de Python e instala los paquetes necesarios (kittentts, flask, soundfile, numpy). El modelo nano (~25MB) se descarga desde HuggingFace en la primera ejecución.
Opción C: Configuración manual
Sección titulada «Opción C: Configuración manual»cd /path/to/en-parlant/scriptspython3 -m venv .venv.venv/bin/pip install kittentts flask soundfile numpyPaso 2: Configurar En Parlant~
Sección titulada «Paso 2: Configurar En Parlant~»- Abre En Parlant~ y ve a Settings (icono de engranaje) > pestaña Sound
- Configura TTS Provider como KittenTTS (English Only)
- El servidor se inicia automáticamente cuando seleccionas este proveedor
- Espera unos segundos a que el modelo se cargue (la primera ejecución descarga desde HuggingFace)
- Elige una voz — hay 8 opciones (4 masculinas, 4 femeninas)
- Haz clic en el botón Test junto al selector de voz
Deberías escuchar un movimiento de ajedrez pronunciado en voz alta con voz de IA natural y expresiva.
Solución de problemas
Sección titulada «Solución de problemas»- ¿Error “Server not responding”? Es posible que el servidor de KittenTTS no se haya iniciado. Revisa el asistente de configuración en Settings — muestra el estado de las dependencias y puede corregir automáticamente los paquetes faltantes.
- ¿La primera ejecución es lenta? El modelo nano de ~25MB se descarga desde HuggingFace en el primer uso. Es una descarga única. Los inicios posteriores tardan entre 2 y 5 segundos.
- ¿Uso elevado de CPU? Esto es normal durante la generación de voz. Reduce el número de hilos en Settings si está afectando a otras tareas.
- ¿No hay sonido? Asegúrate de que Python 3.10+ esté instalado y de que el entorno virtual se haya creado correctamente. El asistente de configuración puede diagnosticar esto.
Guía de voces
Sección titulada «Guía de voces»KittenTTS ofrece 8 voces numeradas del 2 al 5, cada una en variante masculina y femenina. Todas las voces son en inglés con cualidades tonales ligeramente diferentes. Prueba varias para encontrar la que más te guste.
Nota sobre idiomas
Sección titulada «Nota sobre idiomas»KittenTTS actualmente solo admite inglés. Para otros idiomas, utiliza ElevenLabs o Google Cloud. La configuración de idioma del TTS se ignora cuando se usa KittenTTS — los términos de ajedrez siempre se pronuncian en inglés.