Configuração do KittenTTS

Voltar à Visão Geral dos Fornecedores de TTS

O KittenTTS executa um modelo neural de TTS diretamente na sua máquina. Sem nuvem, sem chaves de API, sem dados a sair do seu computador — e a qualidade de voz é genuinamente boa. A configuração demora cerca de 5 minutos. Apenas inglês por enquanto.

Requisitos de Hardware

O KittenTTS utiliza PyTorch para inferência de redes neurais no seu CPU. Isto significa que necessita de poder de computação real:

Hardware	Experiência
8+ núcleos, CPU moderno (Ryzen 7, i7, Xeon)	Excelente. A fala é gerada rapidamente, com impacto mínimo noutras tarefas
4-6 núcleos (Ryzen 5, i5)	Bom. Uso notável do CPU durante a geração, mas perfeitamente utilizável
2 núcleos / CPU antigo	Lento. A geração pode demorar vários segundos por enunciado. Considere o Google Cloud como alternativa

O uso do CPU é temporário — o KittenTTS só utiliza o CPU enquanto está a gerar fala ativamente (tipicamente 1-2 segundos por enunciado). Entre enunciados, o uso do CPU desce para perto de zero.

Gestão de Threads

Por predefinição, o KittenTTS utiliza todos os núcleos de CPU disponíveis para velocidade máxima. Se também estiver a executar um motor de xadrez (como o Stockfish), poderá querer limitar as threads que o KittenTTS utiliza.

Em Definições > Som > KittenTTS CPU Threads, defina um valor para limitar o uso de threads. Defina como 0 para automático (usar todos os núcleos). Um bom ponto de partida para uso partilhado com um motor de xadrez é metade do número de núcleos.

Dica: Tanto o KittenTTS como o Stockfish necessitam de núcleos de CPU. Se estiver a analisar em profundidade máxima enquanto o KittenTTS gera fala, ambos competirão pelo tempo de CPU. Numa máquina com 8+ núcleos, raramente notará a diferença. Com 4 núcleos, atribua 2 threads ao KittenTTS e deixe os restantes para o motor.

Passo 1: Instalar Dependências

O KittenTTS requer Python 3.10+ e alguns pacotes Python. Escolha um destes métodos:

Opção A: Assistente de Configuração na Aplicação (Recomendado)

Abra o En Parlant~ e vá a Definições > Som
Defina o Fornecedor de TTS como KittenTTS (English Only)
Se faltarem dependências, aparece um alerta amarelo “Setup Guide”
Clique no alerta para abrir o assistente de configuração
O assistente guia-o por cada passo com botões “Fix” para instalação automática

Opção B: Script de Configuração via Terminal

cd /path/to/en-parlant
./scripts/setup-tts.sh --kittentts

Isto cria um ambiente virtual Python e instala os pacotes necessários (kittentts, flask, soundfile, numpy). O modelo nano (~25MB) é descarregado do HuggingFace na primeira execução.

Opção C: Configuração Manual

cd /path/to/en-parlant/scripts
python3 -m venv .venv
.venv/bin/pip install kittentts flask soundfile numpy

Passo 2: Configurar o En Parlant~

Abra o En Parlant~ e vá a Definições (ícone de engrenagem) > separador Som
Defina o Fornecedor de TTS como KittenTTS (English Only)
O servidor inicia automaticamente quando seleciona este fornecedor
Aguarde alguns segundos para o modelo carregar (a primeira execução descarrega do HuggingFace)
Escolha uma voz — existem 8 opções (4 masculinas, 4 femininas)
Clique no botão Test junto ao seletor de voz

Deverá ouvir uma jogada de xadrez pronunciada em voz alta com fala de IA natural e expressiva.

Resolução de Problemas

Erro “Server not responding”? O servidor do KittenTTS pode não ter iniciado. Verifique o assistente de configuração nas Definições — mostra o estado das dependências e pode corrigir automaticamente pacotes em falta.
A primeira execução é lenta? O modelo nano de ~25MB é descarregado do HuggingFace na primeira utilização. Este download é feito apenas uma vez. Os arranques subsequentes demoram 2-5 segundos.
Uso elevado do CPU? Isto é normal durante a geração de fala. Reduza o número de threads nas Definições se estiver a afetar outras tarefas.
Sem som? Certifique-se de que o Python 3.10+ está instalado e que o ambiente virtual foi criado com sucesso. O assistente de configuração pode diagnosticar este problema.

Guia de Vozes

O KittenTTS oferece 8 vozes numeradas de 2 a 5, cada uma com variantes masculina e feminina. Todas as vozes são em inglês, com qualidades tonais ligeiramente diferentes. Experimente algumas para encontrar a que mais lhe agrada.

Nota sobre Idiomas

O KittenTTS suporta atualmente apenas inglês. Para outros idiomas, utilize o ElevenLabs ou o Google Cloud. A definição de idioma do TTS é ignorada quando se utiliza o KittenTTS — os termos de xadrez são sempre pronunciados em inglês.