Configuração do KittenTTS
Voltar à Visão Geral dos Fornecedores de TTS
O KittenTTS executa um modelo neural de TTS diretamente na sua máquina. Sem nuvem, sem chaves de API, sem dados a sair do seu computador — e a qualidade de voz é genuinamente boa. A configuração demora cerca de 5 minutos. Apenas inglês por enquanto.
Requisitos de Hardware
Seção intitulada “Requisitos de Hardware”O KittenTTS utiliza PyTorch para inferência de redes neurais no seu CPU. Isto significa que necessita de poder de computação real:
| Hardware | Experiência |
|---|---|
| 8+ núcleos, CPU moderno (Ryzen 7, i7, Xeon) | Excelente. A fala é gerada rapidamente, com impacto mínimo noutras tarefas |
| 4-6 núcleos (Ryzen 5, i5) | Bom. Uso notável do CPU durante a geração, mas perfeitamente utilizável |
| 2 núcleos / CPU antigo | Lento. A geração pode demorar vários segundos por enunciado. Considere o Google Cloud como alternativa |
O uso do CPU é temporário — o KittenTTS só utiliza o CPU enquanto está a gerar fala ativamente (tipicamente 1-2 segundos por enunciado). Entre enunciados, o uso do CPU desce para perto de zero.
Gestão de Threads
Seção intitulada “Gestão de Threads”Por predefinição, o KittenTTS utiliza todos os núcleos de CPU disponíveis para velocidade máxima. Se também estiver a executar um motor de xadrez (como o Stockfish), poderá querer limitar as threads que o KittenTTS utiliza.
Em Definições > Som > KittenTTS CPU Threads, defina um valor para limitar o uso de threads. Defina como 0 para automático (usar todos os núcleos). Um bom ponto de partida para uso partilhado com um motor de xadrez é metade do número de núcleos.
Dica: Tanto o KittenTTS como o Stockfish necessitam de núcleos de CPU. Se estiver a analisar em profundidade máxima enquanto o KittenTTS gera fala, ambos competirão pelo tempo de CPU. Numa máquina com 8+ núcleos, raramente notará a diferença. Com 4 núcleos, atribua 2 threads ao KittenTTS e deixe os restantes para o motor.
Passo 1: Instalar Dependências
Seção intitulada “Passo 1: Instalar Dependências”O KittenTTS requer Python 3.10+ e alguns pacotes Python. Escolha um destes métodos:
Opção A: Assistente de Configuração na Aplicação (Recomendado)
Seção intitulada “Opção A: Assistente de Configuração na Aplicação (Recomendado)”- Abra o En Parlant~ e vá a Definições > Som
- Defina o Fornecedor de TTS como KittenTTS (English Only)
- Se faltarem dependências, aparece um alerta amarelo “Setup Guide”
- Clique no alerta para abrir o assistente de configuração
- O assistente guia-o por cada passo com botões “Fix” para instalação automática
Opção B: Script de Configuração via Terminal
Seção intitulada “Opção B: Script de Configuração via Terminal”cd /path/to/en-parlant./scripts/setup-tts.sh --kittenttsIsto cria um ambiente virtual Python e instala os pacotes necessários (kittentts, flask, soundfile, numpy). O modelo nano (~25MB) é descarregado do HuggingFace na primeira execução.
Opção C: Configuração Manual
Seção intitulada “Opção C: Configuração Manual”cd /path/to/en-parlant/scriptspython3 -m venv .venv.venv/bin/pip install kittentts flask soundfile numpyPasso 2: Configurar o En Parlant~
Seção intitulada “Passo 2: Configurar o En Parlant~”- Abra o En Parlant~ e vá a Definições (ícone de engrenagem) > separador Som
- Defina o Fornecedor de TTS como KittenTTS (English Only)
- O servidor inicia automaticamente quando seleciona este fornecedor
- Aguarde alguns segundos para o modelo carregar (a primeira execução descarrega do HuggingFace)
- Escolha uma voz — existem 8 opções (4 masculinas, 4 femininas)
- Clique no botão Test junto ao seletor de voz
Deverá ouvir uma jogada de xadrez pronunciada em voz alta com fala de IA natural e expressiva.
Resolução de Problemas
Seção intitulada “Resolução de Problemas”- Erro “Server not responding”? O servidor do KittenTTS pode não ter iniciado. Verifique o assistente de configuração nas Definições — mostra o estado das dependências e pode corrigir automaticamente pacotes em falta.
- A primeira execução é lenta? O modelo nano de ~25MB é descarregado do HuggingFace na primeira utilização. Este download é feito apenas uma vez. Os arranques subsequentes demoram 2-5 segundos.
- Uso elevado do CPU? Isto é normal durante a geração de fala. Reduza o número de threads nas Definições se estiver a afetar outras tarefas.
- Sem som? Certifique-se de que o Python 3.10+ está instalado e que o ambiente virtual foi criado com sucesso. O assistente de configuração pode diagnosticar este problema.
Guia de Vozes
Seção intitulada “Guia de Vozes”O KittenTTS oferece 8 vozes numeradas de 2 a 5, cada uma com variantes masculina e feminina. Todas as vozes são em inglês, com qualidades tonais ligeiramente diferentes. Experimente algumas para encontrar a que mais lhe agrada.
Nota sobre Idiomas
Seção intitulada “Nota sobre Idiomas”O KittenTTS suporta atualmente apenas inglês. Para outros idiomas, utilize o ElevenLabs ou o Google Cloud. A definição de idioma do TTS é ignorada quando se utiliza o KittenTTS — os termos de xadrez são sempre pronunciados em inglês.