Pular para o conteúdo

Configuração do KittenTTS

Voltar à Visão Geral dos Fornecedores de TTS

O KittenTTS executa um modelo neural de TTS diretamente na sua máquina. Sem nuvem, sem chaves de API, sem dados a sair do seu computador — e a qualidade de voz é genuinamente boa. A configuração demora cerca de 5 minutos. Apenas inglês por enquanto.

O KittenTTS utiliza PyTorch para inferência de redes neurais no seu CPU. Isto significa que necessita de poder de computação real:

HardwareExperiência
8+ núcleos, CPU moderno (Ryzen 7, i7, Xeon)Excelente. A fala é gerada rapidamente, com impacto mínimo noutras tarefas
4-6 núcleos (Ryzen 5, i5)Bom. Uso notável do CPU durante a geração, mas perfeitamente utilizável
2 núcleos / CPU antigoLento. A geração pode demorar vários segundos por enunciado. Considere o Google Cloud como alternativa

O uso do CPU é temporário — o KittenTTS só utiliza o CPU enquanto está a gerar fala ativamente (tipicamente 1-2 segundos por enunciado). Entre enunciados, o uso do CPU desce para perto de zero.

Por predefinição, o KittenTTS utiliza todos os núcleos de CPU disponíveis para velocidade máxima. Se também estiver a executar um motor de xadrez (como o Stockfish), poderá querer limitar as threads que o KittenTTS utiliza.

Em Definições > Som > KittenTTS CPU Threads, defina um valor para limitar o uso de threads. Defina como 0 para automático (usar todos os núcleos). Um bom ponto de partida para uso partilhado com um motor de xadrez é metade do número de núcleos.

Dica: Tanto o KittenTTS como o Stockfish necessitam de núcleos de CPU. Se estiver a analisar em profundidade máxima enquanto o KittenTTS gera fala, ambos competirão pelo tempo de CPU. Numa máquina com 8+ núcleos, raramente notará a diferença. Com 4 núcleos, atribua 2 threads ao KittenTTS e deixe os restantes para o motor.

O KittenTTS requer Python 3.10+ e alguns pacotes Python. Escolha um destes métodos:

Opção A: Assistente de Configuração na Aplicação (Recomendado)

Seção intitulada “Opção A: Assistente de Configuração na Aplicação (Recomendado)”
  1. Abra o En Parlant~ e vá a Definições > Som
  2. Defina o Fornecedor de TTS como KittenTTS (English Only)
  3. Se faltarem dependências, aparece um alerta amarelo “Setup Guide”
  4. Clique no alerta para abrir o assistente de configuração
  5. O assistente guia-o por cada passo com botões “Fix” para instalação automática
Terminal window
cd /path/to/en-parlant
./scripts/setup-tts.sh --kittentts

Isto cria um ambiente virtual Python e instala os pacotes necessários (kittentts, flask, soundfile, numpy). O modelo nano (~25MB) é descarregado do HuggingFace na primeira execução.

Terminal window
cd /path/to/en-parlant/scripts
python3 -m venv .venv
.venv/bin/pip install kittentts flask soundfile numpy
  1. Abra o En Parlant~ e vá a Definições (ícone de engrenagem) > separador Som
  2. Defina o Fornecedor de TTS como KittenTTS (English Only)
  3. O servidor inicia automaticamente quando seleciona este fornecedor
  4. Aguarde alguns segundos para o modelo carregar (a primeira execução descarrega do HuggingFace)
  5. Escolha uma voz — existem 8 opções (4 masculinas, 4 femininas)
  6. Clique no botão Test junto ao seletor de voz

Deverá ouvir uma jogada de xadrez pronunciada em voz alta com fala de IA natural e expressiva.

  • Erro “Server not responding”? O servidor do KittenTTS pode não ter iniciado. Verifique o assistente de configuração nas Definições — mostra o estado das dependências e pode corrigir automaticamente pacotes em falta.
  • A primeira execução é lenta? O modelo nano de ~25MB é descarregado do HuggingFace na primeira utilização. Este download é feito apenas uma vez. Os arranques subsequentes demoram 2-5 segundos.
  • Uso elevado do CPU? Isto é normal durante a geração de fala. Reduza o número de threads nas Definições se estiver a afetar outras tarefas.
  • Sem som? Certifique-se de que o Python 3.10+ está instalado e que o ambiente virtual foi criado com sucesso. O assistente de configuração pode diagnosticar este problema.

O KittenTTS oferece 8 vozes numeradas de 2 a 5, cada uma com variantes masculina e feminina. Todas as vozes são em inglês, com qualidades tonais ligeiramente diferentes. Experimente algumas para encontrar a que mais lhe agrada.

O KittenTTS suporta atualmente apenas inglês. Para outros idiomas, utilize o ElevenLabs ou o Google Cloud. A definição de idioma do TTS é ignorada quando se utiliza o KittenTTS — os termos de xadrez são sempre pronunciados em inglês.