Configurazione di KittenTTS

Torna alla Panoramica dei provider TTS

KittenTTS esegue un modello TTS neurale direttamente sulla tua macchina. Nessun cloud, nessuna chiave API, nessun dato che lascia il tuo computer — e la qualità della voce è davvero buona. La configurazione richiede circa 5 minuti. Solo inglese per il momento.

Requisiti hardware

KittenTTS utilizza PyTorch per l’inferenza della rete neurale sulla tua CPU. Ciò significa che necessita di una potenza di calcolo reale:

Hardware	Esperienza
8+ core, CPU moderna (Ryzen 7, i7, Xeon)	Eccellente. Il parlato viene generato rapidamente, impatto minimo sulle altre attività
4-6 core (Ryzen 5, i5)	Buona. Utilizzo della CPU evidente durante la generazione, ma perfettamente utilizzabile
2 core / CPU datata	Lenta. La generazione può richiedere diversi secondi per enunciato. Considera Google Cloud in alternativa

L’utilizzo della CPU è temporaneo — KittenTTS usa la CPU solo durante la generazione attiva del parlato (tipicamente 1-2 secondi per enunciato). Tra un enunciato e l’altro, l’utilizzo della CPU scende quasi a zero.

Gestione dei thread

Per impostazione predefinita, KittenTTS utilizza tutti i core CPU disponibili per la massima velocità. Se stai anche eseguendo un motore scacchistico (come Stockfish), potresti voler limitare i thread utilizzati da KittenTTS.

In Impostazioni > Suono > KittenTTS CPU Threads, imposta un valore per limitare l’uso dei thread. Imposta 0 per la modalità automatica (usa tutti i core). Un buon punto di partenza per l’uso condiviso con un motore scacchistico è la metà del numero dei tuoi core.

Suggerimento: KittenTTS e Stockfish vogliono entrambi i core della CPU. Se stai analizzando a piena profondità mentre KittenTTS genera il parlato, entrambi competeranno per il tempo CPU. Su una macchina con 8+ core, difficilmente noterai la differenza. Con 4 core, assegna a KittenTTS 2 thread e lascia il resto al motore.

Passaggio 1: Installare le dipendenze

KittenTTS richiede Python 3.10+ e alcuni pacchetti Python. Scegli uno di questi metodi:

Opzione A: Procedura guidata in-app (consigliata)

Apri En Parlant~ e vai su Impostazioni > Suono
Imposta Provider TTS su KittenTTS (English Only)
Se mancano delle dipendenze, apparirà un avviso giallo “Setup Guide”
Clicca sull’avviso per aprire la procedura guidata di configurazione
La procedura ti guida attraverso ogni passaggio con pulsanti “Fix” per l’installazione automatica

Opzione B: Script di configurazione da terminale

cd /path/to/en-parlant
./scripts/setup-tts.sh --kittentts

Questo crea un ambiente virtuale Python e installa i pacchetti necessari (kittentts, flask, soundfile, numpy). Il modello nano (~25MB) viene scaricato da HuggingFace al primo avvio.

Opzione C: Configurazione manuale

cd /path/to/en-parlant/scripts
python3 -m venv .venv
.venv/bin/pip install kittentts flask soundfile numpy

Passaggio 2: Configurare En Parlant~

Apri En Parlant~ e vai su Impostazioni (icona ingranaggio) > scheda Suono
Imposta Provider TTS su KittenTTS (English Only)
Il server si avvia automaticamente quando selezioni questo provider
Attendi qualche secondo per il caricamento del modello (il primo avvio scarica da HuggingFace)
Scegli una voce — ci sono 8 opzioni (4 maschili, 4 femminili)
Clicca il pulsante Test accanto al selettore della voce

Dovresti sentire una mossa degli scacchi pronunciata ad alta voce con un parlato AI naturale ed espressivo.

Risoluzione dei problemi

Errore “Server not responding”? Il server KittenTTS potrebbe non essersi avviato. Controlla la procedura guidata nelle Impostazioni — mostra lo stato delle dipendenze e può correggere automaticamente i pacchetti mancanti.
Il primo avvio è lento? Il modello nano (~25MB) viene scaricato da HuggingFace al primo utilizzo. Si tratta di un download una tantum. Gli avvii successivi richiedono 2-5 secondi.
Utilizzo elevato della CPU? È normale durante la generazione del parlato. Riduci il numero di thread nelle Impostazioni se impatta sulle altre attività.
Nessun suono? Assicurati che Python 3.10+ sia installato e che l’ambiente virtuale sia stato creato correttamente. La procedura guidata può diagnosticare questo problema.

Guida alle voci

KittenTTS offre 8 voci numerate da 2 a 5, ciascuna in variante maschile e femminile. Tutte le voci sono in inglese con qualità tonali leggermente diverse. Provane alcune per trovare quella che preferisci.

Nota sulla lingua

KittenTTS attualmente supporta solo l’inglese. Per altre lingue, utilizza ElevenLabs o Google Cloud. L’impostazione della lingua TTS viene ignorata quando si usa KittenTTS — i termini scacchistici vengono sempre pronunciati in inglese.