Configurazione di KittenTTS
Torna alla Panoramica dei provider TTS
KittenTTS esegue un modello TTS neurale direttamente sulla tua macchina. Nessun cloud, nessuna chiave API, nessun dato che lascia il tuo computer — e la qualità della voce è davvero buona. La configurazione richiede circa 5 minuti. Solo inglese per il momento.
Requisiti hardware
Sezione intitolata “Requisiti hardware”KittenTTS utilizza PyTorch per l’inferenza della rete neurale sulla tua CPU. Ciò significa che necessita di una potenza di calcolo reale:
| Hardware | Esperienza |
|---|---|
| 8+ core, CPU moderna (Ryzen 7, i7, Xeon) | Eccellente. Il parlato viene generato rapidamente, impatto minimo sulle altre attività |
| 4-6 core (Ryzen 5, i5) | Buona. Utilizzo della CPU evidente durante la generazione, ma perfettamente utilizzabile |
| 2 core / CPU datata | Lenta. La generazione può richiedere diversi secondi per enunciato. Considera Google Cloud in alternativa |
L’utilizzo della CPU è temporaneo — KittenTTS usa la CPU solo durante la generazione attiva del parlato (tipicamente 1-2 secondi per enunciato). Tra un enunciato e l’altro, l’utilizzo della CPU scende quasi a zero.
Gestione dei thread
Sezione intitolata “Gestione dei thread”Per impostazione predefinita, KittenTTS utilizza tutti i core CPU disponibili per la massima velocità. Se stai anche eseguendo un motore scacchistico (come Stockfish), potresti voler limitare i thread utilizzati da KittenTTS.
In Impostazioni > Suono > KittenTTS CPU Threads, imposta un valore per limitare l’uso dei thread. Imposta 0 per la modalità automatica (usa tutti i core). Un buon punto di partenza per l’uso condiviso con un motore scacchistico è la metà del numero dei tuoi core.
Suggerimento: KittenTTS e Stockfish vogliono entrambi i core della CPU. Se stai analizzando a piena profondità mentre KittenTTS genera il parlato, entrambi competeranno per il tempo CPU. Su una macchina con 8+ core, difficilmente noterai la differenza. Con 4 core, assegna a KittenTTS 2 thread e lascia il resto al motore.
Passaggio 1: Installare le dipendenze
Sezione intitolata “Passaggio 1: Installare le dipendenze”KittenTTS richiede Python 3.10+ e alcuni pacchetti Python. Scegli uno di questi metodi:
Opzione A: Procedura guidata in-app (consigliata)
Sezione intitolata “Opzione A: Procedura guidata in-app (consigliata)”- Apri En Parlant~ e vai su Impostazioni > Suono
- Imposta Provider TTS su KittenTTS (English Only)
- Se mancano delle dipendenze, apparirà un avviso giallo “Setup Guide”
- Clicca sull’avviso per aprire la procedura guidata di configurazione
- La procedura ti guida attraverso ogni passaggio con pulsanti “Fix” per l’installazione automatica
Opzione B: Script di configurazione da terminale
Sezione intitolata “Opzione B: Script di configurazione da terminale”cd /path/to/en-parlant./scripts/setup-tts.sh --kittenttsQuesto crea un ambiente virtuale Python e installa i pacchetti necessari (kittentts, flask, soundfile, numpy). Il modello nano (~25MB) viene scaricato da HuggingFace al primo avvio.
Opzione C: Configurazione manuale
Sezione intitolata “Opzione C: Configurazione manuale”cd /path/to/en-parlant/scriptspython3 -m venv .venv.venv/bin/pip install kittentts flask soundfile numpyPassaggio 2: Configurare En Parlant~
Sezione intitolata “Passaggio 2: Configurare En Parlant~”- Apri En Parlant~ e vai su Impostazioni (icona ingranaggio) > scheda Suono
- Imposta Provider TTS su KittenTTS (English Only)
- Il server si avvia automaticamente quando selezioni questo provider
- Attendi qualche secondo per il caricamento del modello (il primo avvio scarica da HuggingFace)
- Scegli una voce — ci sono 8 opzioni (4 maschili, 4 femminili)
- Clicca il pulsante Test accanto al selettore della voce
Dovresti sentire una mossa degli scacchi pronunciata ad alta voce con un parlato AI naturale ed espressivo.
Risoluzione dei problemi
Sezione intitolata “Risoluzione dei problemi”- Errore “Server not responding”? Il server KittenTTS potrebbe non essersi avviato. Controlla la procedura guidata nelle Impostazioni — mostra lo stato delle dipendenze e può correggere automaticamente i pacchetti mancanti.
- Il primo avvio è lento? Il modello nano (~25MB) viene scaricato da HuggingFace al primo utilizzo. Si tratta di un download una tantum. Gli avvii successivi richiedono 2-5 secondi.
- Utilizzo elevato della CPU? È normale durante la generazione del parlato. Riduci il numero di thread nelle Impostazioni se impatta sulle altre attività.
- Nessun suono? Assicurati che Python 3.10+ sia installato e che l’ambiente virtuale sia stato creato correttamente. La procedura guidata può diagnosticare questo problema.
Guida alle voci
Sezione intitolata “Guida alle voci”KittenTTS offre 8 voci numerate da 2 a 5, ciascuna in variante maschile e femminile. Tutte le voci sono in inglese con qualità tonali leggermente diverse. Provane alcune per trovare quella che preferisci.
Nota sulla lingua
Sezione intitolata “Nota sulla lingua”KittenTTS attualmente supporta solo l’inglese. Per altre lingue, utilizza ElevenLabs o Google Cloud. L’impostazione della lingua TTS viene ignorata quando si usa KittenTTS — i termini scacchistici vengono sempre pronunciati in inglese.