Configuration de KittenTTS

Retour à la Vue d’ensemble des fournisseurs TTS

KittenTTS exécute un modèle de synthèse vocale neuronale directement sur votre machine. Pas de cloud, pas de clés API, aucune donnée ne quitte votre ordinateur — et la qualité vocale est véritablement bonne. La configuration prend environ 5 minutes. Anglais uniquement pour le moment.

Configuration matérielle requise

KittenTTS utilise PyTorch pour l’inférence de réseau neuronal sur votre CPU. Cela signifie qu’il nécessite une véritable puissance de calcul :

Matériel	Expérience
8+ cœurs, CPU moderne (Ryzen 7, i7, Xeon)	Excellent. La synthèse vocale est rapide, impact minimal sur les autres tâches
4-6 cœurs (Ryzen 5, i5)	Bon. Utilisation CPU notable pendant la génération, mais parfaitement utilisable
2 cœurs / CPU ancien	Lent. La génération peut prendre plusieurs secondes par énoncé. Envisagez Google Cloud à la place

L’utilisation du CPU est temporaire — KittenTTS n’utilise le CPU que pendant la génération active de la parole (généralement 1 à 2 secondes par énoncé). Entre les énoncés, l’utilisation du CPU retombe quasiment à zéro.

Gestion des threads

Par défaut, KittenTTS utilise tous les cœurs CPU disponibles pour une vitesse maximale. Si vous exécutez également un moteur d’échecs (comme Stockfish), vous souhaiterez peut-être limiter le nombre de threads utilisés par KittenTTS.

Dans Paramètres > Son > KittenTTS CPU Threads, définissez une valeur pour plafonner l’utilisation des threads. Mettez 0 pour le mode automatique (utilisation de tous les cœurs). Un bon point de départ pour une utilisation partagée avec un moteur d’échecs est la moitié de votre nombre de cœurs.

Astuce : KittenTTS et Stockfish veulent tous les deux des cœurs CPU. Si vous analysez à pleine profondeur pendant que KittenTTS génère de la parole, les deux seront en concurrence pour le temps CPU. Sur une machine avec 8+ cœurs, vous le remarquerez rarement. Sur 4 cœurs, attribuez 2 threads à KittenTTS et laissez le reste au moteur.

Étape 1 : Installer les dépendances

KittenTTS nécessite Python 3.10+ et quelques paquets Python. Choisissez l’une de ces méthodes :

Option A : Assistant de configuration intégré (recommandé)

Ouvrez En Parlant~ et allez dans Paramètres > Son
Définissez Fournisseur TTS sur KittenTTS (English Only)
Si des dépendances sont manquantes, une alerte jaune « Setup Guide » apparaît
Cliquez sur l’alerte pour ouvrir l’assistant de configuration
L’assistant vous guide à travers chaque étape avec des boutons « Fix » pour l’installation automatique

Option B : Script de configuration en terminal

cd /path/to/en-parlant
./scripts/setup-tts.sh --kittentts

Cela crée un environnement virtuel Python et installe les paquets requis (kittentts, flask, soundfile, numpy). Le modèle nano (~25 Mo) se télécharge depuis HuggingFace au premier lancement.

Option C : Configuration manuelle

cd /path/to/en-parlant/scripts
python3 -m venv .venv
.venv/bin/pip install kittentts flask soundfile numpy

Étape 2 : Configurer En Parlant~

Ouvrez En Parlant~ et allez dans Paramètres (icône d’engrenage) > onglet Son
Définissez Fournisseur TTS sur KittenTTS (English Only)
Le serveur démarre automatiquement lorsque vous sélectionnez ce fournisseur
Attendez quelques secondes le chargement du modèle (le premier lancement télécharge depuis HuggingFace)
Choisissez une voix — il y a 8 options (4 masculines, 4 féminines)
Cliquez sur le bouton Test à côté du sélecteur de voix

Vous devriez entendre un coup d’échecs prononcé à voix haute avec une voix IA naturelle et expressive.

Dépannage

Erreur « Server not responding » ? Le serveur KittenTTS n’a peut-être pas démarré. Vérifiez l’assistant de configuration dans les Paramètres — il affiche l’état des dépendances et peut corriger automatiquement les paquets manquants.
Premier lancement lent ? Le modèle nano d’environ 25 Mo se télécharge depuis HuggingFace à la première utilisation. C’est un téléchargement unique. Les démarrages suivants prennent 2 à 5 secondes.
Utilisation CPU élevée ? C’est normal pendant la génération vocale. Réduisez le nombre de threads dans les Paramètres si cela impacte d’autres tâches.
Pas de son ? Assurez-vous que Python 3.10+ est installé et que l’environnement virtuel a été créé avec succès. L’assistant de configuration peut diagnostiquer ce problème.

Guide des voix

KittenTTS propose 8 voix numérotées de 2 à 5, chacune en variante masculine et féminine. Toutes les voix sont en anglais avec des qualités tonales légèrement différentes. Essayez-en quelques-unes pour trouver celle qui vous plaît le plus.

Note sur les langues

KittenTTS ne prend actuellement en charge que l’anglais. Pour d’autres langues, utilisez ElevenLabs ou Google Cloud. Le paramètre de langue TTS est ignoré lors de l’utilisation de KittenTTS — les termes échiquéens sont toujours prononcés en anglais.