Configuration de KittenTTS
Retour à la Vue d’ensemble des fournisseurs TTS
KittenTTS exécute un modèle de synthèse vocale neuronale directement sur votre machine. Pas de cloud, pas de clés API, aucune donnée ne quitte votre ordinateur — et la qualité vocale est véritablement bonne. La configuration prend environ 5 minutes. Anglais uniquement pour le moment.
Configuration matérielle requise
Section intitulée « Configuration matérielle requise »KittenTTS utilise PyTorch pour l’inférence de réseau neuronal sur votre CPU. Cela signifie qu’il nécessite une véritable puissance de calcul :
| Matériel | Expérience |
|---|---|
| 8+ cœurs, CPU moderne (Ryzen 7, i7, Xeon) | Excellent. La synthèse vocale est rapide, impact minimal sur les autres tâches |
| 4-6 cœurs (Ryzen 5, i5) | Bon. Utilisation CPU notable pendant la génération, mais parfaitement utilisable |
| 2 cœurs / CPU ancien | Lent. La génération peut prendre plusieurs secondes par énoncé. Envisagez Google Cloud à la place |
L’utilisation du CPU est temporaire — KittenTTS n’utilise le CPU que pendant la génération active de la parole (généralement 1 à 2 secondes par énoncé). Entre les énoncés, l’utilisation du CPU retombe quasiment à zéro.
Gestion des threads
Section intitulée « Gestion des threads »Par défaut, KittenTTS utilise tous les cœurs CPU disponibles pour une vitesse maximale. Si vous exécutez également un moteur d’échecs (comme Stockfish), vous souhaiterez peut-être limiter le nombre de threads utilisés par KittenTTS.
Dans Paramètres > Son > KittenTTS CPU Threads, définissez une valeur pour plafonner l’utilisation des threads. Mettez 0 pour le mode automatique (utilisation de tous les cœurs). Un bon point de départ pour une utilisation partagée avec un moteur d’échecs est la moitié de votre nombre de cœurs.
Astuce : KittenTTS et Stockfish veulent tous les deux des cœurs CPU. Si vous analysez à pleine profondeur pendant que KittenTTS génère de la parole, les deux seront en concurrence pour le temps CPU. Sur une machine avec 8+ cœurs, vous le remarquerez rarement. Sur 4 cœurs, attribuez 2 threads à KittenTTS et laissez le reste au moteur.
Étape 1 : Installer les dépendances
Section intitulée « Étape 1 : Installer les dépendances »KittenTTS nécessite Python 3.10+ et quelques paquets Python. Choisissez l’une de ces méthodes :
Option A : Assistant de configuration intégré (recommandé)
Section intitulée « Option A : Assistant de configuration intégré (recommandé) »- Ouvrez En Parlant~ et allez dans Paramètres > Son
- Définissez Fournisseur TTS sur KittenTTS (English Only)
- Si des dépendances sont manquantes, une alerte jaune « Setup Guide » apparaît
- Cliquez sur l’alerte pour ouvrir l’assistant de configuration
- L’assistant vous guide à travers chaque étape avec des boutons « Fix » pour l’installation automatique
Option B : Script de configuration en terminal
Section intitulée « Option B : Script de configuration en terminal »cd /path/to/en-parlant./scripts/setup-tts.sh --kittenttsCela crée un environnement virtuel Python et installe les paquets requis (kittentts, flask, soundfile, numpy). Le modèle nano (~25 Mo) se télécharge depuis HuggingFace au premier lancement.
Option C : Configuration manuelle
Section intitulée « Option C : Configuration manuelle »cd /path/to/en-parlant/scriptspython3 -m venv .venv.venv/bin/pip install kittentts flask soundfile numpyÉtape 2 : Configurer En Parlant~
Section intitulée « Étape 2 : Configurer En Parlant~ »- Ouvrez En Parlant~ et allez dans Paramètres (icône d’engrenage) > onglet Son
- Définissez Fournisseur TTS sur KittenTTS (English Only)
- Le serveur démarre automatiquement lorsque vous sélectionnez ce fournisseur
- Attendez quelques secondes le chargement du modèle (le premier lancement télécharge depuis HuggingFace)
- Choisissez une voix — il y a 8 options (4 masculines, 4 féminines)
- Cliquez sur le bouton Test à côté du sélecteur de voix
Vous devriez entendre un coup d’échecs prononcé à voix haute avec une voix IA naturelle et expressive.
Dépannage
Section intitulée « Dépannage »- Erreur « Server not responding » ? Le serveur KittenTTS n’a peut-être pas démarré. Vérifiez l’assistant de configuration dans les Paramètres — il affiche l’état des dépendances et peut corriger automatiquement les paquets manquants.
- Premier lancement lent ? Le modèle nano d’environ 25 Mo se télécharge depuis HuggingFace à la première utilisation. C’est un téléchargement unique. Les démarrages suivants prennent 2 à 5 secondes.
- Utilisation CPU élevée ? C’est normal pendant la génération vocale. Réduisez le nombre de threads dans les Paramètres si cela impacte d’autres tâches.
- Pas de son ? Assurez-vous que Python 3.10+ est installé et que l’environnement virtuel a été créé avec succès. L’assistant de configuration peut diagnostiquer ce problème.
Guide des voix
Section intitulée « Guide des voix »KittenTTS propose 8 voix numérotées de 2 à 5, chacune en variante masculine et féminine. Toutes les voix sont en anglais avec des qualités tonales légèrement différentes. Essayez-en quelques-unes pour trouver celle qui vous plaît le plus.
Note sur les langues
Section intitulée « Note sur les langues »KittenTTS ne prend actuellement en charge que l’anglais. Pour d’autres langues, utilisez ElevenLabs ou Google Cloud. Le paramètre de langue TTS est ignoré lors de l’utilisation de KittenTTS — les termes échiquéens sont toujours prononcés en anglais.