Aller au contenu

Configuration de KittenTTS

Retour à la Vue d’ensemble des fournisseurs TTS

KittenTTS exécute un modèle de synthèse vocale neuronale directement sur votre machine. Pas de cloud, pas de clés API, aucune donnée ne quitte votre ordinateur — et la qualité vocale est véritablement bonne. La configuration prend environ 5 minutes. Anglais uniquement pour le moment.

KittenTTS utilise PyTorch pour l’inférence de réseau neuronal sur votre CPU. Cela signifie qu’il nécessite une véritable puissance de calcul :

MatérielExpérience
8+ cœurs, CPU moderne (Ryzen 7, i7, Xeon)Excellent. La synthèse vocale est rapide, impact minimal sur les autres tâches
4-6 cœurs (Ryzen 5, i5)Bon. Utilisation CPU notable pendant la génération, mais parfaitement utilisable
2 cœurs / CPU ancienLent. La génération peut prendre plusieurs secondes par énoncé. Envisagez Google Cloud à la place

L’utilisation du CPU est temporaire — KittenTTS n’utilise le CPU que pendant la génération active de la parole (généralement 1 à 2 secondes par énoncé). Entre les énoncés, l’utilisation du CPU retombe quasiment à zéro.

Par défaut, KittenTTS utilise tous les cœurs CPU disponibles pour une vitesse maximale. Si vous exécutez également un moteur d’échecs (comme Stockfish), vous souhaiterez peut-être limiter le nombre de threads utilisés par KittenTTS.

Dans Paramètres > Son > KittenTTS CPU Threads, définissez une valeur pour plafonner l’utilisation des threads. Mettez 0 pour le mode automatique (utilisation de tous les cœurs). Un bon point de départ pour une utilisation partagée avec un moteur d’échecs est la moitié de votre nombre de cœurs.

Astuce : KittenTTS et Stockfish veulent tous les deux des cœurs CPU. Si vous analysez à pleine profondeur pendant que KittenTTS génère de la parole, les deux seront en concurrence pour le temps CPU. Sur une machine avec 8+ cœurs, vous le remarquerez rarement. Sur 4 cœurs, attribuez 2 threads à KittenTTS et laissez le reste au moteur.

KittenTTS nécessite Python 3.10+ et quelques paquets Python. Choisissez l’une de ces méthodes :

Option A : Assistant de configuration intégré (recommandé)

Section intitulée « Option A : Assistant de configuration intégré (recommandé) »
  1. Ouvrez En Parlant~ et allez dans Paramètres > Son
  2. Définissez Fournisseur TTS sur KittenTTS (English Only)
  3. Si des dépendances sont manquantes, une alerte jaune « Setup Guide » apparaît
  4. Cliquez sur l’alerte pour ouvrir l’assistant de configuration
  5. L’assistant vous guide à travers chaque étape avec des boutons « Fix » pour l’installation automatique
Fenêtre de terminal
cd /path/to/en-parlant
./scripts/setup-tts.sh --kittentts

Cela crée un environnement virtuel Python et installe les paquets requis (kittentts, flask, soundfile, numpy). Le modèle nano (~25 Mo) se télécharge depuis HuggingFace au premier lancement.

Fenêtre de terminal
cd /path/to/en-parlant/scripts
python3 -m venv .venv
.venv/bin/pip install kittentts flask soundfile numpy
  1. Ouvrez En Parlant~ et allez dans Paramètres (icône d’engrenage) > onglet Son
  2. Définissez Fournisseur TTS sur KittenTTS (English Only)
  3. Le serveur démarre automatiquement lorsque vous sélectionnez ce fournisseur
  4. Attendez quelques secondes le chargement du modèle (le premier lancement télécharge depuis HuggingFace)
  5. Choisissez une voix — il y a 8 options (4 masculines, 4 féminines)
  6. Cliquez sur le bouton Test à côté du sélecteur de voix

Vous devriez entendre un coup d’échecs prononcé à voix haute avec une voix IA naturelle et expressive.

  • Erreur « Server not responding » ? Le serveur KittenTTS n’a peut-être pas démarré. Vérifiez l’assistant de configuration dans les Paramètres — il affiche l’état des dépendances et peut corriger automatiquement les paquets manquants.
  • Premier lancement lent ? Le modèle nano d’environ 25 Mo se télécharge depuis HuggingFace à la première utilisation. C’est un téléchargement unique. Les démarrages suivants prennent 2 à 5 secondes.
  • Utilisation CPU élevée ? C’est normal pendant la génération vocale. Réduisez le nombre de threads dans les Paramètres si cela impacte d’autres tâches.
  • Pas de son ? Assurez-vous que Python 3.10+ est installé et que l’environnement virtuel a été créé avec succès. L’assistant de configuration peut diagnostiquer ce problème.

KittenTTS propose 8 voix numérotées de 2 à 5, chacune en variante masculine et féminine. Toutes les voix sont en anglais avec des qualités tonales légèrement différentes. Essayez-en quelques-unes pour trouver celle qui vous plaît le plus.

KittenTTS ne prend actuellement en charge que l’anglais. Pour d’autres langues, utilisez ElevenLabs ou Google Cloud. Le paramètre de langue TTS est ignoré lors de l’utilisation de KittenTTS — les termes échiquéens sont toujours prononcés en anglais.