Aller au contenu

Configuration de la synthèse vocale système

Retour à la Vue d’ensemble des fournisseurs TTS

La synthèse vocale système utilise le moteur de synthèse vocale intégré à votre système d’exploitation. Il n’y a rien à installer — elle fonctionne immédiatement.

Avertissement : La synthèse vocale système est gratuite et facile à utiliser, et la qualité est à la hauteur du prix. La qualité vocale est franchement mauvaise sur la plupart des plateformes — robotique, monotone, et parfois difficile à suivre lors d’annotations plus longues. C’est suffisant pour un test rapide afin de voir comment fonctionne la narration TTS, mais si vous comptez réellement étudier avec, vous voudrez passer à n’importe quel autre fournisseur. Même les offres gratuites de Google Cloud et ElevenLabs sont considérablement meilleures.

  1. Ouvrez En Parlant~ et accédez à Paramètres (icône d’engrenage) > onglet Son
  2. Définissez Fournisseur TTS sur Système (natif OS)
  3. Le menu déroulant des voix affiche toutes les voix disponibles sur votre système
  4. Cliquez sur le bouton Test pour avoir un aperçu

C’est tout. La synthèse vocale système fonctionne immédiatement sans aucune configuration.

Qualité vocale selon le système d’exploitation

Section intitulée « Qualité vocale selon le système d’exploitation »

Les voix système varient considérablement d’un système d’exploitation à l’autre :

  • macOS — les voix système les plus naturelles. Les voix les plus récentes d’Apple (comme Samantha Enhanced) sont de très bonne qualité.
  • Windows — les voix SAPI sont correctes. Windows 10 et versions ultérieures incluent des voix neuronales qui sonnent mieux que les voix classiques.
  • Linux — généralement eSpeak ou Festival via speech-dispatcher. Plus robotique que macOS ou Windows, mais fonctionnel.

Si vous trouvez la qualité trop basique, envisagez de passer à KittenTTS (local, gratuit), Google Cloud ou ElevenLabs.

Les systèmes Linux ne disposent souvent au départ que d’une ou deux voix eSpeak. Vous pouvez en ajouter d’autres :

Fenêtre de terminal
# Install all eSpeak language data
sudo apt install espeak-ng-data-*
# Install Festival voices
sudo apt install festvox-*
# Install speech-dispatcher voices
sudo apt install speech-dispatcher-*

Après avoir installé de nouvelles voix, redémarrez En Parlant~ pour les voir apparaître dans le menu déroulant des voix.

Les langues disponibles dépendent de votre système d’exploitation et des packs vocaux installés. La synthèse vocale système utilise les voix fournies par votre système d’exploitation. Pour une prise en charge multilingue complète, utilisez plutôt ElevenLabs ou Google Cloud.

  • Aucune voix dans le menu déroulant ? Sous Linux, assurez-vous que speech-dispatcher est installé : sudo apt install speech-dispatcher
  • La voix semble déformée ? Essayez une autre voix dans le menu déroulant. Certaines voix système fonctionnent mieux que d’autres.
  • Aucun son ? Vérifiez les paramètres audio de votre système. La synthèse vocale système utilise le périphérique de sortie audio par défaut.