Przejdź do głównej zawartości

Konfiguracja OpenTTS

Wróć do Przeglądu dostawców TTS

OpenTTS to otwartoźródłowy serwer TTS, który działa na Twoim własnym komputerze za pomocą Docker. Bez konta, bez klucza API, bez danych opuszczających Twoją maszynę. Konfiguracja zajmuje około 2 minut, jeśli masz już zainstalowany Docker.

Uwaga: OpenTTS korzysta ze starszych silników neuronowych i opartych na regułach. Jakość głosu jest funkcjonalna, ale wyraźnie bardziej robotyczna niż w przypadku ElevenLabs, Google Cloud czy KittenTTS. W przyszłych wersjach może zostać usunięty, jeśli pojawią się lepsze lokalne alternatywy.

Jeśli nie masz jeszcze Docker:

  • Linux (Ubuntu/Debian): sudo apt install docker.io
  • Linux (Fedora): sudo dnf install docker
  • macOS / Windows: Pobierz Docker Desktop

Otwórz terminal i wykonaj:

Okno terminala
docker run -d -p 5500:5500 --name opentts synesthesiam/opentts:en

To polecenie pobiera angielski pakiet głosowy (~1,5 GB przy pierwszym uruchomieniu) i uruchamia serwer w tle. Działa do momentu jego ręcznego zatrzymania.

Dostępne są pakiety dla innych języków: de, fr, es, ru, nl, sv, it i inne. Aby pobrać wszystkie języki (większy rozmiar pobierania):

Okno terminala
docker run -d -p 5500:5500 --name opentts synesthesiam/opentts:all

Ostrzeżenie dotyczące CJK: OpenTTS działa najlepiej z językami europejskimi. Tekst w języku japońskim, chińskim i koreańskim nie będzie poprawnie wymawiany. W przypadku języków CJK użyj zamiast tego ElevenLabs lub Google Cloud.

  1. Otwórz En Parlant~ i przejdź do Ustawienia (ikona koła zębatego) > zakładka Dźwięk
  2. Przewiń w dół do sekcji TTS
  3. Ustaw Dostawca TTS na OpenTTS (Self-Hosted)
  4. Potwierdź, że Adres URL serwera OpenTTS to http://localhost:5500
  5. Lista rozwijana Głos TTS zostanie wypełniona dostępnymi głosami. Wypróbuj głos larynx (np. harvard) dla najlepszej jakości
  6. Ustaw Synteza mowy na Włączona
  7. Kliknij przycisk Testuj obok selektora głosu

Powinieneś usłyszeć wypowiedziany na głos ruch szachowy.

Głosy pochodzą z kilku silników dołączonych do OpenTTS. Od najlepszego do najbardziej podstawowego:

  1. Larynx — neuronowy, najbardziej naturalnie brzmiący
  2. Coqui-TTS — neuronowy, wielomówcowy
  3. MaryTTS — oparty na Javie, przyzwoita jakość
  4. Festival — tradycyjna synteza
  5. eSpeak — robotyczny, ale szybki

Lista rozwijana głosów pokazuje nazwę silnika w nawiasach, dzięki czemu możesz dokonać odpowiedniego wyboru.

Kontener OpenTTS działa w tle. Przydatne polecenia:

Okno terminala
# Stop the server
docker stop opentts
# Start it again
docker start opentts
# Remove it entirely
docker rm -f opentts
# Check if it's running
docker ps | grep opentts
  • Błąd „Connection refused”? Kontener Docker może nie być uruchomiony. Wykonaj docker ps, aby to sprawdzić. Jeśli nie jest na liście, uruchom go poleceniem docker start opentts lub ponownie wykonaj polecenie docker run z Kroku 2.
  • Brak głosów na liście rozwijanej? Upewnij się, że kontener jest uruchomiony i dostępny pod adresem http://localhost:5500. Możesz to przetestować, otwierając ten adres URL w przeglądarce — powinieneś zobaczyć interfejs webowy OpenTTS.
  • Głosy brzmią bardzo robotycznie? Spróbuj przełączyć się na głos Larynx — to opcja o najwyższej jakości w OpenTTS. Jeśli zależy Ci na ogólnie lepszej jakości, rozważ przejście na KittenTTS, Google Cloud lub ElevenLabs.