Konfiguracja OpenTTS

Wróć do Przeglądu dostawców TTS

OpenTTS to otwartoźródłowy serwer TTS, który działa na Twoim własnym komputerze za pomocą Docker. Bez konta, bez klucza API, bez danych opuszczających Twoją maszynę. Konfiguracja zajmuje około 2 minut, jeśli masz już zainstalowany Docker.

Uwaga: OpenTTS korzysta ze starszych silników neuronowych i opartych na regułach. Jakość głosu jest funkcjonalna, ale wyraźnie bardziej robotyczna niż w przypadku ElevenLabs, Google Cloud czy KittenTTS. W przyszłych wersjach może zostać usunięty, jeśli pojawią się lepsze lokalne alternatywy.

Krok 1: Zainstaluj Docker

Jeśli nie masz jeszcze Docker:

Linux (Ubuntu/Debian): sudo apt install docker.io
Linux (Fedora): sudo dnf install docker
macOS / Windows: Pobierz Docker Desktop

Krok 2: Uruchom serwer OpenTTS

Otwórz terminal i wykonaj:

docker run -d -p 5500:5500 --name opentts synesthesiam/opentts:en

To polecenie pobiera angielski pakiet głosowy (~1,5 GB przy pierwszym uruchomieniu) i uruchamia serwer w tle. Działa do momentu jego ręcznego zatrzymania.

Inne języki

Dostępne są pakiety dla innych języków: de, fr, es, ru, nl, sv, it i inne. Aby pobrać wszystkie języki (większy rozmiar pobierania):

docker run -d -p 5500:5500 --name opentts synesthesiam/opentts:all

Ostrzeżenie dotyczące CJK: OpenTTS działa najlepiej z językami europejskimi. Tekst w języku japońskim, chińskim i koreańskim nie będzie poprawnie wymawiany. W przypadku języków CJK użyj zamiast tego ElevenLabs lub Google Cloud.

Krok 3: Skonfiguruj En Parlant~

Otwórz En Parlant~ i przejdź do Ustawienia (ikona koła zębatego) > zakładka Dźwięk
Przewiń w dół do sekcji TTS
Ustaw Dostawca TTS na OpenTTS (Self-Hosted)
Potwierdź, że Adres URL serwera OpenTTS to http://localhost:5500
Lista rozwijana Głos TTS zostanie wypełniona dostępnymi głosami. Wypróbuj głos larynx (np. harvard) dla najlepszej jakości
Ustaw Synteza mowy na Włączona
Kliknij przycisk Testuj obok selektora głosu

Powinieneś usłyszeć wypowiedziany na głos ruch szachowy.

Przewodnik po jakości głosów

Głosy pochodzą z kilku silników dołączonych do OpenTTS. Od najlepszego do najbardziej podstawowego:

Larynx — neuronowy, najbardziej naturalnie brzmiący
Coqui-TTS — neuronowy, wielomówcowy
MaryTTS — oparty na Javie, przyzwoita jakość
Festival — tradycyjna synteza
eSpeak — robotyczny, ale szybki

Lista rozwijana głosów pokazuje nazwę silnika w nawiasach, dzięki czemu możesz dokonać odpowiedniego wyboru.

Zarządzanie serwerem

Kontener OpenTTS działa w tle. Przydatne polecenia:

# Stop the server
docker stop opentts

# Start it again
docker start opentts

# Remove it entirely
docker rm -f opentts

# Check if it's running
docker ps | grep opentts

Rozwiązywanie problemów

Błąd „Connection refused”? Kontener Docker może nie być uruchomiony. Wykonaj docker ps, aby to sprawdzić. Jeśli nie jest na liście, uruchom go poleceniem docker start opentts lub ponownie wykonaj polecenie docker run z Kroku 2.
Brak głosów na liście rozwijanej? Upewnij się, że kontener jest uruchomiony i dostępny pod adresem http://localhost:5500. Możesz to przetestować, otwierając ten adres URL w przeglądarce — powinieneś zobaczyć interfejs webowy OpenTTS.
Głosy brzmią bardzo robotycznie? Spróbuj przełączyć się na głos Larynx — to opcja o najwyższej jakości w OpenTTS. Jeśli zależy Ci na ogólnie lepszej jakości, rozważ przejście na KittenTTS, Google Cloud lub ElevenLabs.