Przejdź do głównej zawartości

Konfiguracja KittenTTS

Wróć do Przeglądu dostawców TTS

KittenTTS uruchamia neuronowy model TTS bezpośrednio na Twoim komputerze. Bez chmury, bez kluczy API, bez danych opuszczających Twój komputer — a jakość głosu jest naprawdę dobra. Konfiguracja zajmuje około 5 minut. Na razie tylko język angielski.

KittenTTS wykorzystuje PyTorch do inferencji sieci neuronowej na procesorze. Oznacza to, że wymaga rzeczywistej mocy obliczeniowej:

SprzętDoświadczenie użytkownika
8+ rdzeni, nowoczesny procesor (Ryzen 7, i7, Xeon)Doskonałe. Mowa generuje się szybko, minimalny wpływ na inne zadania
4-6 rdzeni (Ryzen 5, i5)Dobre. Zauważalne obciążenie procesora podczas generowania, ale w pełni użyteczne
2 rdzenie / starszy procesorWolne. Generowanie może trwać kilka sekund na wypowiedź. Rozważ użycie Google Cloud

Obciążenie procesora jest tymczasowe — KittenTTS wykorzystuje procesor tylko podczas aktywnego generowania mowy (zazwyczaj 1-2 sekundy na wypowiedź). Między wypowiedziami obciążenie procesora spada praktycznie do zera.

Domyślnie KittenTTS wykorzystuje wszystkie dostępne rdzenie procesora dla maksymalnej szybkości. Jeśli jednocześnie uruchamiasz silnik szachowy (np. Stockfish), możesz chcieć ograniczyć liczbę wątków używanych przez KittenTTS.

W Ustawienia > Dźwięk > KittenTTS CPU Threads ustaw wartość ograniczającą użycie wątków. Ustaw 0 dla trybu automatycznego (użyj wszystkich rdzeni). Dobry punkt wyjścia przy jednoczesnym użyciu z silnikiem szachowym to połowa liczby Twoich rdzeni.

Wskazówka: KittenTTS i Stockfish oba potrzebują rdzeni procesora. Jeśli analizujesz na pełnej głębokości, gdy KittenTTS generuje mowę, oba będą konkurować o czas procesora. Na maszynie z 8+ rdzeniami rzadko to zauważysz. Na 4 rdzeniach przydziel KittenTTS 2 wątki i zostaw resztę dla silnika.

KittenTTS wymaga Python 3.10+ oraz kilku pakietów Pythona. Wybierz jedną z poniższych metod:

  1. Otwórz En Parlant~ i przejdź do Ustawienia > Dźwięk
  2. Ustaw Dostawca TTS na KittenTTS (English Only)
  3. Jeśli brakuje zależności, pojawi się żółty alert „Setup Guide”
  4. Kliknij alert, aby otworzyć kreator konfiguracji
  5. Kreator przeprowadzi Cię przez każdy krok, oferując przyciski „Fix” do automatycznej instalacji
Okno terminala
cd /path/to/en-parlant
./scripts/setup-tts.sh --kittentts

Tworzy to wirtualne środowisko Pythona i instaluje wymagane pakiety (kittentts, flask, soundfile, numpy). Model nano (~25MB) pobiera się z HuggingFace przy pierwszym uruchomieniu.

Okno terminala
cd /path/to/en-parlant/scripts
python3 -m venv .venv
.venv/bin/pip install kittentts flask soundfile numpy
  1. Otwórz En Parlant~ i przejdź do Ustawienia (ikona koła zębatego) > zakładka Dźwięk
  2. Ustaw Dostawca TTS na KittenTTS (English Only)
  3. Serwer uruchamia się automatycznie po wybraniu tego dostawcy
  4. Poczekaj kilka sekund na załadowanie modelu (pierwsze uruchomienie pobiera dane z HuggingFace)
  5. Wybierz głos — dostępnych jest 8 opcji (4 męskie, 4 żeńskie)
  6. Kliknij przycisk Test obok selektora głosu

Powinieneś usłyszeć ruch szachowy wypowiedziany na głos z naturalną, ekspresyjną mową AI.

  • Błąd „Server not responding”? Serwer KittenTTS mógł się nie uruchomić. Sprawdź kreator konfiguracji w Ustawieniach — pokazuje status zależności i może automatycznie naprawić brakujące pakiety.
  • Pierwsze uruchomienie jest wolne? Model nano (~25MB) pobiera się z HuggingFace przy pierwszym użyciu. To jednorazowe pobieranie. Kolejne uruchomienia zajmują 2-5 sekund.
  • Wysokie obciążenie procesora? To normalne podczas generowania mowy. Zmniejsz liczbę wątków w Ustawieniach, jeśli wpływa to na inne zadania.
  • Brak dźwięku? Upewnij się, że Python 3.10+ jest zainstalowany, a wirtualne środowisko zostało poprawnie utworzone. Kreator konfiguracji może to zdiagnozować.

KittenTTS oferuje 8 głosów o numerach 2-5, każdy w wariancie męskim i żeńskim. Wszystkie głosy są angielskojęzyczne z nieco różnymi cechami tonalnymi. Wypróbuj kilka, aby znaleźć ten, który najbardziej Ci odpowiada.

KittenTTS obecnie obsługuje wyłącznie język angielski. Dla innych języków użyj ElevenLabs lub Google Cloud. Ustawienie języka TTS jest ignorowane przy korzystaniu z KittenTTS — terminy szachowe są zawsze wypowiadane po angielsku.