Konfiguracja KittenTTS

Wróć do Przeglądu dostawców TTS

KittenTTS uruchamia neuronowy model TTS bezpośrednio na Twoim komputerze. Bez chmury, bez kluczy API, bez danych opuszczających Twój komputer — a jakość głosu jest naprawdę dobra. Konfiguracja zajmuje około 5 minut. Na razie tylko język angielski.

Wymagania sprzętowe

KittenTTS wykorzystuje PyTorch do inferencji sieci neuronowej na procesorze. Oznacza to, że wymaga rzeczywistej mocy obliczeniowej:

Sprzęt	Doświadczenie użytkownika
8+ rdzeni, nowoczesny procesor (Ryzen 7, i7, Xeon)	Doskonałe. Mowa generuje się szybko, minimalny wpływ na inne zadania
4-6 rdzeni (Ryzen 5, i5)	Dobre. Zauważalne obciążenie procesora podczas generowania, ale w pełni użyteczne
2 rdzenie / starszy procesor	Wolne. Generowanie może trwać kilka sekund na wypowiedź. Rozważ użycie Google Cloud

Obciążenie procesora jest tymczasowe — KittenTTS wykorzystuje procesor tylko podczas aktywnego generowania mowy (zazwyczaj 1-2 sekundy na wypowiedź). Między wypowiedziami obciążenie procesora spada praktycznie do zera.

Zarządzanie wątkami

Domyślnie KittenTTS wykorzystuje wszystkie dostępne rdzenie procesora dla maksymalnej szybkości. Jeśli jednocześnie uruchamiasz silnik szachowy (np. Stockfish), możesz chcieć ograniczyć liczbę wątków używanych przez KittenTTS.

W Ustawienia > Dźwięk > KittenTTS CPU Threads ustaw wartość ograniczającą użycie wątków. Ustaw 0 dla trybu automatycznego (użyj wszystkich rdzeni). Dobry punkt wyjścia przy jednoczesnym użyciu z silnikiem szachowym to połowa liczby Twoich rdzeni.

Wskazówka: KittenTTS i Stockfish oba potrzebują rdzeni procesora. Jeśli analizujesz na pełnej głębokości, gdy KittenTTS generuje mowę, oba będą konkurować o czas procesora. Na maszynie z 8+ rdzeniami rzadko to zauważysz. Na 4 rdzeniach przydziel KittenTTS 2 wątki i zostaw resztę dla silnika.

Krok 1: Zainstaluj zależności

KittenTTS wymaga Python 3.10+ oraz kilku pakietów Pythona. Wybierz jedną z poniższych metod:

Opcja A: Kreator konfiguracji w aplikacji (Zalecana)

Otwórz En Parlant~ i przejdź do Ustawienia > Dźwięk
Ustaw Dostawca TTS na KittenTTS (English Only)
Jeśli brakuje zależności, pojawi się żółty alert „Setup Guide”
Kliknij alert, aby otworzyć kreator konfiguracji
Kreator przeprowadzi Cię przez każdy krok, oferując przyciski „Fix” do automatycznej instalacji

Opcja B: Skrypt instalacyjny w terminalu

cd /path/to/en-parlant
./scripts/setup-tts.sh --kittentts

Tworzy to wirtualne środowisko Pythona i instaluje wymagane pakiety (kittentts, flask, soundfile, numpy). Model nano (~25MB) pobiera się z HuggingFace przy pierwszym uruchomieniu.

Opcja C: Ręczna instalacja

cd /path/to/en-parlant/scripts
python3 -m venv .venv
.venv/bin/pip install kittentts flask soundfile numpy

Krok 2: Skonfiguruj En Parlant~

Otwórz En Parlant~ i przejdź do Ustawienia (ikona koła zębatego) > zakładka Dźwięk
Ustaw Dostawca TTS na KittenTTS (English Only)
Serwer uruchamia się automatycznie po wybraniu tego dostawcy
Poczekaj kilka sekund na załadowanie modelu (pierwsze uruchomienie pobiera dane z HuggingFace)
Wybierz głos — dostępnych jest 8 opcji (4 męskie, 4 żeńskie)
Kliknij przycisk Test obok selektora głosu

Powinieneś usłyszeć ruch szachowy wypowiedziany na głos z naturalną, ekspresyjną mową AI.

Rozwiązywanie problemów

Błąd „Server not responding”? Serwer KittenTTS mógł się nie uruchomić. Sprawdź kreator konfiguracji w Ustawieniach — pokazuje status zależności i może automatycznie naprawić brakujące pakiety.
Pierwsze uruchomienie jest wolne? Model nano (~25MB) pobiera się z HuggingFace przy pierwszym użyciu. To jednorazowe pobieranie. Kolejne uruchomienia zajmują 2-5 sekund.
Wysokie obciążenie procesora? To normalne podczas generowania mowy. Zmniejsz liczbę wątków w Ustawieniach, jeśli wpływa to na inne zadania.
Brak dźwięku? Upewnij się, że Python 3.10+ jest zainstalowany, a wirtualne środowisko zostało poprawnie utworzone. Kreator konfiguracji może to zdiagnozować.

Przewodnik po głosach

KittenTTS oferuje 8 głosów o numerach 2-5, każdy w wariancie męskim i żeńskim. Wszystkie głosy są angielskojęzyczne z nieco różnymi cechami tonalnymi. Wypróbuj kilka, aby znaleźć ten, który najbardziej Ci odpowiada.

Uwaga dotycząca języka

KittenTTS obecnie obsługuje wyłącznie język angielski. Dla innych języków użyj ElevenLabs lub Google Cloud. Ustawienie języka TTS jest ignorowane przy korzystaniu z KittenTTS — terminy szachowe są zawsze wypowiadane po angielsku.