Gå til innholdet

Oppsett av KittenTTS

Tilbake til Oversikt over TTS-leverandører

KittenTTS kjører en nevral TTS-modell direkte på maskinen din. Ingen sky, ingen API-nøkler, ingen data som forlater datamaskinen din — og stemmekvaliteten er genuint god. Oppsettet tar omtrent 5 minutter. Kun engelsk foreløpig.

KittenTTS bruker PyTorch for nevralnetverksinferens på prosessoren din. Det betyr at det krever reell beregningskraft:

MaskinvareOpplevelse
8+ kjerner, moderne CPU (Ryzen 7, i7, Xeon)Utmerket. Tale genereres raskt, minimal påvirkning på andre oppgaver
4–6 kjerner (Ryzen 5, i5)Bra. Merkbar CPU-bruk under generering, men fullt brukbart
2 kjerner / eldre CPUTregt. Generering kan ta flere sekunder per ytring. Vurder Google Cloud i stedet

CPU-bruken er midlertidig — KittenTTS bruker kun prosessoren mens tale aktivt genereres (vanligvis 1–2 sekunder per ytring). Mellom ytringer faller CPU-bruken til nær null.

Som standard bruker KittenTTS alle tilgjengelige CPU-kjerner for maksimal hastighet. Hvis du også kjører en sjakkmotor (som Stockfish), kan det være lurt å begrense antall tråder KittenTTS bruker.

Under Settings > Sound > KittenTTS CPU Threads kan du sette en verdi for å begrense trådbruken. Sett til 0 for automatisk (bruk alle kjerner). Et godt utgangspunkt for delt bruk med en sjakkmotor er halvparten av antall kjerner.

Tips: KittenTTS og Stockfish vil begge ha CPU-kjerner. Hvis du analyserer på full dybde mens KittenTTS genererer tale, vil begge konkurrere om CPU-tid. På en maskin med 8+ kjerner vil du sjelden merke det. Med 4 kjerner, gi KittenTTS 2 tråder og la resten gå til motoren.

KittenTTS krever Python 3.10+ og noen Python-pakker. Velg en av disse metodene:

  1. Åpne En Parlant~ og gå til Settings > Sound
  2. Sett TTS Provider til KittenTTS (English Only)
  3. Hvis avhengigheter mangler, vises et gult «Setup Guide»-varsel
  4. Klikk på varselet for å åpne oppsettveiviseren
  5. Veiviseren leder deg gjennom hvert steg med «Fix»-knapper for automatisk installasjon
Terminal window
cd /path/to/en-parlant
./scripts/setup-tts.sh --kittentts

Dette oppretter et virtuelt Python-miljø og installerer de nødvendige pakkene (kittentts, flask, soundfile, numpy). Nano-modellen (~25 MB) lastes ned fra HuggingFace ved første kjøring.

Terminal window
cd /path/to/en-parlant/scripts
python3 -m venv .venv
.venv/bin/pip install kittentts flask soundfile numpy
  1. Åpne En Parlant~ og gå til Settings (tannhjulikonet) > Sound-fanen
  2. Sett TTS Provider til KittenTTS (English Only)
  3. Serveren starter automatisk når du velger denne leverandøren
  4. Vent noen sekunder mens modellen lastes (første kjøring laster ned fra HuggingFace)
  5. Velg en stemme — det finnes 8 alternativer (4 mannlige, 4 kvinnelige)
  6. Klikk på Test-knappen ved siden av stemmevelgeren

Du skal nå høre et sjakkdrag uttalt med naturlig, uttrykksfull AI-tale.

  • «Server not responding»-feil? KittenTTS-serveren har kanskje ikke startet. Sjekk oppsettveiviseren i Settings — den viser avhengighetsstatus og kan automatisk fikse manglende pakker.
  • Første kjøring er treg? Nano-modellen på ~25 MB lastes ned fra HuggingFace ved første bruk. Dette er en engangs nedlasting. Påfølgende oppstarter tar 2–5 sekunder.
  • Høy CPU-bruk? Dette er normalt under talegenerering. Reduser antall tråder i Settings hvis det påvirker andre oppgaver.
  • Ingen lyd? Sørg for at Python 3.10+ er installert og at det virtuelle miljøet ble opprettet riktig. Oppsettveiviseren kan diagnostisere dette.

KittenTTS tilbyr 8 stemmer nummerert 2–5, hver i mannlig og kvinnelig variant. Alle stemmene er engelske med litt ulike tonekvaliteter. Prøv noen for å finne den du liker best.

KittenTTS støtter foreløpig kun engelsk. For andre språk, bruk ElevenLabs eller Google Cloud. TTS-språkinnstillingen ignoreres når du bruker KittenTTS — sjakktermer uttales alltid på engelsk.