Gå til innholdet

Oversikt over TTS-leverandører

Hvorfor TTS forandrer måten du studerer sjakk på

Section titled “Hvorfor TTS forandrer måten du studerer sjakk på”

Når du gjennomgår et kommentert parti, gjør øynene dine dobbelt arbeid. Du prøver å følge brikkene på brettet og lese kommentarene samtidig. Blikket ditt hopper mellom brettet og kommentarfeltet, og hver gang det gjør det, mister du posisjonen et lite øyeblikk. Du må finne brikkene igjen, følge variantene på nytt og bygge bildet i hodet ditt om igjen.

Tekst-til-tale løser dette fullstendig.

Med TTS aktivert blar du gjennom et parti, og kommentarene blir lest opp for deg. Øynene dine forblir på brettet. Du ser springeren lande på f3 mens en stemme forteller deg hvorfor det er et sterkt utviklingstrekk. Du ser bondestrukturen endre seg mens kommentaren forklarer den strategiske ideen bak. Brettet og ordene ankommer samtidig, slik en trener som sitter overfor deg ville ha undervist.

Dette er spesielt nyttig for:

  • Åpningsstudier – hør ideene bak hvert trekk mens du ser posisjonen utvikle seg
  • Partigjennomgang – bla gjennom dine egne kommenterte partier og ta til deg lærdommene naturlig
  • Sluttspilltrening – hold fokuset på de kritiske feltene mens kommentaren veileder deg
  • Språkfordypning – studer sjakk på fransk, tysk, spansk, russisk, japansk, kinesisk eller koreansk med alle sjakktermer korrekt oversatt. Hør «Cavalier f3, echec» i stedet for «Knight f3, check.» Lær spillet på språket du tenker på.
  • Tilgjengelighet – for spillere som synes det er lettere å lytte enn å lese, eller som vil studere borte fra skrivebordet

Når du først har prøvd det, føles det som å se en film uten lyd å gå tilbake til stille kommentarer.

En Parlant~ leveres med fem TTS-leverandører, fra sky-APIer med studiokvalitet på stemmene til fullt lokale alternativer som ikke trenger internett i det hele tatt. Du trenger bare én for å komme i gang. De er listet nedenfor fra best til dårligst stemmekvalitet.

Den beste stemmekvaliteten som finnes. ElevenLabs produserer uttrykksfull, menneskelignende tale med ekte personlighet – noen stemmer høres ut som lydbokfortellere, andre som nyhetskringkastere. Dusinvis av unike stemmer å velge mellom. Støtter 34+ språk, inkludert utmerket CJK-uttale (japansk, kinesisk, koreansk), samt arabisk, hindi og alle store europeiske språk.

Gratisnivået gir deg 10 000 tegn per måned (nok til 2–5 kommenterte partier). Betalte planer starter på $5/måned for 30 000 tegn. Oppsettet er enkelt: opprett en konto, kopier API-nøkkelen din, lim den inn i En Parlant~.

Krever internett. Best for stemmekvalitetsentusiaster.

Oppsettguide for ElevenLabs

Den beste balansen mellom kvalitet, språkstøtte og verdi. Googles WaveNet-nevrale stemmer høres naturlige og klare ut på 30+ språk – inkludert CJK, arabisk, hindi, bengali, filippinsk, vietnamesisk og alle store europeiske språk. Gratisnivået er sjenerøst – én million tegn per måned dekker hundrevis av kommenterte partier.

Oppsettet tar omtrent 5 minutter: opprett en Google Cloud-konto, aktiver Text-to-Speech API-et, generer en API-nøkkel. Ingen kostnader med mindre du overskrider gratisnivået (veldig vanskelig å gjøre med sjakkkommentarer).

Krever internett. Best for de fleste brukere.

Oppsettguide for Google Cloud

Lokal AI av høy kvalitet som kjører helt på din maskin. Bruker en lettvekts ~25 MB nevral modell med 8 uttrykksfulle stemmer (4 mannlige, 4 kvinnelige). Kvaliteten er bemerkelsesverdig god – naturlig intonasjon, klar uttale, genuint uttrykksfullt.

Avveiningen er maskinvare: KittenTTS bruker PyTorch for CPU-inferens, så den trenger en moderne flerkjerneprosessor. På en 8-kjerners maskin høres det flott ut; på en eldre bærbar kan du merke forsinkelse. Kun engelsk foreløpig.

Første gang hver kommentar leses opp, er det en kort genereringsforsinkelse (1–2 sekunder på en rask CPU, lenger på tregere maskinvare). Etter det er lyden bufret i minnet og spilles av umiddelbart – å bla fremover og bakover gjennom trekk du allerede har hørt, har null forsinkelse. Du kan også forhåndsbufre et helt parti i bakgrunnen fra innstillingene, slik at alle kommentarer er klare før du begynner å studere.

Ingen internett nødvendig. Ingen API-nøkler. Best lokal kvalitet.

Oppsettguide for KittenTTS

En TTS-server med åpen kildekode som kjører på maskinen din via Docker. Ingenting forlater datamaskinen din. Leveres med flere TTS-motorer (Larynx, Festival, eSpeak, Coqui-TTS), og gir deg 75+ stemmer bare for engelsk.

Avveiningen er stemmekvalitet: dette er eldre nevrale og regelbaserte motorer, så resultatet høres mer robotaktig ut enn ElevenLabs eller Google. Fungerer best med europeiske språk (engelsk, tysk, fransk, spansk, russisk, nederlandsk, svensk, italiensk og flere) – CJK støttes ikke. Ærlig talt, hvis du likevel skal gjennom arbeidet med å sette opp en lokal modell, gir KittenTTS deg bedre kvalitet med mindre bryderi. Med mindre det blir betydelig etterspørsel etter OpenTTS, vil vi sannsynligvis avvikle den i en fremtidig utgivelse.

Ingen internett nødvendig. Ingen API-nøkler. Best for maksimalt personvern med mange stemmealternativer.

Oppsettguide for OpenTTS

Operativsystemets innebygde talesyntese. Ingenting å installere, ingen API-nøkler, ingen servere. Velg den og kjør. Stemmekvaliteten er enkel – du vil høre den karakteristiske robotaktige tonen fra OS-nivå TTS – men det fungerer umiddelbart uten noe oppsett.

På Linux er dette typisk eSpeak eller speech-dispatcher; på macOS er det systemstemmen; på Windows er det SAPI. Språkstøtte avhenger helt av hvilke stemmepakker operativsystemet ditt har installert.

Ingen internett nødvendig. Best for rask testing.

Oppsettguide for System-TTS

LeverandørTypeKvalitetOppsettSpråk
ElevenLabsSky-APIEksepsjonellAPI-nøkkel34+ (inkl. CJK)
Google CloudSky-APISvært god (WaveNet)API-nøkkel30+ (inkl. CJK)
KittenTTSLokal nevral AIGodPython + venvKun engelsk
OpenTTSLokal DockerMiddelsDockerKun europeisk
System (OS-innebygd)OS-innebygdEnkelIngenOS-avhengig

Maskinvarenotat: De lokale leverandørene (KittenTTS og OpenTTS) kjører nevral inferens på din CPU. De trenger en moderne flerkjerneprosessor (8+ kjerner anbefalt) for å generere tale uten merkbar forsinkelse. Tenk på det som å kjøre enda en sjakkmotor på maskinen din. Hvis maskinen din er eldre eller har begrenset ytelse, bruk en av skyleverandørene i stedet.

Start med ElevenLabs hvis du vil ha den rikeste stemmekvaliteten – gratisnivået er nok til å prøve det ut. For den beste balansen mellom kvalitet og gratis bruk dekker Google Cloud hundrevis av partier per måned. For lokal TTS av høy kvalitet uten skyavhengighet er KittenTTS utmerket hvis du har en moderne CPU. For testing uten oppsett fungerer System-TTS umiddelbart. For maksimalt personvern med mange stemmealternativer kjører OpenTTS alt lokalt via Docker.

Alle TTS-innstillinger finnes under Innstillinger > Lyd:

InnstillingHva den gjør
Text-to-SpeechHovedbryter av/på for alle TTS-funksjoner
Auto-Narrate on MoveLes automatisk opp kommentarer når du blar gjennom trekk
TTS ProviderBytt mellom de fem leverandørene
TTS VoiceLeverandørspesifikt stemmevalg
TTS LanguageSpråk for opplesing – sjakktermer oversettes automatisk
TTS VolumeHvor høyt opplesingen spilles
TTS SpeedAvspillingshastighet (0,5x til 2x) – justeres uten å regenerere lyd
ElevenLabs API KeyDin ElevenLabs API-nøkkel (vises bare når ElevenLabs er valgt)
Google Cloud API KeyDin Google Cloud API-nøkkel (vises bare når Google er valgt)
KittenTTS CPU ThreadsCPU-tråder for inferens (0 = auto / bruk alle kjerner)
TTS Audio CacheTøm lydbufreten for å tvinge regenerering

TTS-opplesing støtter mange språk med fullt oversatt sjakkordforråd. Her er noen eksempler:

SpråkSjakkeksempel
EnglishKnight f3, check. A strong developing move.
FrancaisCavalier f3, echec. Un coup de developpement fort.
EspanolCaballo f3, jaque. Un fuerte movimiento.
DeutschSpringer f3, Schach. Ein starker Entwicklungszug.
日本語ナイト f3、チェック。強い展開の手。
РусскийКонь f3, шах. Сильный развивающий ход.
中文马 f3,将军。一步控制中心的强力出子。
한국어나이트 f3, 체크. 중앙을 지배하는 강력한 전개 수.

Alle sjakktermer – brikkenavn, «sjakk», «sjakkmatt», «rokade», «slår», trekkvalitetsbetegnelser som «Briljant trekk» og «Tabbe» – leses opp på det valgte språket. Kommentarer i PGN-filene dine leses opp som de er skrevet, så kommenter partiene dine på språket du vil høre.

TTS-motoren leser ikke bare rå tekst – den forstår sjakknotasjon. Før noen tekst leses opp, konverterer et forbehandlingssteg PGN-notasjon til naturlig tale:

Skrevet i PGNLest opp
Nf3”Knight f3”
Bxe6+”Bishop takes e6, check”
O-O-O”castles queenside”
e8=Q#”e8 promotes to Queen, checkmate”
Rae1”Rook a e1” (disambiguering)
5.Qxd8+ (i kommentarer)“5, Queen takes d8, check”
en prise”on preez” (fransk uttale)
Ra8 is hanging”Rook on a8 is hanging”
R vs R”Rook versus Rook”
6...Bf5 (trekknummerprikker)“6, Bishop f5” (naturlig pause, ingen «prikk»)

Kommentarer renses før opplesing: [%eval], [%cal], [%csl]-tagger fjernes. Innledende kvalitetsord som dupliserer NAG-symbolet fjernes (slik at ?? {BLUNDER. The rook hangs} ikke stammer «Blunder. Blunder.»).

Hver opplesing bufres i minnet etter første generering. Å bla fremover og bakover gjennom et parti spilles av umiddelbart fra bufferen – ingen API-kall, ingen regenereringsforsinkelse. Du kan også forhåndsbufre et helt partire i bakgrunnen slik at det er null pauser under avspilling.

Bufferen er nøklet med provider:voiceId:lang:text, så å bytte stemme eller leverandør oppretter separate bufferoppføringer. Å endre avspillingshastighet ugyldiggjør ikke bufferen – hastighet brukes klientsiden på lydelementet.

En Clear Audio Cache-knapp i Innstillinger lar deg tvinge regenerering etter redigering av kommentarer.

  • Bruk Auto-Narrate. Slå på «Auto-Narrate on Move» og bruk bare piltastene til å bla gjennom partier. Kommentarene kommer naturlig mens du flytter, som å ha en trener ved skulderen.

  • Kommenter dine egne partier. TTS virkelig skinner når du lytter til kommentarer om dine partier. Kommenter partiene dine, så bla gjennom dem med opplesing. Å høre «Å snappe bonden ser fristende ut, men hele kongefløyen din sover fortsatt» mens du stirrer på posisjonen treffer annerledes enn å lese det.

  • Prøv forskjellige hastigheter. Noen spillere liker 1x for grundig studium, andre foretrekker 1,3x for raskere gjennomgang. Hastighetsglideren justerer avspilling i sanntid uten å bruke ekstra API-tegn.

  • Bruk høyttalerikonet. Hver kommentar i trekklisten har et lite høyttalerikon. Klikk på det for å høre akkurat den ene kommentaren.

  • Bytt språk for å lære sjakkordforråd. Hvis du studerer sjakk på et andrespråk, sett TTS-språket til å matche. Du vil naturlig plukke opp termer som «Cavalier» (springer), «echec» (sjakk) og «mat» (sjakkmatt) bare ved å lytte.

Disse retningslinjene gir best mulig opplesing fra PGN-kommentarene dine.

Bruk standard SAN-notasjon. Forbehandleren utvider den automatisk:

  • "After 7.Nf3, White controls e5" blir «After 7, Knight f3, White controls e5»
  • "The Bg5 pins the knight" blir «The Bishop g5 pins the knight»

NAG-glyfen (!, ??, !?, osv.) genererer talte kvalitetsord automatisk. Ikke dupliser dem i kommentaren:

  • Dårlig: ?? {BLUNDER. A terrible move...} – TTS sier «Blunder. Blunder. A terrible move»
  • Bra: ?? {A terrible move...} – TTS sier «Blunder. A terrible move»

Standard PGN-notasjon fungerer: 6...Bf5. Forbehandleren konverterer prikker til komma for naturlige pauser i stedet for «prikk prikk prikk.»

Punktum skaper naturlige TTS-pauser. Bruk dem mellom adskilte ideer:

{Doubled isolated e-pawns. The f-file is ripped open. The position is strategically won.}

[%cal ...]- og [%csl ...]-tagger fjernes automatisk fra lyd. Bruk dem fritt for visuelle kommentarer uten å påvirke opplesingen.

En merknad om redistribusjon for alle som bygger på En Parlant~:

  • ElevenLabs – Du beholder alle rettigheter til generert lyd (ElevenLabs Terms of Use, seksjon c(ii)). Du kan redistribuere den fritt.
  • Google Cloud – Du beholder alle immaterielle rettigheter til generert lyd. Ingen restriksjoner.
  • KittenTTS, OpenTTS, System TTS – Ingen redistribusjonsrestriksjoner på generert lyd.

En Croissant er et sjakkstudieprogram med åpen kildekode laget av Francisco Salgueiro. Francisco bygget noe genuint spesielt – en gratis, kraftig, fellesskapsdrevet plattform for å studere sjakk – og ga den ut under GPL-3.0-lisensen slik at hvem som helst kan bruke den, forbedre den og dele den. Denne TTS-funksjonen eksisterer på grunn av den generøsiteten. Vi er takknemlige for fundamentet han bygget, og vi er stolte av å bidra tilbake.

TTS-pluginen ble utviklet av Darrell hos Red Shed, med hjelp av Claude Code. Fem leverandører, flerspråkstøtte, oversatt sjakkordforråd på mange språk, lokal AI-inferens, avhengighetshåndtering – bygget fra kildekode, testet for hånd og bidratt med omhu.

Det er det fine med åpen kildekode. Noen bygger noe flott. Noen andre legger til noe. Alle drar nytte av det.

Vi vil gjerne høre hvordan TTS fungerer for deg. Kommentarer, forslag og tilbakemeldinger er alltid velkomne.

  • Vil du ha et språk vi ikke støtter ennå? Gi oss beskjed – vi kan legge til nye språk raskt.
  • Funnet en feil? Fortell oss, og vi fikser det raskt.
  • Har du en idé til en annen TTS-leverandør? Vi legger den gjerne til.
  • Vil du bare si at det fungerer? Det er også fint å høre.

Opprett en sak på GitHub, eller kontakt oss direkte på darrell@redshed.ai.