Przegląd dostawców TTS

Dlaczego TTS zmienia sposób nauki szachów

Kiedy przeglądasz skomentowaną partię, Twoje oczy muszą pracować podwójnie. Próbujesz jednocześnie śledzić figury na szachownicy i czytać komentarz. Wzrok skacze między szachownicą a panelem adnotacji, a za każdym razem, gdy to robi, na ułamek sekundy tracisz pozycję. Musisz ponownie odnaleźć figury, ponownie prześledzić warianty, ponownie odtworzyć obraz w głowie.

Synteza mowy (TTS) całkowicie to rozwiązuje.

Z włączonym TTS przechodzisz przez partię, a komentarze są odczytywane na głos. Twoje oczy pozostają na szachownicy. Obserwujesz, jak skoczek ląduje na f3, podczas gdy głos wyjaśnia, dlaczego to silny ruch rozwojowy. Widzisz zmianę struktury pionowej, podczas gdy komentarz tłumaczy strategiczną ideę, która za nią stoi. Szachownica i słowa docierają do Ciebie jednocześnie — tak jak uczyłby Cię trener siedzący naprzeciwko.

Jest to szczególnie przydatne przy:

Nauce debiutów — słuchaj idei stojących za każdym ruchem, obserwując rozwój pozycji
Przeglądaniu partii — przechodź przez własne skomentowane partie i przyswajaj lekcje w naturalny sposób
Ćwiczeniu końcówek — utrzymuj skupienie na kluczowych polach, podczas gdy komentarz Cię prowadzi
Immersji językowej — ucz się szachów po francusku, niemiecku, hiszpańsku, rosyjsku, japońsku, chińsku lub koreańsku z prawidłowo przetłumaczonymi terminami szachowymi. Usłysz „Cavalier f3, echec” zamiast „Knight f3, check”. Ucz się gry w języku, w którym myślisz.
Dostępności — dla graczy, którym łatwiej słuchać niż czytać, lub którzy chcą się uczyć z dala od biurka

Gdy raz tego spróbujesz, powrót do cichych adnotacji będzie jak oglądanie filmu z wyciszonym dźwiękiem.

Wybór dostawcy

En Parlant~ jest dostarczany z pięcioma dostawcami TTS — od chmurowych API z głosami o studyjnej jakości po w pełni lokalne opcje niewymagające połączenia z internetem. Aby zacząć, potrzebujesz tylko jednego. Poniżej wymieniono je od najlepszej do najgorszej jakości głosu.

ElevenLabs

Najlepsza dostępna jakość głosu. ElevenLabs wytwarza ekspresyjną, ludzko brzmiącą mowę z prawdziwą osobowością — niektóre głosy brzmią jak narratorzy audiobooków, inne jak prezenterzy. Dziesiątki unikalnych głosów do wyboru. Obsługuje ponad 34 języki, w tym doskonałą wymowę CJK (japoński, chiński, koreański), a także arabski, hindi i wszystkie główne języki europejskie.

Darmowy plan oferuje 10 000 znaków miesięcznie (wystarczających na 2–5 skomentowanych partii). Płatne plany zaczynają się od 5 $/miesiąc za 30 000 znaków. Konfiguracja jest prosta: załóż konto, skopiuj klucz API i wklej go do En Parlant~.

Wymaga połączenia z internetem. Najlepszy dla entuzjastów jakości głosu.

Przewodnik konfiguracji ElevenLabs

Google Cloud TTS

Najlepsza równowaga między jakością, obsługą języków a ceną. Neuronowe głosy WaveNet od Google brzmią naturalnie i wyraźnie w ponad 30 językach — w tym CJK, arabski, hindi, bengalski, filipiński, wietnamski i wszystkie główne języki europejskie. Darmowy plan jest hojny — milion znaków miesięcznie wystarczy na setki skomentowanych partii.

Konfiguracja zajmuje około 5 minut: załóż konto Google Cloud, włącz Text-to-Speech API, wygeneruj klucz API. Brak opłat, chyba że przekroczysz darmowy limit (co przy komentarzach szachowych jest bardzo trudne).

Wymaga połączenia z internetem. Najlepszy dla większości użytkowników.

Przewodnik konfiguracji Google Cloud

KittenTTS

Wysokiej jakości lokalna sztuczna inteligencja działająca w całości na Twoim komputerze. Wykorzystuje lekki model neuronowy o wielkości ~25 MB z 8 ekspresyjnymi głosami (4 męskie, 4 żeńskie). Jakość jest zadziwiająco dobra — naturalna intonacja, wyraźna wymowa, autentyczna ekspresja.

Kompromisem jest sprzęt: KittenTTS korzysta z PyTorch do inferencji na CPU, więc wymaga nowoczesnego procesora wielordzeniowego. Na 8-rdzeniowej maszynie brzmi świetnie; na starszym laptopie możesz zauważyć opóźnienia. Na razie tylko język angielski.

Przy pierwszym odczytaniu danej adnotacji występuje krótkie opóźnienie generowania (1–2 sekundy na szybkim CPU, dłużej na wolniejszym sprzęcie). Potem audio jest buforowane w pamięci i odtwarza się natychmiast — przechodzenie do tyłu i do przodu przez ruchy, które już słyszałeś, nie powoduje żadnego opóźnienia. Możesz też wstępnie zbuforować całe drzewo partii w tle z poziomu ustawień, dzięki czemu każda adnotacja jest gotowa, zanim zaczniesz naukę.

Nie wymaga internetu. Nie wymaga kluczy API. Najlepsza lokalna jakość.

Przewodnik konfiguracji KittenTTS

OpenTTS

Otwartoźródłowy serwer TTS działający na Twojej maszynie za pośrednictwem Docker. Nic nie opuszcza Twojego komputera. Zawiera kilka silników TTS (Larynx, Festival, eSpeak, Coqui-TTS), oferując ponad 75 głosów tylko dla języka angielskiego.

Kompromisem jest jakość głosu: to starsze silniki neuronowe i oparte na regułach, więc wynik brzmi bardziej robotycznie niż ElevenLabs czy Google. Najlepiej sprawdza się z językami europejskimi (angielski, niemiecki, francuski, hiszpański, rosyjski, holenderski, szwedzki, włoski i inne) — CJK nie jest obsługiwany. Szczerze mówiąc, jeśli i tak zamierzasz poświęcić czas na konfigurację lokalnego modelu, KittenTTS zapewni Ci lepszą jakość przy mniejszym nakładzie pracy. O ile nie pojawi się znaczące zapotrzebowanie na OpenTTS, prawdopodobnie wycofamy go w przyszłej wersji.

Nie wymaga internetu. Nie wymaga kluczy API. Najlepszy dla maksymalnej prywatności z wieloma opcjami głosów.

Przewodnik konfiguracji OpenTTS

Systemowy TTS

Wbudowana synteza mowy Twojego systemu operacyjnego. Nie trzeba niczego instalować, nie potrzeba kluczy API ani serwerów. Wybierz i gotowe. Jakość głosu jest podstawowa — usłyszysz charakterystyczny robotyczny ton TTS poziomu systemu operacyjnego — ale działa natychmiast bez żadnej konfiguracji.

Na Linuksie jest to zwykle eSpeak lub speech-dispatcher; na macOS — głos systemowy; na Windowsie — SAPI. Obsługa języków zależy wyłącznie od zainstalowanych pakietów głosowych w Twoim systemie operacyjnym.

Nie wymaga internetu. Najlepszy do szybkiego testowania.

Przewodnik konfiguracji systemowego TTS

Porównanie dostawców

Dostawca	Typ	Jakość	Konfiguracja	Języki
ElevenLabs	Chmurowe API	Wyjątkowa	Klucz API	34+ (w tym CJK)
Google Cloud	Chmurowe API	Bardzo dobra (WaveNet)	Klucz API	30+ (w tym CJK)
KittenTTS	Lokalna neuronowa AI	Dobra	Python + venv	Tylko angielski
OpenTTS	Lokalny Docker	Przeciętna	Docker	Tylko europejskie
Systemowy (natywny OS)	Wbudowany w OS	Podstawowa	Brak	Zależna od OS

Uwaga dotycząca sprzętu: Lokalni dostawcy (KittenTTS i OpenTTS) wykonują inferencję neuronową na Twoim CPU. Wymagają nowoczesnego procesora wielordzeniowego (zalecane 8+ rdzeni), aby generować mowę bez zauważalnych opóźnień. Pomyśl o tym jak o uruchomieniu jeszcze jednego silnika szachowego na Twojej maszynie. Jeśli Twój komputer jest starszy lub mało wydajny, skorzystaj z jednego z dostawców chmurowych.

Nasze zalecenie

Zacznij od ElevenLabs, jeśli zależy Ci na najbogatszej jakości głosu — darmowy plan wystarczy, aby to wypróbować. Dla najlepszej równowagi między jakością a darmowym użytkowaniem Google Cloud pokrywa setki partii miesięcznie. Dla wysokiej jakości lokalnego TTS bez zależności od chmury KittenTTS jest doskonały, jeśli masz nowoczesny CPU. Do testowania bez konfiguracji Systemowy TTS działa natychmiast. Dla maksymalnej prywatności z wieloma opcjami głosów OpenTTS uruchamia wszystko lokalnie za pośrednictwem Docker.

Opis ustawień

Wszystkie ustawienia TTS znajdują się w Ustawienia > Dźwięk:

Ustawienie	Co robi
Text-to-Speech	Główny przełącznik włączania/wyłączania wszystkich funkcji TTS
Auto-Narrate on Move	Automatyczne odczytywanie adnotacji podczas przechodzenia między ruchami
TTS Provider	Przełączanie między pięcioma dostawcami
TTS Voice	Wybór głosu specyficzny dla danego dostawcy
TTS Language	Język narracji — terminy szachowe są tłumaczone automatycznie
TTS Volume	Głośność narracji
TTS Speed	Szybkość odtwarzania (0,5x do 2x) — zmiana bez ponownego generowania audio
ElevenLabs API Key	Twój klucz API ElevenLabs (widoczny tylko przy korzystaniu z ElevenLabs)
Google Cloud API Key	Twój klucz API Google Cloud (widoczny tylko przy korzystaniu z Google)
KittenTTS CPU Threads	Wątki CPU do inferencji (0 = auto / użyj wszystkich rdzeni)
TTS Audio Cache	Wyczyść bufor audio, aby wymusić ponowne generowanie

Obsługiwane języki

Narracja TTS obsługuje wiele języków z w pełni przetłumaczonym słownictwem szachowym. Oto kilka przykładów:

Język	Przykład szachowy
English	Knight f3, check. A strong developing move.
Francais	Cavalier f3, echec. Un coup de developpement fort.
Espanol	Caballo f3, jaque. Un fuerte movimiento.
Deutsch	Springer f3, Schach. Ein starker Entwicklungszug.
日本語	ナイト f3、チェック。強い展開の手。
Русский	Конь f3, шах. Сильный развивающий ход.
中文	马 f3，将军。一步控制中心的强力出子。
한국어	나이트 f3, 체크. 중앙을 지배하는 강력한 전개 수.

Każdy termin szachowy — nazwy figur, „szach”, „mat”, „roszada”, „bije”, adnotacje jakości ruchów takie jak „Genialny ruch” i „Gruba pomyłka” — jest wymawiany w wybranym języku. Komentarze w Twoich plikach PGN są odczytywane tak, jak zostały napisane, więc komentuj swoje partie w języku, który chcesz słyszeć.

Przetwarzanie tekstu z uwzględnieniem notacji szachowej

Silnik TTS nie odczytuje po prostu surowego tekstu — rozumie notację szachową. Przed odczytaniem jakiegokolwiek tekstu krok przetwarzania wstępnego konwertuje notację PGN na naturalną mowę:

Zapisane w PGN	Odczytane na głos
`Nf3`	”Knight f3”
`Bxe6+`	”Bishop takes e6, check”
`O-O-O`	”castles queenside”
`e8=Q#`	”e8 promotes to Queen, checkmate”
`Rae1`	”Rook a e1” (uściślenie)
`5.Qxd8+` (w komentarzach)	“5, Queen takes d8, check”
`en prise`	”on preez” (wymowa francuska)
`Ra8 is hanging`	”Rook on a8 is hanging”
`R vs R`	”Rook versus Rook”
`6...Bf5` (kropki numeru ruchu)	“6, Bishop f5” (naturalna pauza, bez „kropka”)

Komentarze są czyszczone przed odczytaniem: tagi [%eval], [%cal], [%csl] są usuwane. Początkowe słowa oceny, które duplikują symbol NAG, są usuwane (więc ?? {BLUNDER. The rook hangs} nie powoduje jąkania „Blunder. Blunder.”).

Buforowanie

Każda narracja jest buforowana w pamięci po pierwszym wygenerowaniu. Przechodzenie do tyłu i do przodu w partii odtwarza się natychmiast z bufora — bez wywołań API, bez opóźnień ponownego generowania. Możesz też wstępnie zbuforować całe drzewo partii w tle, aby podczas odtwarzania nie było żadnych przerw.

Bufor jest indeksowany kluczem provider:voiceId:lang:text, więc zmiana głosu lub dostawcy tworzy oddzielne wpisy. Zmiana szybkości odtwarzania nie unieważnia bufora — szybkość jest stosowana po stronie klienta na elemencie audio.

Przycisk Clear Audio Cache w Ustawieniach pozwala wymusić ponowne generowanie po edycji adnotacji.

Wskazówki dla najlepszego doświadczenia

Używaj automatycznej narracji. Włącz „Auto-Narrate on Move” i po prostu używaj klawiszy strzałek do przechodzenia przez partie. Komentarz pojawia się naturalnie wraz z ruchami, jakby trener stał za Twoim ramieniem.
Komentuj własne partie. TTS naprawdę błyszczy, gdy słuchasz komentarzy do swoich partii. Skomentuj swoje partie, a potem przechodź przez nie z narracją. Usłyszenie „Złapanie piona wygląda kusząco, ale cała królewska flanka jeszcze śpi” podczas wpatrywania się w pozycję — to zupełnie inne doznanie niż czytanie.
Wypróbuj różne prędkości. Niektórzy gracze preferują 1x do uważnej nauki, inni wolą 1,3x do szybszego przeglądu. Suwak prędkości zmienia odtwarzanie w czasie rzeczywistym bez zużywania dodatkowych znaków API.
Używaj ikony głośnika. Każdy komentarz na liście ruchów ma małą ikonę głośnika. Kliknij ją, aby usłyszeć tylko tę jedną adnotację.
Zmieniaj języki, aby uczyć się słownictwa szachowego. Jeśli uczysz się szachów w drugim języku, ustaw język TTS odpowiednio. Naturalnie przyswoisz terminy takie jak „Cavalier” (skoczek), „echec” (szach) i „mat” (mat), po prostu słuchając.

Pisanie adnotacji przyjaznych dla TTS

Te wskazówki pozwolą uzyskać najlepszą narrację głosową z Twoich adnotacji PGN.

SAN w komentarzach

Używaj standardowej notacji SAN. Preprocesor rozwija ją automatycznie:

"After 7.Nf3, White controls e5" staje się „After 7, Knight f3, White controls e5”
"The Bg5 pins the knight" staje się „The Bishop g5 pins the knight”

Symbole adnotacji

Glif NAG (!, ??, !? itd.) automatycznie generuje odczytywane słowa oceny. Nie duplikuj ich w komentarzu:

Źle: ?? {BLUNDER. A terrible move...} — TTS mówi „Blunder. Blunder. A terrible move”
Dobrze: ?? {A terrible move...} — TTS mówi „Blunder. A terrible move”

Kropki numeru ruchu

Standardowa notacja PGN działa: 6...Bf5. Preprocesor zamienia kropki na przecinki, tworząc naturalne pauzy zamiast „kropka kropka kropka”.

Kropki dla tempa wypowiedzi

Kropki tworzą naturalne pauzy TTS. Używaj ich między oddzielnymi ideami:

{Doubled isolated e-pawns. The f-file is ripped open. The position is strategically won.}

Strzałki i okręgi

Tagi [%cal ...] i [%csl ...] są automatycznie usuwane z audio. Używaj ich swobodnie do wizualnych adnotacji bez wpływu na narrację.

Licencjonowanie audio

Uwaga dotycząca redystrybucji dla osób budujących na bazie En Parlant~:

ElevenLabs — Zachowujesz wszystkie prawa do wygenerowanego audio (Warunki korzystania z ElevenLabs, sekcja c(ii)). Możesz je swobodnie redystrybuować.
Google Cloud — Zachowujesz wszystkie prawa własności intelektualnej do wygenerowanego audio. Brak ograniczeń.
KittenTTS, OpenTTS, Systemowy TTS — Brak ograniczeń redystrybucji wygenerowanego audio.

O tej funkcji

En Croissant to otwartoźródłowe narzędzie do nauki szachów stworzone przez Francisco Salgueiro. Francisco zbudował coś naprawdę wyjątkowego — darmową, potężną, wspieraną przez społeczność platformę do nauki szachów — i udostępnił ją na licencji GPL-3.0, aby każdy mógł z niej korzystać, ulepszać ją i dzielić się nią. Ta funkcja TTS istnieje dzięki tej hojności. Jesteśmy wdzięczni za fundament, który zbudował, i z dumą wnosimy swój wkład.

Wtyczka TTS została opracowana przez Darrell w Red Shed, przy pomocy Claude Code. Pięciu dostawców, obsługa wielu języków, przetłumaczone słownictwo szachowe w wielu językach, lokalna inferencja AI, zarządzanie zależnościami — zbudowane od podstaw, testowane ręcznie i wniesione z troską.

Na tym polega piękno otwartego oprogramowania. Ktoś buduje coś wspaniałego. Ktoś inny to rozwija. Wszyscy na tym korzystają.

Skontaktuj się z nami

Chętnie dowiemy się, jak TTS sprawdza się u Ciebie. Uwagi, sugestie i opinie są zawsze mile widziane.

Chcesz język, którego jeszcze nie obsługujemy? Daj nam znać — możemy szybko dodać nowe języki.
Znalazłeś błąd? Powiedz nam, a naprawimy go szybko.
Masz pomysł na innego dostawcę TTS? Chętnie go dodamy.
Chcesz po prostu powiedzieć, że działa? To też świetnie słyszeć.

Zgłoś problem na GitHub lub skontaktuj się bezpośrednio pod adresem darrell@redshed.ai.