Przegląd dostawców TTS
Dlaczego TTS zmienia sposób nauki szachów
Dział zatytułowany „Dlaczego TTS zmienia sposób nauki szachów”Kiedy przeglądasz skomentowaną partię, Twoje oczy muszą pracować podwójnie. Próbujesz jednocześnie śledzić figury na szachownicy i czytać komentarz. Wzrok skacze między szachownicą a panelem adnotacji, a za każdym razem, gdy to robi, na ułamek sekundy tracisz pozycję. Musisz ponownie odnaleźć figury, ponownie prześledzić warianty, ponownie odtworzyć obraz w głowie.
Synteza mowy (TTS) całkowicie to rozwiązuje.
Z włączonym TTS przechodzisz przez partię, a komentarze są odczytywane na głos. Twoje oczy pozostają na szachownicy. Obserwujesz, jak skoczek ląduje na f3, podczas gdy głos wyjaśnia, dlaczego to silny ruch rozwojowy. Widzisz zmianę struktury pionowej, podczas gdy komentarz tłumaczy strategiczną ideę, która za nią stoi. Szachownica i słowa docierają do Ciebie jednocześnie — tak jak uczyłby Cię trener siedzący naprzeciwko.
Jest to szczególnie przydatne przy:
- Nauce debiutów — słuchaj idei stojących za każdym ruchem, obserwując rozwój pozycji
- Przeglądaniu partii — przechodź przez własne skomentowane partie i przyswajaj lekcje w naturalny sposób
- Ćwiczeniu końcówek — utrzymuj skupienie na kluczowych polach, podczas gdy komentarz Cię prowadzi
- Immersji językowej — ucz się szachów po francusku, niemiecku, hiszpańsku, rosyjsku, japońsku, chińsku lub koreańsku z prawidłowo przetłumaczonymi terminami szachowymi. Usłysz „Cavalier f3, echec” zamiast „Knight f3, check”. Ucz się gry w języku, w którym myślisz.
- Dostępności — dla graczy, którym łatwiej słuchać niż czytać, lub którzy chcą się uczyć z dala od biurka
Gdy raz tego spróbujesz, powrót do cichych adnotacji będzie jak oglądanie filmu z wyciszonym dźwiękiem.
Wybór dostawcy
Dział zatytułowany „Wybór dostawcy”En Parlant~ jest dostarczany z pięcioma dostawcami TTS — od chmurowych API z głosami o studyjnej jakości po w pełni lokalne opcje niewymagające połączenia z internetem. Aby zacząć, potrzebujesz tylko jednego. Poniżej wymieniono je od najlepszej do najgorszej jakości głosu.
ElevenLabs
Dział zatytułowany „ElevenLabs”Najlepsza dostępna jakość głosu. ElevenLabs wytwarza ekspresyjną, ludzko brzmiącą mowę z prawdziwą osobowością — niektóre głosy brzmią jak narratorzy audiobooków, inne jak prezenterzy. Dziesiątki unikalnych głosów do wyboru. Obsługuje ponad 34 języki, w tym doskonałą wymowę CJK (japoński, chiński, koreański), a także arabski, hindi i wszystkie główne języki europejskie.
Darmowy plan oferuje 10 000 znaków miesięcznie (wystarczających na 2–5 skomentowanych partii). Płatne plany zaczynają się od 5 $/miesiąc za 30 000 znaków. Konfiguracja jest prosta: załóż konto, skopiuj klucz API i wklej go do En Parlant~.
Wymaga połączenia z internetem. Najlepszy dla entuzjastów jakości głosu.
Przewodnik konfiguracji ElevenLabs
Google Cloud TTS
Dział zatytułowany „Google Cloud TTS”Najlepsza równowaga między jakością, obsługą języków a ceną. Neuronowe głosy WaveNet od Google brzmią naturalnie i wyraźnie w ponad 30 językach — w tym CJK, arabski, hindi, bengalski, filipiński, wietnamski i wszystkie główne języki europejskie. Darmowy plan jest hojny — milion znaków miesięcznie wystarczy na setki skomentowanych partii.
Konfiguracja zajmuje około 5 minut: załóż konto Google Cloud, włącz Text-to-Speech API, wygeneruj klucz API. Brak opłat, chyba że przekroczysz darmowy limit (co przy komentarzach szachowych jest bardzo trudne).
Wymaga połączenia z internetem. Najlepszy dla większości użytkowników.
Przewodnik konfiguracji Google Cloud
KittenTTS
Dział zatytułowany „KittenTTS”Wysokiej jakości lokalna sztuczna inteligencja działająca w całości na Twoim komputerze. Wykorzystuje lekki model neuronowy o wielkości ~25 MB z 8 ekspresyjnymi głosami (4 męskie, 4 żeńskie). Jakość jest zadziwiająco dobra — naturalna intonacja, wyraźna wymowa, autentyczna ekspresja.
Kompromisem jest sprzęt: KittenTTS korzysta z PyTorch do inferencji na CPU, więc wymaga nowoczesnego procesora wielordzeniowego. Na 8-rdzeniowej maszynie brzmi świetnie; na starszym laptopie możesz zauważyć opóźnienia. Na razie tylko język angielski.
Przy pierwszym odczytaniu danej adnotacji występuje krótkie opóźnienie generowania (1–2 sekundy na szybkim CPU, dłużej na wolniejszym sprzęcie). Potem audio jest buforowane w pamięci i odtwarza się natychmiast — przechodzenie do tyłu i do przodu przez ruchy, które już słyszałeś, nie powoduje żadnego opóźnienia. Możesz też wstępnie zbuforować całe drzewo partii w tle z poziomu ustawień, dzięki czemu każda adnotacja jest gotowa, zanim zaczniesz naukę.
Nie wymaga internetu. Nie wymaga kluczy API. Najlepsza lokalna jakość.
Przewodnik konfiguracji KittenTTS
OpenTTS
Dział zatytułowany „OpenTTS”Otwartoźródłowy serwer TTS działający na Twojej maszynie za pośrednictwem Docker. Nic nie opuszcza Twojego komputera. Zawiera kilka silników TTS (Larynx, Festival, eSpeak, Coqui-TTS), oferując ponad 75 głosów tylko dla języka angielskiego.
Kompromisem jest jakość głosu: to starsze silniki neuronowe i oparte na regułach, więc wynik brzmi bardziej robotycznie niż ElevenLabs czy Google. Najlepiej sprawdza się z językami europejskimi (angielski, niemiecki, francuski, hiszpański, rosyjski, holenderski, szwedzki, włoski i inne) — CJK nie jest obsługiwany. Szczerze mówiąc, jeśli i tak zamierzasz poświęcić czas na konfigurację lokalnego modelu, KittenTTS zapewni Ci lepszą jakość przy mniejszym nakładzie pracy. O ile nie pojawi się znaczące zapotrzebowanie na OpenTTS, prawdopodobnie wycofamy go w przyszłej wersji.
Nie wymaga internetu. Nie wymaga kluczy API. Najlepszy dla maksymalnej prywatności z wieloma opcjami głosów.
Przewodnik konfiguracji OpenTTS
Systemowy TTS
Dział zatytułowany „Systemowy TTS”Wbudowana synteza mowy Twojego systemu operacyjnego. Nie trzeba niczego instalować, nie potrzeba kluczy API ani serwerów. Wybierz i gotowe. Jakość głosu jest podstawowa — usłyszysz charakterystyczny robotyczny ton TTS poziomu systemu operacyjnego — ale działa natychmiast bez żadnej konfiguracji.
Na Linuksie jest to zwykle eSpeak lub speech-dispatcher; na macOS — głos systemowy; na Windowsie — SAPI. Obsługa języków zależy wyłącznie od zainstalowanych pakietów głosowych w Twoim systemie operacyjnym.
Nie wymaga internetu. Najlepszy do szybkiego testowania.
Przewodnik konfiguracji systemowego TTS
Porównanie dostawców
Dział zatytułowany „Porównanie dostawców”| Dostawca | Typ | Jakość | Konfiguracja | Języki |
|---|---|---|---|---|
| ElevenLabs | Chmurowe API | Wyjątkowa | Klucz API | 34+ (w tym CJK) |
| Google Cloud | Chmurowe API | Bardzo dobra (WaveNet) | Klucz API | 30+ (w tym CJK) |
| KittenTTS | Lokalna neuronowa AI | Dobra | Python + venv | Tylko angielski |
| OpenTTS | Lokalny Docker | Przeciętna | Docker | Tylko europejskie |
| Systemowy (natywny OS) | Wbudowany w OS | Podstawowa | Brak | Zależna od OS |
Uwaga dotycząca sprzętu: Lokalni dostawcy (KittenTTS i OpenTTS) wykonują inferencję neuronową na Twoim CPU. Wymagają nowoczesnego procesora wielordzeniowego (zalecane 8+ rdzeni), aby generować mowę bez zauważalnych opóźnień. Pomyśl o tym jak o uruchomieniu jeszcze jednego silnika szachowego na Twojej maszynie. Jeśli Twój komputer jest starszy lub mało wydajny, skorzystaj z jednego z dostawców chmurowych.
Nasze zalecenie
Dział zatytułowany „Nasze zalecenie”Zacznij od ElevenLabs, jeśli zależy Ci na najbogatszej jakości głosu — darmowy plan wystarczy, aby to wypróbować. Dla najlepszej równowagi między jakością a darmowym użytkowaniem Google Cloud pokrywa setki partii miesięcznie. Dla wysokiej jakości lokalnego TTS bez zależności od chmury KittenTTS jest doskonały, jeśli masz nowoczesny CPU. Do testowania bez konfiguracji Systemowy TTS działa natychmiast. Dla maksymalnej prywatności z wieloma opcjami głosów OpenTTS uruchamia wszystko lokalnie za pośrednictwem Docker.
Opis ustawień
Dział zatytułowany „Opis ustawień”Wszystkie ustawienia TTS znajdują się w Ustawienia > Dźwięk:
| Ustawienie | Co robi |
|---|---|
| Text-to-Speech | Główny przełącznik włączania/wyłączania wszystkich funkcji TTS |
| Auto-Narrate on Move | Automatyczne odczytywanie adnotacji podczas przechodzenia między ruchami |
| TTS Provider | Przełączanie między pięcioma dostawcami |
| TTS Voice | Wybór głosu specyficzny dla danego dostawcy |
| TTS Language | Język narracji — terminy szachowe są tłumaczone automatycznie |
| TTS Volume | Głośność narracji |
| TTS Speed | Szybkość odtwarzania (0,5x do 2x) — zmiana bez ponownego generowania audio |
| ElevenLabs API Key | Twój klucz API ElevenLabs (widoczny tylko przy korzystaniu z ElevenLabs) |
| Google Cloud API Key | Twój klucz API Google Cloud (widoczny tylko przy korzystaniu z Google) |
| KittenTTS CPU Threads | Wątki CPU do inferencji (0 = auto / użyj wszystkich rdzeni) |
| TTS Audio Cache | Wyczyść bufor audio, aby wymusić ponowne generowanie |
Obsługiwane języki
Dział zatytułowany „Obsługiwane języki”Narracja TTS obsługuje wiele języków z w pełni przetłumaczonym słownictwem szachowym. Oto kilka przykładów:
| Język | Przykład szachowy |
|---|---|
| English | Knight f3, check. A strong developing move. |
| Francais | Cavalier f3, echec. Un coup de developpement fort. |
| Espanol | Caballo f3, jaque. Un fuerte movimiento. |
| Deutsch | Springer f3, Schach. Ein starker Entwicklungszug. |
| 日本語 | ナイト f3、チェック。強い展開の手。 |
| Русский | Конь f3, шах. Сильный развивающий ход. |
| 中文 | 马 f3,将军。一步控制中心的强力出子。 |
| 한국어 | 나이트 f3, 체크. 중앙을 지배하는 강력한 전개 수. |
Każdy termin szachowy — nazwy figur, „szach”, „mat”, „roszada”, „bije”, adnotacje jakości ruchów takie jak „Genialny ruch” i „Gruba pomyłka” — jest wymawiany w wybranym języku. Komentarze w Twoich plikach PGN są odczytywane tak, jak zostały napisane, więc komentuj swoje partie w języku, który chcesz słyszeć.
Przetwarzanie tekstu z uwzględnieniem notacji szachowej
Dział zatytułowany „Przetwarzanie tekstu z uwzględnieniem notacji szachowej”Silnik TTS nie odczytuje po prostu surowego tekstu — rozumie notację szachową. Przed odczytaniem jakiegokolwiek tekstu krok przetwarzania wstępnego konwertuje notację PGN na naturalną mowę:
| Zapisane w PGN | Odczytane na głos |
|---|---|
Nf3 | ”Knight f3” |
Bxe6+ | ”Bishop takes e6, check” |
O-O-O | ”castles queenside” |
e8=Q# | ”e8 promotes to Queen, checkmate” |
Rae1 | ”Rook a e1” (uściślenie) |
5.Qxd8+ (w komentarzach) | “5, Queen takes d8, check” |
en prise | ”on preez” (wymowa francuska) |
Ra8 is hanging | ”Rook on a8 is hanging” |
R vs R | ”Rook versus Rook” |
6...Bf5 (kropki numeru ruchu) | “6, Bishop f5” (naturalna pauza, bez „kropka”) |
Komentarze są czyszczone przed odczytaniem: tagi [%eval], [%cal], [%csl] są usuwane. Początkowe słowa oceny, które duplikują symbol NAG, są usuwane (więc ?? {BLUNDER. The rook hangs} nie powoduje jąkania „Blunder. Blunder.”).
Buforowanie
Dział zatytułowany „Buforowanie”Każda narracja jest buforowana w pamięci po pierwszym wygenerowaniu. Przechodzenie do tyłu i do przodu w partii odtwarza się natychmiast z bufora — bez wywołań API, bez opóźnień ponownego generowania. Możesz też wstępnie zbuforować całe drzewo partii w tle, aby podczas odtwarzania nie było żadnych przerw.
Bufor jest indeksowany kluczem provider:voiceId:lang:text, więc zmiana głosu lub dostawcy tworzy oddzielne wpisy. Zmiana szybkości odtwarzania nie unieważnia bufora — szybkość jest stosowana po stronie klienta na elemencie audio.
Przycisk Clear Audio Cache w Ustawieniach pozwala wymusić ponowne generowanie po edycji adnotacji.
Wskazówki dla najlepszego doświadczenia
Dział zatytułowany „Wskazówki dla najlepszego doświadczenia”-
Używaj automatycznej narracji. Włącz „Auto-Narrate on Move” i po prostu używaj klawiszy strzałek do przechodzenia przez partie. Komentarz pojawia się naturalnie wraz z ruchami, jakby trener stał za Twoim ramieniem.
-
Komentuj własne partie. TTS naprawdę błyszczy, gdy słuchasz komentarzy do swoich partii. Skomentuj swoje partie, a potem przechodź przez nie z narracją. Usłyszenie „Złapanie piona wygląda kusząco, ale cała królewska flanka jeszcze śpi” podczas wpatrywania się w pozycję — to zupełnie inne doznanie niż czytanie.
-
Wypróbuj różne prędkości. Niektórzy gracze preferują 1x do uważnej nauki, inni wolą 1,3x do szybszego przeglądu. Suwak prędkości zmienia odtwarzanie w czasie rzeczywistym bez zużywania dodatkowych znaków API.
-
Używaj ikony głośnika. Każdy komentarz na liście ruchów ma małą ikonę głośnika. Kliknij ją, aby usłyszeć tylko tę jedną adnotację.
-
Zmieniaj języki, aby uczyć się słownictwa szachowego. Jeśli uczysz się szachów w drugim języku, ustaw język TTS odpowiednio. Naturalnie przyswoisz terminy takie jak „Cavalier” (skoczek), „echec” (szach) i „mat” (mat), po prostu słuchając.
Pisanie adnotacji przyjaznych dla TTS
Dział zatytułowany „Pisanie adnotacji przyjaznych dla TTS”Te wskazówki pozwolą uzyskać najlepszą narrację głosową z Twoich adnotacji PGN.
SAN w komentarzach
Dział zatytułowany „SAN w komentarzach”Używaj standardowej notacji SAN. Preprocesor rozwija ją automatycznie:
"After 7.Nf3, White controls e5"staje się „After 7, Knight f3, White controls e5”"The Bg5 pins the knight"staje się „The Bishop g5 pins the knight”
Symbole adnotacji
Dział zatytułowany „Symbole adnotacji”Glif NAG (!, ??, !? itd.) automatycznie generuje odczytywane słowa oceny. Nie duplikuj ich w komentarzu:
- Źle:
?? {BLUNDER. A terrible move...}— TTS mówi „Blunder. Blunder. A terrible move” - Dobrze:
?? {A terrible move...}— TTS mówi „Blunder. A terrible move”
Kropki numeru ruchu
Dział zatytułowany „Kropki numeru ruchu”Standardowa notacja PGN działa: 6...Bf5. Preprocesor zamienia kropki na przecinki, tworząc naturalne pauzy zamiast „kropka kropka kropka”.
Kropki dla tempa wypowiedzi
Dział zatytułowany „Kropki dla tempa wypowiedzi”Kropki tworzą naturalne pauzy TTS. Używaj ich między oddzielnymi ideami:
{Doubled isolated e-pawns. The f-file is ripped open. The position is strategically won.}Strzałki i okręgi
Dział zatytułowany „Strzałki i okręgi”Tagi [%cal ...] i [%csl ...] są automatycznie usuwane z audio. Używaj ich swobodnie do wizualnych adnotacji bez wpływu na narrację.
Licencjonowanie audio
Dział zatytułowany „Licencjonowanie audio”Uwaga dotycząca redystrybucji dla osób budujących na bazie En Parlant~:
- ElevenLabs — Zachowujesz wszystkie prawa do wygenerowanego audio (Warunki korzystania z ElevenLabs, sekcja c(ii)). Możesz je swobodnie redystrybuować.
- Google Cloud — Zachowujesz wszystkie prawa własności intelektualnej do wygenerowanego audio. Brak ograniczeń.
- KittenTTS, OpenTTS, Systemowy TTS — Brak ograniczeń redystrybucji wygenerowanego audio.
O tej funkcji
Dział zatytułowany „O tej funkcji”En Croissant to otwartoźródłowe narzędzie do nauki szachów stworzone przez Francisco Salgueiro. Francisco zbudował coś naprawdę wyjątkowego — darmową, potężną, wspieraną przez społeczność platformę do nauki szachów — i udostępnił ją na licencji GPL-3.0, aby każdy mógł z niej korzystać, ulepszać ją i dzielić się nią. Ta funkcja TTS istnieje dzięki tej hojności. Jesteśmy wdzięczni za fundament, który zbudował, i z dumą wnosimy swój wkład.
Wtyczka TTS została opracowana przez Darrell w Red Shed, przy pomocy Claude Code. Pięciu dostawców, obsługa wielu języków, przetłumaczone słownictwo szachowe w wielu językach, lokalna inferencja AI, zarządzanie zależnościami — zbudowane od podstaw, testowane ręcznie i wniesione z troską.
Na tym polega piękno otwartego oprogramowania. Ktoś buduje coś wspaniałego. Ktoś inny to rozwija. Wszyscy na tym korzystają.
Skontaktuj się z nami
Dział zatytułowany „Skontaktuj się z nami”Chętnie dowiemy się, jak TTS sprawdza się u Ciebie. Uwagi, sugestie i opinie są zawsze mile widziane.
- Chcesz język, którego jeszcze nie obsługujemy? Daj nam znać — możemy szybko dodać nowe języki.
- Znalazłeś błąd? Powiedz nam, a naprawimy go szybko.
- Masz pomysł na innego dostawcę TTS? Chętnie go dodamy.
- Chcesz po prostu powiedzieć, że działa? To też świetnie słyszeć.
Zgłoś problem na GitHub lub skontaktuj się bezpośrednio pod adresem darrell@redshed.ai.