Агляд правайдараў TTS
Чаму TTS змяняе падыход да вывучэння шахмат
Section titled “Чаму TTS змяняе падыход да вывучэння шахмат”Калі вы аналізуеце каменціраваную партыю, вашы вочы выконваюць падвойную працу. Вы спрабуеце сачыць за фігурамі на дошцы і адначасова чытаць каментары. Ваш погляд скача паміж дошкай і панэллю анатацый, і кожны раз, калі гэта адбываецца, вы на долю секунды губляеце пазіцыю. Вам даводзіцца зноў знаходзіць фігуры, зноў прасочваць варыянты, зноў будаваць карціну ў галаве.
Сінтэз маўлення цалкам вырашае гэтую праблему.
З уключаным TTS вы перагортваеце партыю, і анатацыі агучваюцца для вас. Вашы вочы застаюцца на дошцы. Вы бачыце, як конь трапляе на f3, пакуль голас тлумачыць, чаму гэта моцны развіваючы ход. Вы назіраеце, як мяняецца пешачная структура, пакуль каментар растлумачвае стратэгічную ідэю за гэтым. Дошка і словы прыходзяць разам — так, як вучыў бы трэнер, які сядзіць насупраць вас.
Гэта асабліва карысна для:
- Вывучэння дэбютаў — слухайце ідэі за кожным ходам, назіраючы за развіццём пазіцыі
- Аналізу партый — прагортвайце свае каменціраваныя партыі і засвойвайце ўрокі натуральным чынам
- Практыкі ў эндшпілі — трымайце фокус на ключавых палях, пакуль каментар накіроўвае вас
- Моўнага паглыблення — вывучайце шахматы на французскай, нямецкай, іспанскай, рускай, японскай, кітайскай або карэйскай мове з правільна перакладзенай шахматнай тэрміналогіяй. Чуйце «Cavalier f3, echec» замест «Knight f3, check». Вучыце гульню на той мове, на якой думаеце.
- Даступнасці — для гульцоў, якім прасцей слухаць, чым чытаць, або якія хочуць вучыцца ўдалечыні ад стала
Калі вы паспрабуеце гэта, вяртанне да бязгучных анатацый здасца праглядам кіно без гуку.
Выбар правайдара
Section titled “Выбар правайдара”En Parlant~ пастаўляецца з пяццю правайдарамі TTS — ад хмарных API са студыйнай якасцю галасоў да цалкам лакальных варыянтаў, якім наогул не патрэбны інтэрнэт. Каб пачаць, дастаткова аднаго. Яны пералічаны ніжэй ад лепшай да горшай якасці голасу.
ElevenLabs
Section titled “ElevenLabs”Найлепшая даступная якасць голасу. ElevenLabs стварае выразнае, падобнае да чалавечага маўленне з сапраўдным характарам — некаторыя галасы гучаць як дыктары аўдыякніг, іншыя як вядучыя. Дзясяткі ўнікальных галасоў на выбар. Падтрымлівае 34+ моў, у тым ліку выдатнае вымаўленне CJK (японская, кітайская, карэйская), а таксама арабскую, хіндзі і ўсе асноўныя еўрапейскія мовы.
Бясплатны тарыф дае 10 000 сімвалаў на месяц (дастаткова для 2–5 каменціраваных партый). Платныя планы пачынаюцца ад $5/месяц за 30 000 сімвалаў. Наладка простая: стварыце акаўнт, скапіруйце API-ключ, устаўце яго ў En Parlant~.
Патрабуе інтэрнэту. Лепшы для цанільнікаў якасці голасу.
Інструкцыя па наладцы ElevenLabs
Google Cloud TTS
Section titled “Google Cloud TTS”Лепшы баланс якасці, моўнай падтрымкі і кошту. Нейронныя галасы Google WaveNet гучаць натуральна і выразна на 30+ мовах — уключаючы CJK, арабскую, хіндзі, бенгальскую, філіпінскую, в’етнамскую і ўсе асноўныя еўрапейскія мовы. Бясплатны тарыф шчодры — адзін мільён сімвалаў на месяц пакрывае сотні каменціраваных партый.
Наладка займае каля 5 хвілін: стварыце акаўнт Google Cloud, уключыце Text-to-Speech API, згенеруйце API-ключ. Ніякіх спаганняў, пакуль вы не перавысіце бясплатны тарыф (з шахматнымі анатацыямі гэта зрабіць вельмі цяжка).
Патрабуе інтэрнэту. Лепшы для большасці карыстальнікаў.
Інструкцыя па наладцы Google Cloud
KittenTTS
Section titled “KittenTTS”Высакаякасны лакальны ШІ, які працуе цалкам на вашай машыне. Выкарыстоўвае лёгкую нейронную мадэль ~25 МБ з 8 выразнымі галасамі (4 мужчынскія, 4 жаночыя). Якасць надзіва добрая — натуральная інтанацыя, выразнае вымаўленне, сапраўдная экспрэсіўнасць.
Кампраміс — апаратнае забеспячэнне: KittenTTS выкарыстоўвае PyTorch для CPU-інферэнсу, таму патрабуе сучасны шматядзерны працэсар. На 8-ядзернай машыне ўсё гучыць выдатна; на старэйшым наўтбуку можна заўважыць затрымку. Пакуль толькі англійская мова.
Пры першым агучванні кожнай анатацыі ёсць кароткая затрымка генерацыі (1–2 секунды на хуткім CPU, больш на павольным абсталяванні). Пасля гэтага аўдыё кэшуецца ў памяці і прайграваецца імгненна — перагортванне ўперад і назад па ходах, якія вы ўжо чулі, не мае ніякай затрымкі. Вы таксама можаце загадзя закэшаваць усю партыю ў фоне з налад, каб кожная анатацыя была гатовая да пачатку вывучэння.
Інтэрнэт не патрэбны. API-ключы не патрэбныя. Лепшая лакальная якасць.
Інструкцыя па наладцы KittenTTS
OpenTTS
Section titled “OpenTTS”Сервер TTS з адкрытым зыходным кодам, які працуе на вашай машыне праз Docker. Нічога не пакідае ваш камп’ютар. Уключае некалькі рухавікоў TTS (Larynx, Festival, eSpeak, Coqui-TTS), што дае 75+ галасоў толькі для англійскай мовы.
Кампраміс — якасць голасу: гэта старэйшыя нейронныя і правілавыя рухавікі, таму вынік гучыць больш робатызавана, чым ElevenLabs або Google. Лепш за ўсё працуе з еўрапейскімі мовамі (англійская, нямецкая, французская, іспанская, руская, нідэрландская, шведская, італьянская і іншыя) — CJK не падтрымліваецца. Шчыра кажучы, калі вы гатовыя прайсці праз працэс наладкі лакальнай мадэлі, KittenTTS дае лепшую якасць з меншым клопатам. Калі не будзе значнага попыту на OpenTTS, мы, верагодна, спынім яго падтрымку ў будучай версіі.
Інтэрнэт не патрэбны. API-ключы не патрэбныя. Лепшы для максімальнай прыватнасці з мноствам галасоў.
Сістэмны TTS
Section titled “Сістэмны TTS”Убудаваны сінтэз маўлення вашай аперацыйнай сістэмы. Нічога ўсталёўваць не трэба, ніякіх API-ключоў, ніякіх сервераў. Абярыце і карыстайцеся. Якасць голасу базавая — вы пачуеце характэрны робатызаваны тон сістэмнага TTS — але ўсё працуе імгненна без ніякай наладкі.
На Linux гэта звычайна eSpeak або speech-dispatcher; на macOS — сістэмны голас; на Windows — SAPI. Моўная падтрымка цалкам залежыць ад таго, якія галасавыя пакеты ўсталяваны ў вашай аперацыйнай сістэме.
Інтэрнэт не патрэбны. Лепшы для хуткага тэсціравання.
Інструкцыя па наладцы сістэмнага TTS
Параўнанне правайдараў
Section titled “Параўнанне правайдараў”| Правайдар | Тып | Якасць | Наладка | Мовы |
|---|---|---|---|---|
| ElevenLabs | Хмарны API | Выключная | API-ключ | 34+ (уключ. CJK) |
| Google Cloud | Хмарны API | Вельмі добрая (WaveNet) | API-ключ | 30+ (уключ. CJK) |
| KittenTTS | Лакальны нейронны ШІ | Добрая | Python + venv | Толькі англійская |
| OpenTTS | Лакальны Docker | Задавальняючая | Docker | Толькі еўрапейскія |
| Сістэмны (OS Native) | Убудаваны ў АС | Базавая | Не патрэбна | Залежыць ад АС |
Заўвага пра абсталяванне: Лакальныя правайдары (KittenTTS і OpenTTS) выконваюць нейронны інферэнс на вашым CPU. Ім патрэбны сучасны шматядзерны працэсар (рэкамендуецца 8+ ядзер) для генерацыі маўлення без прыкметнай затрымкі. Уявіце гэта як запуск яшчэ аднаго шахматнага рухавіка на вашай машыне. Калі ваша машына старэйшая або маламагутная, выкарыстоўвайце адзін з хмарных правайдараў.
Наша рэкамендацыя
Section titled “Наша рэкамендацыя”Пачніце з ElevenLabs, калі хочаце найбагацейшую якасць голасу — бясплатнага тарыфу дастаткова, каб паспрабаваць. Для лепшага балансу якасці і бясплатнага выкарыстання Google Cloud пакрывае сотні партый на месяц. Для высакаякаснага лакальнага TTS без залежнасці ад воблака KittenTTS — выдатны выбар, калі ў вас сучасны CPU. Для тэсціравання без ніякай наладкі сістэмны TTS працуе імгненна. Для максімальнай прыватнасці з мноствам галасоў OpenTTS запускае ўсё лакальна праз Docker.
Даведка па наладах
Section titled “Даведка па наладах”Усе налады TTS знаходзяцца ў Settings > Sound:
| Налада | Што робіць |
|---|---|
| Text-to-Speech | Галоўны пераключальнік уключэння/выключэння ўсіх функцый TTS |
| Auto-Narrate on Move | Аўтаматычна агучваць анатацыі пры перагортванні ходаў |
| TTS Provider | Пераключэнне паміж пяццю правайдарамі |
| TTS Voice | Выбар голасу для канкрэтнага правайдара |
| TTS Language | Мова агучвання — шахматныя тэрміны перакладаюцца аўтаматычна |
| TTS Volume | Гучнасць агучвання |
| TTS Speed | Хуткасць прайгравання (0.5x да 2x) — рэгулюецца без паўторнай генерацыі аўдыё |
| ElevenLabs API Key | Ваш API-ключ ElevenLabs (паказваецца толькі пры выкарыстанні ElevenLabs) |
| Google Cloud API Key | Ваш API-ключ Google Cloud (паказваецца толькі пры выкарыстанні Google) |
| KittenTTS CPU Threads | Колькасць патокаў CPU для інферэнсу (0 = аўта / выкарыстоўваць усе ядры) |
| TTS Audio Cache | Ачыстка кэшу аўдыё для прымусовай паўторнай генерацыі |
Падтрымліваемыя мовы
Section titled “Падтрымліваемыя мовы”Агучванне TTS падтрымлівае шмат моў з цалкам перакладзеным шахматным слоўнікам. Вось некаторыя прыклады:
| Мова | Шахматны прыклад |
|---|---|
| English | Knight f3, check. A strong developing move. |
| Francais | Cavalier f3, echec. Un coup de developpement fort. |
| Espanol | Caballo f3, jaque. Un fuerte movimiento. |
| Deutsch | Springer f3, Schach. Ein starker Entwicklungszug. |
| 日本語 | ナイト f3、チェック。強い展開の手。 |
| Русский | Конь f3, шах. Сильный развивающий ход. |
| 中文 | 马 f3,将军。一步控制中心的强力出子。 |
| 한국어 | 나이트 f3, 체크. 중앙을 지배하는 강력한 전개 수. |
Кожны шахматны тэрмін — назвы фігур, «шах», «мат», «ракіроўка», «б’е», анатацыі якасці хода, такія як «Бліскучы ход» і «Грубая памылка» — агучваецца на абранай мове. Каментары ў вашых PGN-файлах агучваюцца як ёсць, таму каменціруйце свае партыі на той мове, якую хочаце чуць.
Шахматна-свядомая прэпрацэсінг тэксту
Section titled “Шахматна-свядомая прэпрацэсінг тэксту”Рухавік TTS не проста чытае неапрацаваны тэкст — ён разумее шахматную натацыю. Перш чым любы тэкст будзе агучаны, этап прэпрацэсінгу пераўтворыць PGN-натацыю ў натуральнае маўленне:
| Запісана ў PGN | Агучваецца |
|---|---|
Nf3 | ”Knight f3” |
Bxe6+ | ”Bishop takes e6, check” |
O-O-O | ”castles queenside” |
e8=Q# | ”e8 promotes to Queen, checkmate” |
Rae1 | ”Rook a e1” (disambiguation) |
5.Qxd8+ (у каментарах) | “5, Queen takes d8, check” |
en prise | ”on preez” (French pronunciation) |
Ra8 is hanging | ”Rook on a8 is hanging” |
R vs R | ”Rook versus Rook” |
6...Bf5 (кропкі нумара хода) | “6, Bishop f5” (натуральная паўза, без “dot”) |
Каментары ачышчаюцца перад агучваннем: тэгі [%eval], [%cal], [%csl] выдаляюцца. Пачатковыя словы якасці, якія дублююць сімвал NAG, выдаляюцца (таму ?? {BLUNDER. The rook hangs} не заікаецца “Blunder. Blunder.”).
Кэшаванне
Section titled “Кэшаванне”Кожнае агучванне кэшуецца ў памяці пасля першай генерацыі. Перагортванне партыі ўперад і назад імгненна прайграваецца з кэшу — ніякіх API-выклікаў, ніякай затрымкі паўторнай генерацыі. Вы таксама можаце загадзя закэшаваць увесь дрэва партыі ў фоне, каб пры прайграванні не было ніякіх паўз.
Кэш індэксуецца па provider:voiceId:lang:text, таму змена голасу або правайдара стварае асобныя запісы ў кэшы. Змена хуткасці прайгравання не інвалідуе кэш — хуткасць прымяняецца на баку кліента да аўдыёэлемента.
Кнопка Clear Audio Cache у наладах дазваляе прымусова перагенераваць аўдыё пасля рэдагавання анатацый.
Парады для лепшага досведу
Section titled “Парады для лепшага досведу”-
Выкарыстоўвайце аўтаагучванне. Уключыце «Auto-Narrate on Move» і проста выкарыстоўвайце клавішы са стрэлкамі для перагортвання партый. Каментары з’яўляюцца натуральна пры кожным ходзе — нібы трэнер стаіць за вашым плячом.
-
Каменціруйце ўласныя партыі. TTS сапраўды раскрываецца, калі вы слухаеце каментары да вашых партый. Каменціруйце свае партыі, а потым прагортвайце іх з агучваннем. Чуць «Захоп пешкі выглядае спакусліва, але ўвесь ваш каралеўскі фланг яшчэ спіць», гледзячы на пазіцыю — гэта зусім іншае, чым чытаць тое ж самае.
-
Паспрабуйце розныя хуткасці. Некаторыя гульцы аддаюць перавагу 1x для ўважлівага вывучэння, іншыя — 1.3x для хутчэйшага агляду. Паўзунок хуткасці рэгулюе прайграванне ў рэальным часе без выкарыстання дадатковых сімвалаў API.
-
Выкарыстоўвайце значок дынаміка. Кожны каментар у спісе ходаў мае маленькі значок дынаміка. Націсніце на яго, каб пачуць менавіта гэту анатацыю.
-
Пераключайце мовы для вывучэння шахматнай лексікі. Калі вы вывучаеце шахматы на другой мове, усталюйце мову TTS адпаведна. Вы натуральным чынам засвоіце тэрміны накшталт «Cavalier» (конь), «echec» (шах) і «mat» (мат), проста слухаючы.
Напісанне анатацый, прыязных да TTS
Section titled “Напісанне анатацый, прыязных да TTS”Гэтыя рэкамендацыі забяспечваюць лепшае агучванне вашых PGN-анатацый.
SAN у каментарах
Section titled “SAN у каментарах”Выкарыстоўвайце стандартную SAN-натацыю. Прэпрацэсар разгортвае яе аўтаматычна:
"After 7.Nf3, White controls e5"становіцца “After 7, Knight f3, White controls e5”"The Bg5 pins the knight"становіцца “The Bishop g5 pins the knight”
Сімвалы анатацый
Section titled “Сімвалы анатацый”Гліф NAG (!, ??, !? і г.д.) аўтаматычна генеруе агучаныя словы якасці. Не дублюйце іх у каментары:
- Дрэнна:
?? {BLUNDER. A terrible move...}— TTS кажа “Blunder. Blunder. A terrible move” - Добра:
?? {A terrible move...}— TTS кажа “Blunder. A terrible move”
Кропкі нумара хода
Section titled “Кропкі нумара хода”Стандартная PGN-натацыя працуе: 6...Bf5. Прэпрацэсар пераўтворыць кропкі ў коскі для натуральных паўз замест «dot dot dot».
Кропкі для рытму
Section titled “Кропкі для рытму”Кропкі ствараюць натуральныя паўзы ў TTS. Выкарыстоўвайце іх паміж асобнымі ідэямі:
{Doubled isolated e-pawns. The f-file is ripped open. The position is strategically won.}Стрэлкі і кругі
Section titled “Стрэлкі і кругі”Тэгі [%cal ...] і [%csl ...] аўтаматычна выдаляюцца з аўдыё. Свабодна выкарыстоўвайце іх для візуальных анатацый — на агучванне яны не ўплываюць.
Ліцэнзаванне аўдыё
Section titled “Ліцэнзаванне аўдыё”Заўвага аб перараспаўсюджанні для тых, хто стварае на аснове En Parlant~:
- ElevenLabs — вы захоўваеце ўсе правы на згенераванае аўдыё (ElevenLabs Terms of Use, раздзел c(ii)). Вы можаце свабодна перараспаўсюджваць яго.
- Google Cloud — вы захоўваеце ўсе правы інтэлектуальнай уласнасці на згенераванае аўдыё. Без абмежаванняў.
- KittenTTS, OpenTTS, сістэмны TTS — без абмежаванняў на перараспаўсюджанне згенераванага аўдыё.
Пра гэту функцыю
Section titled “Пра гэту функцыю”En Croissant — гэта інструмент для вывучэння шахмат з адкрытым зыходным кодам, створаны Francisco Salgueiro. Francisco стварыў нешта сапраўды асаблівае — бясплатную, магутную, кіраваную супольнасцю платформу для вывучэння шахмат — і выпусціў яе пад ліцэнзіяй GPL-3.0, каб кожны мог яе выкарыстоўваць, удасканальваць і дзяліцца ёю. Гэтая функцыя TTS існуе дзякуючы гэтай шчодрасці. Мы ўдзячныя за закладзены ім фундамент і ганарымся магчымасцю ўнесці свой уклад.
Плагін TTS быў распрацаваны Darrell з Red Shed з дапамогай Claude Code. Пяць правайдараў, шматмоўная падтрымка, перакладзеная шахматная лексіка на шматлікіх мовах, лакальны ШІ-інферэнс, кіраванне залежнасцямі — сабрана з зыходнікаў, пратэставана ўручную і ўкладзена з клопатам.
У гэтым прыгажосць адкрытага зыходнага коду. Хтосьці стварае нешта выдатнае. Хтосьці іншы дадае да гэтага. Выйграюць усе.
Звяжыцеся з намі
Section titled “Звяжыцеся з намі”Мы будзем рады пачуць, як TTS працуе для вас. Каментары, прапановы і водгукі заўсёды вітаюцца.
- Хочаце мову, якую мы яшчэ не падтрымліваем? Дайце нам ведаць — мы можам хутка дадаць новыя мовы.
- Знайшлі памылку? Скажыце нам, і мы хутка яе выправім.
- Ёсць ідэя для іншага правайдара TTS? Мы з задавальненнем дадамо яго.
- Проста хочаце сказаць, што ўсё працуе? Гэта таксама прыемна чуць.
Адкрыйце issue на GitHub або напішыце напрамую на darrell@redshed.ai.