इसे छोड़कर कंटेंट पर जाएं

TTS प्रदाताओं का अवलोकन

TTS आपके शतरंज अध्ययन का तरीका क्यों बदल देता है

Section titled “TTS आपके शतरंज अध्ययन का तरीका क्यों बदल देता है”

जब आप किसी टिप्पणी-युक्त (annotated) गेम की समीक्षा कर रहे होते हैं, तो आपकी आँखें दोहरा काम कर रही होती हैं। आप एक ही समय में बोर्ड पर मोहरों को फॉलो करने और कमेंट्री पढ़ने की कोशिश कर रहे होते हैं। आपकी नज़र बोर्ड और टिप्पणी पैनल के बीच इधर-उधर भटकती रहती है, और हर बार जब ऐसा होता है, आप एक पल के लिए स्थिति खो देते हैं। आपको फिर से मोहरे ढूँढने पड़ते हैं, फिर से लाइनें ट्रेस करनी पड़ती हैं, फिर से दिमाग में तस्वीर बनानी पड़ती है।

टेक्स्ट-टू-स्पीच इस समस्या को पूरी तरह हल कर देता है।

TTS चालू होने पर, आप गेम में कदम-दर-कदम आगे बढ़ते हैं और टिप्पणियाँ आपको बोलकर सुनाई जाती हैं। आपकी आँखें बोर्ड पर टिकी रहती हैं। आप देखते हैं कि घोड़ा f3 पर पहुँचा और एक आवाज़ आपको बताती है कि यह एक मज़बूत विकासात्मक चाल क्यों है। आप प्यादे की संरचना बदलते हुए देखते हैं जबकि कमेंट्री उसके पीछे की रणनीतिक सोच समझाती है। बोर्ड और शब्द एक साथ आते हैं, ठीक वैसे जैसे आपके सामने बैठा कोई कोच सिखाता।

यह विशेष रूप से इनके लिए शक्तिशाली है:

  • ओपनिंग अध्ययन — हर चाल के पीछे के विचार सुनें जबकि आप स्थिति विकसित होते देखें
  • गेम समीक्षा — अपने टिप्पणी-युक्त गेम में कदम-दर-कदम आगे बढ़ें और सबक स्वाभाविक रूप से ग्रहण करें
  • एंडगेम अभ्यास — महत्वपूर्ण खानों पर ध्यान केंद्रित रखें जबकि कमेंट्री आपका मार्गदर्शन करे
  • भाषा विसर्जन (Language Immersion) — शतरंज का अध्ययन फ्रेंच, जर्मन, स्पेनिश, रूसी, जापानी, चीनी या कोरियन में करें, जहाँ सभी शतरंज शब्द सही ढंग से अनुवादित होते हैं। “Knight f3, check” की जगह “Cavalier f3, echec” सुनें। उस भाषा में खेल सीखें जिसमें आप सोचते हैं।
  • सुगम्यता (Accessibility) — उन खिलाड़ियों के लिए जिन्हें पढ़ने से ज़्यादा सुनना आसान लगता है, या जो डेस्क से दूर रहकर अध्ययन करना चाहते हैं

एक बार इसे आज़माने के बाद, मूक टिप्पणियों पर लौटना म्यूट पर फ़िल्म देखने जैसा लगता है।

En Parlant~ पाँच TTS प्रदाताओं के साथ आता है, जो स्टूडियो-गुणवत्ता वाली आवाज़ों वाले क्लाउड API से लेकर पूरी तरह स्थानीय विकल्पों तक हैं जिन्हें इंटरनेट की बिल्कुल ज़रूरत नहीं। शुरू करने के लिए आपको सिर्फ़ एक की ज़रूरत है। नीचे इन्हें सर्वश्रेष्ठ से निम्न आवाज़ गुणवत्ता के क्रम में सूचीबद्ध किया गया है।

उपलब्ध सर्वश्रेष्ठ आवाज़ गुणवत्ता। ElevenLabs अभिव्यंजक, मानव-जैसी वाणी उत्पन्न करता है जिसमें वास्तविक व्यक्तित्व होता है — कुछ आवाज़ें ऑडियोबुक नैरेटर जैसी लगती हैं, कुछ ब्रॉडकास्टर जैसी। चुनने के लिए दर्जनों अनूठी आवाज़ें उपलब्ध हैं। 34+ भाषाओं का समर्थन करता है जिसमें उत्कृष्ट CJK (जापानी, चीनी, कोरियन) उच्चारण शामिल है, साथ ही अरबी, हिन्दी और सभी प्रमुख यूरोपीय भाषाएँ।

मुफ़्त टियर आपको प्रति माह 10,000 अक्षर देता है (2-5 टिप्पणी-युक्त गेम के लिए पर्याप्त)। सशुल्क योजनाएँ 30,000 अक्षरों के लिए $5/माह से शुरू होती हैं। सेटअप सरल है: अकाउंट बनाएँ, अपनी API key कॉपी करें, En Parlant~ में पेस्ट करें।

इंटरनेट आवश्यक है। आवाज़ गुणवत्ता के शौकीनों के लिए सर्वश्रेष्ठ।

ElevenLabs सेटअप गाइड

गुणवत्ता, भाषा समर्थन और मूल्य का सर्वोत्तम संतुलन। Google की WaveNet न्यूरल आवाज़ें 30+ भाषाओं में प्राकृतिक और स्पष्ट लगती हैं — जिसमें CJK, अरबी, हिन्दी, बंगाली, फिलिपिनो, वियतनामी और सभी प्रमुख यूरोपीय भाषाएँ शामिल हैं। मुफ़्त टियर उदार है — प्रति माह दस लाख अक्षर सैकड़ों टिप्पणी-युक्त गेम को कवर करते हैं।

सेटअप में लगभग 5 मिनट लगते हैं: Google Cloud अकाउंट बनाएँ, Text-to-Speech API सक्षम करें, API key जेनरेट करें। जब तक आप मुफ़्त टियर से अधिक नहीं जाते (शतरंज की टिप्पणियों के साथ ऐसा करना बहुत कठिन है) तब तक कोई शुल्क नहीं।

इंटरनेट आवश्यक है। अधिकांश उपयोगकर्ताओं के लिए सर्वश्रेष्ठ।

Google Cloud सेटअप गाइड

उच्च-गुणवत्ता वाला स्थानीय AI जो पूरी तरह आपकी मशीन पर चलता है। ~25MB के हल्के न्यूरल मॉडल का उपयोग करता है जिसमें 8 अभिव्यंजक आवाज़ें हैं (4 पुरुष, 4 महिला)। गुणवत्ता उल्लेखनीय रूप से अच्छी है — प्राकृतिक स्वर-भंगिमा, स्पष्ट उच्चारण, वास्तविक अभिव्यक्ति।

समझौता हार्डवेयर पर है: KittenTTS CPU इन्फ़रेंस के लिए PyTorch का उपयोग करता है, इसलिए एक आधुनिक मल्टी-कोर प्रोसेसर की ज़रूरत है। 8-कोर मशीन पर यह बढ़िया लगता है; पुराने लैपटॉप पर आपको देरी महसूस हो सकती है। फ़िलहाल केवल अंग्रेज़ी।

पहली बार जब कोई टिप्पणी बोली जाती है तो एक संक्षिप्त जेनरेशन विलंब होता है (तेज़ CPU पर 1-2 सेकंड, धीमे हार्डवेयर पर अधिक)। उसके बाद, ऑडियो मेमोरी में कैश हो जाता है और तुरंत रीप्ले होता है — जो चालें आप पहले सुन चुके हैं उनमें आगे-पीछे जाने में शून्य विलंब होता है। आप सेटिंग्स से बैकग्राउंड में पूरे गेम को प्रीकैश भी कर सकते हैं, ताकि अध्ययन शुरू करने से पहले हर टिप्पणी तैयार हो।

इंटरनेट की ज़रूरत नहीं। API keys की ज़रूरत नहीं। सर्वश्रेष्ठ स्थानीय गुणवत्ता।

KittenTTS सेटअप गाइड

एक ओपन-सोर्स TTS सर्वर जो Docker के माध्यम से आपकी मशीन पर चलता है। कुछ भी आपके कंप्यूटर से बाहर नहीं जाता। कई TTS इंजन (Larynx, Festival, eSpeak, Coqui-TTS) बंडल करता है, जो केवल अंग्रेज़ी के लिए 75+ आवाज़ें देता है।

समझौता आवाज़ गुणवत्ता पर है: ये पुराने न्यूरल और नियम-आधारित इंजन हैं, इसलिए आउटपुट ElevenLabs या Google की तुलना में अधिक यांत्रिक लगता है। यूरोपीय भाषाओं (अंग्रेज़ी, जर्मन, फ्रेंच, स्पेनिश, रूसी, डच, स्वीडिश, इतालवी और अन्य) के साथ सबसे अच्छा काम करता है — CJK समर्थित नहीं है। ईमानदारी से कहें तो, अगर आप स्थानीय मॉडल सेट करने की मेहनत करने जा रहे हैं, तो KittenTTS कम झंझट में बेहतर गुणवत्ता देता है। जब तक OpenTTS की महत्वपूर्ण माँग नहीं होती, हम संभवतः भविष्य के रिलीज़ में इसे हटा देंगे।

इंटरनेट की ज़रूरत नहीं। API keys की ज़रूरत नहीं। अधिकतम गोपनीयता के साथ कई आवाज़ विकल्पों के लिए सर्वश्रेष्ठ।

OpenTTS सेटअप गाइड

आपके ऑपरेटिंग सिस्टम का अंतर्निहित स्पीच सिंथेसिस। कुछ भी इंस्टॉल करने की ज़रूरत नहीं, कोई API keys नहीं, कोई सर्वर नहीं। चुनें और शुरू करें। आवाज़ की गुणवत्ता बुनियादी है — आपको OS-स्तरीय TTS का विशिष्ट यांत्रिक स्वर सुनाई देगा — लेकिन यह शून्य सेटअप के साथ तुरंत काम करता है।

Linux पर यह आमतौर पर eSpeak या speech-dispatcher होता है; macOS पर सिस्टम वॉइस; Windows पर SAPI। भाषा समर्थन पूरी तरह इस पर निर्भर करता है कि आपके ऑपरेटिंग सिस्टम में कौन से वॉइस पैक इंस्टॉल हैं।

इंटरनेट की ज़रूरत नहीं। त्वरित परीक्षण के लिए सर्वश्रेष्ठ।

System TTS सेटअप गाइड

प्रदाताप्रकारगुणवत्तासेटअपभाषाएँ
ElevenLabsCloud APIअसाधारणAPI key34+ (CJK सहित)
Google CloudCloud APIबहुत अच्छी (WaveNet)API key30+ (CJK सहित)
KittenTTSस्थानीय न्यूरल AIअच्छीPython + venvकेवल अंग्रेज़ी
OpenTTSस्थानीय DockerठीकDockerकेवल यूरोपीय
System (OS Native)OS अंतर्निहितबुनियादीकुछ नहींOS पर निर्भर

हार्डवेयर नोट: स्थानीय प्रदाता (KittenTTS और OpenTTS) आपके CPU पर न्यूरल इन्फ़रेंस चलाते हैं। बिना ध्यान देने योग्य विलंब के स्पीच जेनरेट करने के लिए इन्हें एक आधुनिक मल्टी-कोर प्रोसेसर (8+ कोर अनुशंसित) की आवश्यकता है। इसे ऐसे समझें जैसे अपनी मशीन पर एक और शतरंज इंजन चलाना। अगर आपकी मशीन पुरानी या कम शक्तिशाली है, तो इसके बजाय क्लाउड प्रदाताओं में से किसी एक का उपयोग करें।

अगर आप सबसे समृद्ध आवाज़ गुणवत्ता चाहते हैं तो ElevenLabs से शुरू करें — मुफ़्त टियर इसे आज़माने के लिए पर्याप्त है। गुणवत्ता और मुफ़्त उपयोग के सर्वोत्तम संतुलन के लिए, Google Cloud प्रति माह सैकड़ों गेम कवर करता है। बिना क्लाउड निर्भरता के उच्च-गुणवत्ता स्थानीय TTS के लिए, KittenTTS उत्कृष्ट है बशर्ते आपके पास आधुनिक CPU हो। शून्य-सेटअप परीक्षण के लिए, System TTS तुरंत काम करता है। कई आवाज़ विकल्पों के साथ अधिकतम गोपनीयता के लिए, OpenTTS Docker के माध्यम से सब कुछ स्थानीय रूप से चलाता है।

सेटिंग्स संदर्भ

Section titled “सेटिंग्स संदर्भ”

सभी TTS सेटिंग्स Settings > Sound में हैं:

सेटिंगयह क्या करती है
Text-to-Speechसभी TTS सुविधाओं के लिए मुख्य ऑन/ऑफ़ स्विच
Auto-Narrate on Moveजब आप चालों में आगे बढ़ते हैं तो टिप्पणियाँ स्वचालित रूप से बोलें
TTS Providerपाँच प्रदाताओं के बीच स्विच करें
TTS Voiceप्रदाता-विशिष्ट आवाज़ चयन
TTS Languageकथन की भाषा — शतरंज शब्द स्वचालित रूप से अनुवादित होते हैं
TTS Volumeकथन कितनी ज़ोर से बजे
TTS Speedप्लेबैक गति (0.5x से 2x) — ऑडियो पुनः जेनरेट किए बिना समायोजित होती है
ElevenLabs API Keyआपकी ElevenLabs API key (केवल ElevenLabs उपयोग करते समय दिखाई देती है)
Google Cloud API Keyआपकी Google Cloud API key (केवल Google उपयोग करते समय दिखाई देती है)
KittenTTS CPU Threadsइन्फ़रेंस के लिए CPU थ्रेड्स (0 = ऑटो / सभी कोर का उपयोग)
TTS Audio Cacheपुनः जेनरेशन के लिए कैश्ड ऑडियो साफ़ करें

TTS कथन पूरी तरह अनुवादित शतरंज शब्दावली के साथ कई भाषाओं का समर्थन करता है। यहाँ कुछ उदाहरण हैं:

भाषाशतरंज उदाहरण
EnglishKnight f3, check. A strong developing move.
FrancaisCavalier f3, echec. Un coup de developpement fort.
EspanolCaballo f3, jaque. Un fuerte movimiento.
DeutschSpringer f3, Schach. Ein starker Entwicklungszug.
日本語ナイト f3、チェック。強い展開の手。
РусскийКонь f3, шах. Сильный развивающий ход.
中文马 f3,将军。一步控制中心的强力出子。
한국어나이트 f3, 체크. 중앙을 지배하는 강력한 전개 수.

हर शतरंज शब्द — मोहरों के नाम, “check”, “checkmate”, “castles”, “takes”, चाल गुणवत्ता टिप्पणियाँ जैसे “Brilliant move” और “Blunder” — चयनित भाषा में बोला जाता है। आपकी PGN फ़ाइलों की टिप्पणियाँ जैसी लिखी हैं वैसी ही बोली जाती हैं, इसलिए अपने गेम उस भाषा में एनोटेट करें जिसमें आप सुनना चाहते हैं।

शतरंज-जागरूक टेक्स्ट प्रीप्रोसेसिंग

Section titled “शतरंज-जागरूक टेक्स्ट प्रीप्रोसेसिंग”

TTS इंजन सिर्फ़ कच्चा टेक्स्ट नहीं पढ़ता — यह शतरंज नोटेशन को समझता है। कोई भी टेक्स्ट बोला जाने से पहले, एक प्रीप्रोसेसिंग चरण PGN नोटेशन को प्राकृतिक वाणी में बदल देता है:

PGN में लिखा गयाज़ोर से बोला गया
Nf3”Knight f3”
Bxe6+”Bishop takes e6, check”
O-O-O”castles queenside”
e8=Q#”e8 promotes to Queen, checkmate”
Rae1”Rook a e1” (disambiguation)
5.Qxd8+ (टिप्पणियों में)“5, Queen takes d8, check”
en prise”on preez” (फ्रेंच उच्चारण)
Ra8 is hanging”Rook on a8 is hanging”
R vs R”Rook versus Rook”
6...Bf5 (चाल संख्या डॉट्स)“6, Bishop f5” (प्राकृतिक विराम, कोई “dot” नहीं)

बोलने से पहले टिप्पणियाँ साफ़ की जाती हैं: [%eval], [%cal], [%csl] टैग हटा दिए जाते हैं। NAG प्रतीक की नकल करने वाले अग्रणी गुणवत्ता शब्द हटा दिए जाते हैं (इसलिए ?? {BLUNDER. The rook hangs} “Blunder. Blunder.” नहीं दोहराता)।

पहली बार जेनरेशन के बाद हर कथन मेमोरी में कैश हो जाता है। किसी गेम में आगे-पीछे जाने पर कैश से तुरंत रीप्ले होता है — कोई API कॉल नहीं, कोई पुनः जेनरेशन विलंब नहीं। आप बैकग्राउंड में पूरे गेम ट्री को प्रीकैश भी कर सकते हैं ताकि प्लेबैक के दौरान शून्य विराम हो।

कैश provider:voiceId:lang:text द्वारा कुंजीबद्ध है, इसलिए आवाज़ या प्रदाता बदलने पर अलग कैश प्रविष्टियाँ बनती हैं। प्लेबैक गति बदलने से कैश अमान्य नहीं होता — गति ऑडियो एलिमेंट पर क्लाइंट-साइड लागू होती है।

Settings में एक Clear Audio Cache बटन है जो टिप्पणियाँ संपादित करने के बाद पुनः जेनरेशन के लिए बाध्य करता है।

सर्वोत्तम अनुभव के लिए सुझाव

Section titled “सर्वोत्तम अनुभव के लिए सुझाव”
  • Auto-Narrate का उपयोग करें। “Auto-Narrate on Move” चालू करें और बस अपने एरो कीज़ से गेम में आगे बढ़ें। जैसे-जैसे आप चलते हैं कमेंट्री स्वाभाविक रूप से आती है, जैसे आपके कंधे पर एक कोच हो।

  • अपने गेम एनोटेट करें। TTS तब सच में चमकता है जब आप अपने गेम पर कमेंट्री सुन रहे हों। अपने गेम एनोटेट करें, फिर कथन के साथ उनमें कदम-दर-कदम आगे बढ़ें। स्थिति को घूरते हुए “प्यादा हड़पना लुभावना लगता है, लेकिन आपका पूरा किंगसाइड अभी सोया हुआ है” सुनना पढ़ने से अलग प्रभाव डालता है।

  • अलग-अलग गति आज़माएँ। कुछ खिलाड़ी ध्यानपूर्वक अध्ययन के लिए 1x पसंद करते हैं, अन्य तेज़ समीक्षा के लिए 1.3x। स्पीड स्लाइडर अतिरिक्त API अक्षर उपयोग किए बिना रियल-टाइम में प्लेबैक समायोजित करता है।

  • स्पीकर आइकन का उपयोग करें। चाल सूची की हर टिप्पणी में एक छोटा स्पीकर आइकन होता है। केवल उस एक टिप्पणी को सुनने के लिए उस पर क्लिक करें।

  • शतरंज शब्दावली सीखने के लिए भाषा बदलें। अगर आप दूसरी भाषा में शतरंज का अध्ययन कर रहे हैं, तो TTS भाषा उसी के अनुसार सेट करें। आप स्वाभाविक रूप से “Cavalier” (Knight), “echec” (check), और “mat” (checkmate) जैसे शब्द सिर्फ़ सुनकर सीख जाएँगे।

TTS-अनुकूल टिप्पणियाँ लिखना

Section titled “TTS-अनुकूल टिप्पणियाँ लिखना”

ये दिशानिर्देश आपकी PGN टिप्पणियों से सर्वोत्तम बोला गया कथन उत्पन्न करते हैं।

टिप्पणियों में SAN

Section titled “टिप्पणियों में SAN”

मानक SAN नोटेशन का उपयोग करें। प्रीप्रोसेसर इसे स्वचालित रूप से विस्तारित करता है:

  • "After 7.Nf3, White controls e5" बन जाता है “After 7, Knight f3, White controls e5”
  • "The Bg5 pins the knight" बन जाता है “The Bishop g5 pins the knight”

NAG ग्लिफ़ (!, ??, !?, आदि) स्वचालित रूप से बोले जाने वाले गुणवत्ता शब्द उत्पन्न करता है। उन्हें टिप्पणी में दोहराएँ नहीं:

  • ख़राब: ?? {BLUNDER. A terrible move...} — TTS बोलता है “Blunder. Blunder. A terrible move”
  • अच्छा: ?? {A terrible move...} — TTS बोलता है “Blunder. A terrible move”

चाल संख्या डॉट्स

Section titled “चाल संख्या डॉट्स”

मानक PGN नोटेशन काम करता है: 6...Bf5। प्रीप्रोसेसर प्राकृतिक विराम के लिए डॉट्स को कॉमा में बदल देता है, “dot dot dot” की जगह।

गति के लिए पीरियड

Section titled “गति के लिए पीरियड”

पीरियड प्राकृतिक TTS विराम बनाते हैं। अलग-अलग विचारों के बीच इनका उपयोग करें:

{Doubled isolated e-pawns. The f-file is ripped open. The position is strategically won.}

[%cal ...] और [%csl ...] टैग ऑडियो से स्वचालित रूप से हटा दिए जाते हैं। कथन को प्रभावित किए बिना दृश्य टिप्पणियों के लिए इन्हें स्वतंत्र रूप से उपयोग करें।

ऑडियो लाइसेंसिंग

Section titled “ऑडियो लाइसेंसिंग”

En Parlant~ पर निर्माण करने वाले किसी भी व्यक्ति के लिए पुनर्वितरण पर एक नोट:

  • ElevenLabs — आप अपने जेनरेट किए गए ऑडियो पर सभी अधिकार रखते हैं (ElevenLabs Terms of Use, खंड c(ii))। आप इसे स्वतंत्र रूप से पुनर्वितरित कर सकते हैं।
  • Google Cloud — आप जेनरेट किए गए ऑडियो पर सभी IP अधिकार रखते हैं। कोई प्रतिबंध नहीं।
  • KittenTTS, OpenTTS, System TTS — जेनरेट किए गए ऑडियो पर कोई पुनर्वितरण प्रतिबंध नहीं।

इस सुविधा के बारे में

Section titled “इस सुविधा के बारे में”

En Croissant एक ओपन-सोर्स शतरंज अध्ययन उपकरण है जिसे Francisco Salgueiro ने बनाया है। Francisco ने वाकई कुछ ख़ास बनाया — शतरंज के अध्ययन के लिए एक मुफ़्त, शक्तिशाली, समुदाय-संचालित प्लेटफ़ॉर्म — और इसे GPL-3.0 लाइसेंस के तहत जारी किया ताकि कोई भी इसका उपयोग कर सके, इसमें सुधार कर सके, और इसे साझा कर सके। यह TTS सुविधा उनकी इसी उदारता की वजह से अस्तित्व में है। उन्होंने जो नींव रखी उसके लिए हम आभारी हैं, और इसमें वापस योगदान करने पर हमें गर्व है।

TTS प्लगइन Red Shed में Darrell द्वारा Claude Code की सहायता से विकसित किया गया। पाँच प्रदाता, बहु-भाषा समर्थन, कई भाषाओं में अनुवादित शतरंज शब्दावली, स्थानीय AI इन्फ़रेंस, डिपेंडेंसी प्रबंधन — सोर्स से बनाया, हाथ से परीक्षण किया, और सावधानी से योगदान दिया।

यही ओपन सोर्स की सुंदरता है। कोई कुछ बेहतरीन बनाता है। कोई और उसमें जोड़ता है। सबको फ़ायदा होता है।

हमें जानकर खुशी होगी कि TTS आपके लिए कैसा काम कर रहा है। टिप्पणियाँ, सुझाव और प्रतिक्रिया का हमेशा स्वागत है।

  • कोई ऐसी भाषा चाहिए जिसका हम अभी समर्थन नहीं करते? हमें बताएँ — हम जल्दी से नई भाषाएँ जोड़ सकते हैं।
  • कोई बग मिला? हमें बताएँ और हम इसे तुरंत ठीक करेंगे।
  • किसी और TTS प्रदाता का विचार है? हम खुशी से इसे जोड़ेंगे।
  • बस बताना चाहते हैं कि यह काम कर रहा है? यह सुनकर भी बहुत अच्छा लगता है।

GitHub पर इश्यू खोलें, या सीधे darrell@redshed.ai पर संपर्क करें।