KittenTTS सेटअप
वापस जाएँ TTS प्रदाता अवलोकन पर
KittenTTS आपकी मशीन पर सीधे एक न्यूरल TTS मॉडल चलाता है। कोई क्लाउड नहीं, कोई API कुंजी नहीं, कोई डेटा आपके कंप्यूटर से बाहर नहीं जाता — और आवाज़ की गुणवत्ता वास्तव में अच्छी है। सेटअप में लगभग 5 मिनट लगते हैं। फिलहाल केवल अंग्रेज़ी।
हार्डवेयर आवश्यकताएँ
Section titled “हार्डवेयर आवश्यकताएँ”KittenTTS आपके CPU पर न्यूरल नेटवर्क इंफ़रेंस के लिए PyTorch का उपयोग करता है। इसका मतलब है कि इसे वास्तविक कंप्यूटिंग शक्ति की आवश्यकता है:
| हार्डवेयर | अनुभव |
|---|---|
| 8+ कोर, आधुनिक CPU (Ryzen 7, i7, Xeon) | उत्कृष्ट। स्पीच तेज़ी से जनरेट होती है, अन्य कार्यों पर न्यूनतम प्रभाव |
| 4-6 कोर (Ryzen 5, i5) | अच्छा। जनरेशन के दौरान ध्यान देने योग्य CPU उपयोग, लेकिन पूरी तरह से उपयोग करने लायक |
| 2 कोर / पुराना CPU | धीमा। प्रत्येक उच्चारण के लिए जनरेशन में कई सेकंड लग सकते हैं। इसके बजाय Google Cloud पर विचार करें |
CPU उपयोग अस्थायी है — KittenTTS केवल स्पीच जनरेट करते समय CPU का उपयोग करता है (आमतौर पर प्रति उच्चारण 1-2 सेकंड)। उच्चारणों के बीच, CPU उपयोग लगभग शून्य हो जाता है।
थ्रेड प्रबंधन
Section titled “थ्रेड प्रबंधन”डिफ़ॉल्ट रूप से, KittenTTS अधिकतम गति के लिए सभी उपलब्ध CPU कोर का उपयोग करता है। यदि आप एक शतरंज इंजन (जैसे Stockfish) भी चला रहे हैं, तो आप KittenTTS द्वारा उपयोग किए जाने वाले थ्रेड्स को सीमित करना चाह सकते हैं।
Settings > Sound > KittenTTS CPU Threads में, थ्रेड उपयोग को सीमित करने के लिए एक मान सेट करें। स्वचालित (सभी कोर उपयोग करें) के लिए 0 सेट करें। शतरंज इंजन के साथ साझा उपयोग के लिए एक अच्छा प्रारंभिक बिंदु आपके कोर काउंट का आधा है।
सुझाव: KittenTTS और Stockfish दोनों CPU कोर चाहते हैं। यदि आप पूरी गहराई पर विश्लेषण कर रहे हैं जबकि KittenTTS स्पीच जनरेट कर रहा है, तो दोनों CPU समय के लिए प्रतिस्पर्धा करेंगे। 8+ कोर वाली मशीन पर, आपको शायद ही कभी फ़र्क महसूस होगा। 4 कोर पर, KittenTTS को 2 थ्रेड दें और बाकी इंजन के लिए छोड़ दें।
चरण 1: डिपेंडेंसी इंस्टॉल करें
Section titled “चरण 1: डिपेंडेंसी इंस्टॉल करें”KittenTTS के लिए Python 3.10+ और कुछ Python पैकेज आवश्यक हैं। इनमें से कोई एक तरीका चुनें:
विकल्प A: इन-ऐप सेटअप विज़ार्ड (अनुशंसित)
Section titled “विकल्प A: इन-ऐप सेटअप विज़ार्ड (अनुशंसित)”- En Parlant~ खोलें और Settings > Sound पर जाएँ
- TTS Provider को KittenTTS (English Only) पर सेट करें
- यदि डिपेंडेंसी गायब हैं, तो एक पीला “Setup Guide” अलर्ट दिखाई देगा
- सेटअप विज़ार्ड खोलने के लिए अलर्ट पर क्लिक करें
- विज़ार्ड स्वचालित इंस्टॉलेशन के लिए “Fix” बटनों के साथ प्रत्येक चरण में आपका मार्गदर्शन करता है
विकल्प B: टर्मिनल सेटअप स्क्रिप्ट
Section titled “विकल्प B: टर्मिनल सेटअप स्क्रिप्ट”cd /path/to/en-parlant./scripts/setup-tts.sh --kittenttsयह एक Python वर्चुअल एनवायरनमेंट बनाता है और आवश्यक पैकेज (kittentts, flask, soundfile, numpy) इंस्टॉल करता है। nano मॉडल (~25MB) पहली बार चलाने पर HuggingFace से डाउनलोड होता है।
विकल्प C: मैनुअल सेटअप
Section titled “विकल्प C: मैनुअल सेटअप”cd /path/to/en-parlant/scriptspython3 -m venv .venv.venv/bin/pip install kittentts flask soundfile numpyचरण 2: En Parlant~ कॉन्फ़िगर करें
Section titled “चरण 2: En Parlant~ कॉन्फ़िगर करें”- En Parlant~ खोलें और Settings (गियर आइकन) > Sound टैब पर जाएँ
- TTS Provider को KittenTTS (English Only) पर सेट करें
- जब आप इस प्रदाता को चुनते हैं तो सर्वर स्वचालित रूप से शुरू हो जाता है
- मॉडल लोड होने के लिए कुछ सेकंड प्रतीक्षा करें (पहली बार चलाने पर HuggingFace से डाउनलोड होता है)
- एक आवाज़ चुनें — 8 विकल्प उपलब्ध हैं (4 पुरुष, 4 महिला)
- वॉइस सेलेक्टर के बगल में Test बटन पर क्लिक करें
आपको प्राकृतिक, अभिव्यंजक AI स्पीच के साथ एक शतरंज चाल बोली हुई सुनाई देनी चाहिए।
समस्या निवारण
Section titled “समस्या निवारण”- “Server not responding” त्रुटि? KittenTTS सर्वर शायद शुरू नहीं हुआ है। Settings में सेटअप विज़ार्ड जाँचें — यह डिपेंडेंसी स्थिति दिखाता है और गायब पैकेजों को स्वचालित रूप से ठीक कर सकता है।
- पहली बार चलाना धीमा है? ~25MB nano मॉडल पहले उपयोग पर HuggingFace से डाउनलोड होता है। यह एक बार का डाउनलोड है। बाद में शुरू होने में 2-5 सेकंड लगते हैं।
- उच्च CPU उपयोग? स्पीच जनरेशन के दौरान यह सामान्य है। यदि यह अन्य कार्यों को प्रभावित कर रहा है तो Settings में थ्रेड काउंट कम करें।
- आवाज़ नहीं आ रही? सुनिश्चित करें कि Python 3.10+ इंस्टॉल है और वर्चुअल एनवायरनमेंट सफलतापूर्वक बनाया गया था। सेटअप विज़ार्ड इसका निदान कर सकता है।
वॉइस गाइड
Section titled “वॉइस गाइड”KittenTTS 2-5 नंबर वाली 8 आवाज़ें प्रदान करता है, प्रत्येक पुरुष और महिला वेरिएंट में। सभी आवाज़ें अंग्रेज़ी हैं जिनमें थोड़ी अलग टोनल गुणवत्ता है। अपनी पसंदीदा ढूँढने के लिए कुछ आज़माएँ।
भाषा संबंधी नोट
Section titled “भाषा संबंधी नोट”KittenTTS वर्तमान में केवल अंग्रेज़ी का समर्थन करता है। अन्य भाषाओं के लिए, ElevenLabs या Google Cloud का उपयोग करें। KittenTTS का उपयोग करते समय TTS भाषा सेटिंग को अनदेखा किया जाता है — शतरंज शब्द हमेशा अंग्रेज़ी में बोले जाते हैं।