OpenTTS सेटअप

वापस जाएँ TTS प्रदाता अवलोकन पर

OpenTTS एक ओपन-सोर्स TTS सर्वर है जो Docker का उपयोग करके आपके अपने कंप्यूटर पर चलता है। कोई अकाउंट नहीं, कोई API कुंजी नहीं, कोई डेटा आपकी मशीन से बाहर नहीं जाता। यदि आपके पास पहले से Docker इंस्टॉल है तो सेटअप में लगभग 2 मिनट लगते हैं।

नोट: OpenTTS पुराने न्यूरल और नियम-आधारित इंजन का उपयोग करता है। आवाज की गुणवत्ता कार्यात्मक है लेकिन ElevenLabs, Google Cloud, या KittenTTS की तुलना में स्पष्ट रूप से अधिक रोबोटिक लगती है। यदि बेहतर लोकल विकल्प उपलब्ध हुए तो इसे भविष्य के किसी रिलीज़ में हटाया जा सकता है।

चरण 1: Docker इंस्टॉल करें

यदि आपके पास अभी तक Docker नहीं है:

Linux (Ubuntu/Debian): sudo apt install docker.io
Linux (Fedora): sudo dnf install docker
macOS / Windows: Docker Desktop डाउनलोड करें

चरण 2: OpenTTS सर्वर शुरू करें

एक टर्मिनल खोलें और चलाएँ:

docker run -d -p 5500:5500 --name opentts synesthesiam/opentts:en

यह अंग्रेज़ी वॉइस पैक (~1.5 GB पहली बार चलाने पर) डाउनलोड करता है और सर्वर को बैकग्राउंड में शुरू करता है। जब तक आप इसे बंद नहीं करते, यह चलता रहता है।

अन्य भाषाएँ

अन्य भाषा पैक उपलब्ध हैं: de, fr, es, ru, nl, sv, it, और अधिक। सभी भाषाओं के लिए (बड़ा डाउनलोड):

docker run -d -p 5500:5500 --name opentts synesthesiam/opentts:all

CJK चेतावनी: OpenTTS यूरोपीय भाषाओं के साथ सबसे अच्छा काम करता है। जापानी, चीनी और कोरियाई टेक्स्ट का सही उच्चारण नहीं होगा। CJK भाषाओं के लिए इसके बजाय ElevenLabs या Google Cloud का उपयोग करें।

चरण 3: En Parlant~ कॉन्फ़िगर करें

En Parlant~ खोलें और Settings (गियर आइकन) > Sound टैब पर जाएँ
TTS अनुभाग तक नीचे स्क्रॉल करें
TTS Provider को OpenTTS (Self-Hosted) पर सेट करें
सुनिश्चित करें कि OpenTTS Server URL http://localhost:5500 है
TTS Voice ड्रॉपडाउन उपलब्ध आवाज़ों से भर जाएगा। सर्वोत्तम गुणवत्ता के लिए एक larynx आवाज़ (जैसे harvard) आज़माएँ
Text-to-Speech को On पर सेट करें
वॉइस सेलेक्टर के बगल में Test बटन पर क्लिक करें

आपको एक शतरंज की चाल ज़ोर से बोली हुई सुनाई देनी चाहिए।

आवाज़ गुणवत्ता गाइड

आवाज़ें OpenTTS में बंडल किए गए कई इंजनों से आती हैं। सर्वोत्तम से सबसे बुनियादी तक:

Larynx — न्यूरल, सबसे प्राकृतिक ध्वनि
Coqui-TTS — न्यूरल, बहु-वक्ता
MaryTTS — Java-आधारित, अच्छी गुणवत्ता
Festival — पारंपरिक संश्लेषण
eSpeak — रोबोटिक लेकिन तेज़

वॉइस ड्रॉपडाउन इंजन का नाम कोष्ठक में दिखाता है ताकि आप उसी अनुसार चुन सकें।

सर्वर प्रबंधन

OpenTTS कंटेनर बैकग्राउंड में चलता है। सामान्य कमांड:

# Stop the server
docker stop opentts

# Start it again
docker start opentts

# Remove it entirely
docker rm -f opentts

# Check if it's running
docker ps | grep opentts

समस्या निवारण

“Connection refused” त्रुटि? Docker कंटेनर चल नहीं रहा हो सकता है। जाँचने के लिए docker ps चलाएँ। यदि यह सूचीबद्ध नहीं है, तो docker start opentts से शुरू करें या चरण 2 से docker run कमांड फिर से चलाएँ।
ड्रॉपडाउन में कोई आवाज़ नहीं? सुनिश्चित करें कि कंटेनर चल रहा है और http://localhost:5500 पर पहुँच योग्य है। आप अपने ब्राउज़र में वह URL खोलकर परीक्षण कर सकते हैं — आपको OpenTTS वेब इंटरफ़ेस दिखाई देना चाहिए।
आवाज़ें बहुत रोबोटिक लगती हैं? Larynx आवाज़ पर स्विच करने का प्रयास करें — ये OpenTTS में उच्चतम गुणवत्ता वाला विकल्प हैं। यदि आप समग्र रूप से बेहतर गुणवत्ता चाहते हैं, तो KittenTTS, Google Cloud, या ElevenLabs पर अपग्रेड करने पर विचार करें।