Настройка OpenTTS

Вернуться к обзору провайдеров TTS

OpenTTS — это TTS-сервер с открытым исходным кодом, который работает на вашем компьютере через Docker. Не нужны ни учётная запись, ни API-ключ, и никакие данные не покидают вашу машину. Настройка занимает около 2 минут, если Docker уже установлен.

Примечание: OpenTTS использует устаревшие нейронные и правиловые движки синтеза речи. Качество голоса приемлемое, но заметно более роботизированное по сравнению с ElevenLabs, Google Cloud или KittenTTS. В будущих версиях этот провайдер может быть удалён, если появятся лучшие локальные альтернативы.

Шаг 1: Установите Docker

Если у вас ещё нет Docker:

Linux (Ubuntu/Debian): sudo apt install docker.io
Linux (Fedora): sudo dnf install docker
macOS / Windows: Скачайте Docker Desktop

Шаг 2: Запустите сервер OpenTTS

Откройте терминал и выполните:

docker run -d -p 5500:5500 --name opentts synesthesiam/opentts:en

Эта команда загружает английский голосовой пакет (~1,5 ГБ при первом запуске) и запускает сервер в фоновом режиме. Он работает, пока вы его не остановите.

Другие языки

Доступны пакеты для других языков: de, fr, es, ru, nl, sv, it и другие. Для загрузки всех языков (больший объём):

docker run -d -p 5500:5500 --name opentts synesthesiam/opentts:all

Предупреждение для CJK-языков: OpenTTS лучше всего работает с европейскими языками. Японский, китайский и корейский текст не будет произноситься корректно. Для CJK-языков используйте ElevenLabs или Google Cloud.

Шаг 3: Настройте En Parlant~

Откройте En Parlant~ и перейдите в Настройки (значок шестерёнки) > вкладка Звук
Прокрутите вниз до раздела TTS
Установите Провайдер TTS на OpenTTS (Self-Hosted)
Убедитесь, что URL сервера OpenTTS равен http://localhost:5500
В выпадающем списке Голос TTS появятся доступные голоса. Попробуйте голос larynx (например, harvard) для лучшего качества
Установите параметр Синтез речи в положение Вкл.
Нажмите кнопку Тест рядом с селектором голоса

Вы должны услышать произнесённый вслух шахматный ход.

Руководство по качеству голосов

Голоса предоставляются несколькими движками, входящими в состав OpenTTS. От лучшего к самому базовому:

Larynx — нейронный, наиболее естественное звучание
Coqui-TTS — нейронный, с поддержкой нескольких дикторов
MaryTTS — на базе Java, приемлемое качество
Festival — традиционный синтез
eSpeak — роботизированный, но быстрый

В выпадающем списке голосов в скобках указано название движка, чтобы вы могли сделать осознанный выбор.

Управление сервером

Контейнер OpenTTS работает в фоновом режиме. Основные команды:

# Stop the server
docker stop opentts

# Start it again
docker start opentts

# Remove it entirely
docker rm -f opentts

# Check if it's running
docker ps | grep opentts

Устранение неполадок

Ошибка «Connection refused»? Контейнер Docker может быть не запущен. Выполните docker ps, чтобы проверить. Если контейнер отсутствует в списке, запустите его командой docker start opentts или повторно выполните команду docker run из шага 2.
Голоса не отображаются в выпадающем списке? Убедитесь, что контейнер запущен и доступен по адресу http://localhost:5500. Для проверки откройте этот URL в браузере — вы должны увидеть веб-интерфейс OpenTTS.
Голоса звучат слишком роботизированно? Попробуйте переключиться на голос Larynx — это наиболее качественный вариант в OpenTTS. Если вам нужно более высокое качество в целом, рассмотрите переход на KittenTTS, Google Cloud или ElevenLabs.