Перейти к содержимому

Настройка OpenTTS

Вернуться к обзору провайдеров TTS

OpenTTS — это TTS-сервер с открытым исходным кодом, который работает на вашем компьютере через Docker. Не нужны ни учётная запись, ни API-ключ, и никакие данные не покидают вашу машину. Настройка занимает около 2 минут, если Docker уже установлен.

Примечание: OpenTTS использует устаревшие нейронные и правиловые движки синтеза речи. Качество голоса приемлемое, но заметно более роботизированное по сравнению с ElevenLabs, Google Cloud или KittenTTS. В будущих версиях этот провайдер может быть удалён, если появятся лучшие локальные альтернативы.

Если у вас ещё нет Docker:

  • Linux (Ubuntu/Debian): sudo apt install docker.io
  • Linux (Fedora): sudo dnf install docker
  • macOS / Windows: Скачайте Docker Desktop

Откройте терминал и выполните:

Окно терминала
docker run -d -p 5500:5500 --name opentts synesthesiam/opentts:en

Эта команда загружает английский голосовой пакет (~1,5 ГБ при первом запуске) и запускает сервер в фоновом режиме. Он работает, пока вы его не остановите.

Доступны пакеты для других языков: de, fr, es, ru, nl, sv, it и другие. Для загрузки всех языков (больший объём):

Окно терминала
docker run -d -p 5500:5500 --name opentts synesthesiam/opentts:all

Предупреждение для CJK-языков: OpenTTS лучше всего работает с европейскими языками. Японский, китайский и корейский текст не будет произноситься корректно. Для CJK-языков используйте ElevenLabs или Google Cloud.

  1. Откройте En Parlant~ и перейдите в Настройки (значок шестерёнки) > вкладка Звук
  2. Прокрутите вниз до раздела TTS
  3. Установите Провайдер TTS на OpenTTS (Self-Hosted)
  4. Убедитесь, что URL сервера OpenTTS равен http://localhost:5500
  5. В выпадающем списке Голос TTS появятся доступные голоса. Попробуйте голос larynx (например, harvard) для лучшего качества
  6. Установите параметр Синтез речи в положение Вкл.
  7. Нажмите кнопку Тест рядом с селектором голоса

Вы должны услышать произнесённый вслух шахматный ход.

Голоса предоставляются несколькими движками, входящими в состав OpenTTS. От лучшего к самому базовому:

  1. Larynx — нейронный, наиболее естественное звучание
  2. Coqui-TTS — нейронный, с поддержкой нескольких дикторов
  3. MaryTTS — на базе Java, приемлемое качество
  4. Festival — традиционный синтез
  5. eSpeak — роботизированный, но быстрый

В выпадающем списке голосов в скобках указано название движка, чтобы вы могли сделать осознанный выбор.

Контейнер OpenTTS работает в фоновом режиме. Основные команды:

Окно терминала
# Stop the server
docker stop opentts
# Start it again
docker start opentts
# Remove it entirely
docker rm -f opentts
# Check if it's running
docker ps | grep opentts
  • Ошибка «Connection refused»? Контейнер Docker может быть не запущен. Выполните docker ps, чтобы проверить. Если контейнер отсутствует в списке, запустите его командой docker start opentts или повторно выполните команду docker run из шага 2.
  • Голоса не отображаются в выпадающем списке? Убедитесь, что контейнер запущен и доступен по адресу http://localhost:5500. Для проверки откройте этот URL в браузере — вы должны увидеть веб-интерфейс OpenTTS.
  • Голоса звучат слишком роботизированно? Попробуйте переключиться на голос Larynx — это наиболее качественный вариант в OpenTTS. Если вам нужно более высокое качество в целом, рассмотрите переход на KittenTTS, Google Cloud или ElevenLabs.