Перейти к содержимому

Настройка KittenTTS

Вернуться к обзору TTS-провайдеров

KittenTTS запускает нейросетевую модель синтеза речи непосредственно на вашем компьютере. Без облака, без API-ключей, без передачи данных за пределы вашего устройства — при этом качество голоса действительно хорошее. Настройка занимает около 5 минут. На данный момент поддерживается только английский язык.

KittenTTS использует PyTorch для нейросетевого инференса на CPU. Это означает, что требуется реальная вычислительная мощность:

ОборудованиеВпечатления
8+ ядер, современный CPU (Ryzen 7, i7, Xeon)Отлично. Речь генерируется быстро, минимальное влияние на другие задачи
4–6 ядер (Ryzen 5, i5)Хорошо. Заметная нагрузка на CPU во время генерации, но вполне пригодно для использования
2 ядра / устаревший CPUМедленно. Генерация может занимать несколько секунд на одну фразу. Рассмотрите вариант Google Cloud

Нагрузка на CPU временная — KittenTTS использует процессор только во время активной генерации речи (обычно 1–2 секунды на фразу). Между фразами нагрузка на CPU падает практически до нуля.

По умолчанию KittenTTS использует все доступные ядра CPU для максимальной скорости. Если вы параллельно запускаете шахматный движок (например, Stockfish), вы можете ограничить количество потоков, используемых KittenTTS.

В разделе Settings > Sound > KittenTTS CPU Threads задайте значение для ограничения потоков. Установите 0 для автоматического режима (использование всех ядер). Хорошая отправная точка при совместном использовании с шахматным движком — половина от количества ваших ядер.

Совет: KittenTTS и Stockfish оба требуют ядра CPU. Если вы выполняете анализ на полную глубину, пока KittenTTS генерирует речь, оба процесса будут конкурировать за процессорное время. На машине с 8+ ядрами вы вряд ли это заметите. На 4 ядрах выделите KittenTTS 2 потока, а остальные оставьте движку.

KittenTTS требует Python 3.10+ и несколько пакетов Python. Выберите один из следующих способов:

Вариант A: Мастер настройки в приложении (рекомендуется)

Заголовок раздела «Вариант A: Мастер настройки в приложении (рекомендуется)»
  1. Откройте En Parlant~ и перейдите в Settings > Sound
  2. Установите TTS Provider в значение KittenTTS (English Only)
  3. Если зависимости отсутствуют, появится жёлтое предупреждение «Setup Guide»
  4. Нажмите на предупреждение, чтобы открыть мастер настройки
  5. Мастер проведёт вас через каждый шаг с кнопками «Fix» для автоматической установки

Вариант B: Скрипт настройки через терминал

Заголовок раздела «Вариант B: Скрипт настройки через терминал»
Окно терминала
cd /path/to/en-parlant
./scripts/setup-tts.sh --kittentts

Этот скрипт создаёт виртуальное окружение Python и устанавливает необходимые пакеты (kittentts, flask, soundfile, numpy). Модель nano (~25 МБ) загружается с HuggingFace при первом запуске.

Окно терминала
cd /path/to/en-parlant/scripts
python3 -m venv .venv
.venv/bin/pip install kittentts flask soundfile numpy
  1. Откройте En Parlant~ и перейдите в Settings (значок шестерёнки) > вкладка Sound
  2. Установите TTS Provider в значение KittenTTS (English Only)
  3. Сервер запускается автоматически при выборе этого провайдера
  4. Подождите несколько секунд, пока модель загрузится (при первом запуске загружается с HuggingFace)
  5. Выберите голос — доступно 8 вариантов (4 мужских, 4 женских)
  6. Нажмите кнопку Test рядом с селектором голоса

Вы должны услышать шахматный ход, произнесённый вслух с естественной, выразительной AI-речью.

  • Ошибка «Server not responding»? Сервер KittenTTS мог не запуститься. Проверьте мастер настройки в Settings — он показывает статус зависимостей и может автоматически исправить отсутствующие пакеты.
  • Первый запуск медленный? Модель nano (~25 МБ) загружается с HuggingFace при первом использовании. Это одноразовая загрузка. Последующие запуски занимают 2–5 секунд.
  • Высокая нагрузка на CPU? Это нормально во время генерации речи. Уменьшите количество потоков в Settings, если это влияет на другие задачи.
  • Нет звука? Убедитесь, что установлен Python 3.10+ и виртуальное окружение было создано успешно. Мастер настройки может провести диагностику.

KittenTTS предлагает 8 голосов с номерами 2–5, каждый в мужском и женском вариантах. Все голоса — английские, с немного различающимися тональными характеристиками. Попробуйте несколько, чтобы найти тот, который вам больше нравится.

KittenTTS в настоящее время поддерживает только английский язык. Для других языков используйте ElevenLabs или Google Cloud. Настройка языка TTS игнорируется при использовании KittenTTS — шахматные термины всегда произносятся на английском языке.