Настройка KittenTTS

Вернуться к обзору TTS-провайдеров

KittenTTS запускает нейросетевую модель синтеза речи непосредственно на вашем компьютере. Без облака, без API-ключей, без передачи данных за пределы вашего устройства — при этом качество голоса действительно хорошее. Настройка занимает около 5 минут. На данный момент поддерживается только английский язык.

Требования к оборудованию

KittenTTS использует PyTorch для нейросетевого инференса на CPU. Это означает, что требуется реальная вычислительная мощность:

Оборудование	Впечатления
8+ ядер, современный CPU (Ryzen 7, i7, Xeon)	Отлично. Речь генерируется быстро, минимальное влияние на другие задачи
4–6 ядер (Ryzen 5, i5)	Хорошо. Заметная нагрузка на CPU во время генерации, но вполне пригодно для использования
2 ядра / устаревший CPU	Медленно. Генерация может занимать несколько секунд на одну фразу. Рассмотрите вариант Google Cloud

Нагрузка на CPU временная — KittenTTS использует процессор только во время активной генерации речи (обычно 1–2 секунды на фразу). Между фразами нагрузка на CPU падает практически до нуля.

Управление потоками

По умолчанию KittenTTS использует все доступные ядра CPU для максимальной скорости. Если вы параллельно запускаете шахматный движок (например, Stockfish), вы можете ограничить количество потоков, используемых KittenTTS.

В разделе Settings > Sound > KittenTTS CPU Threads задайте значение для ограничения потоков. Установите 0 для автоматического режима (использование всех ядер). Хорошая отправная точка при совместном использовании с шахматным движком — половина от количества ваших ядер.

Совет: KittenTTS и Stockfish оба требуют ядра CPU. Если вы выполняете анализ на полную глубину, пока KittenTTS генерирует речь, оба процесса будут конкурировать за процессорное время. На машине с 8+ ядрами вы вряд ли это заметите. На 4 ядрах выделите KittenTTS 2 потока, а остальные оставьте движку.

Шаг 1: Установка зависимостей

KittenTTS требует Python 3.10+ и несколько пакетов Python. Выберите один из следующих способов:

Вариант A: Мастер настройки в приложении (рекомендуется)

Откройте En Parlant~ и перейдите в Settings > Sound
Установите TTS Provider в значение KittenTTS (English Only)
Если зависимости отсутствуют, появится жёлтое предупреждение «Setup Guide»
Нажмите на предупреждение, чтобы открыть мастер настройки
Мастер проведёт вас через каждый шаг с кнопками «Fix» для автоматической установки

Вариант B: Скрипт настройки через терминал

cd /path/to/en-parlant
./scripts/setup-tts.sh --kittentts

Этот скрипт создаёт виртуальное окружение Python и устанавливает необходимые пакеты (kittentts, flask, soundfile, numpy). Модель nano (~25 МБ) загружается с HuggingFace при первом запуске.

Вариант C: Ручная установка

cd /path/to/en-parlant/scripts
python3 -m venv .venv
.venv/bin/pip install kittentts flask soundfile numpy

Шаг 2: Настройка En Parlant~

Откройте En Parlant~ и перейдите в Settings (значок шестерёнки) > вкладка Sound
Установите TTS Provider в значение KittenTTS (English Only)
Сервер запускается автоматически при выборе этого провайдера
Подождите несколько секунд, пока модель загрузится (при первом запуске загружается с HuggingFace)
Выберите голос — доступно 8 вариантов (4 мужских, 4 женских)
Нажмите кнопку Test рядом с селектором голоса

Вы должны услышать шахматный ход, произнесённый вслух с естественной, выразительной AI-речью.

Устранение неполадок

Ошибка «Server not responding»? Сервер KittenTTS мог не запуститься. Проверьте мастер настройки в Settings — он показывает статус зависимостей и может автоматически исправить отсутствующие пакеты.
Первый запуск медленный? Модель nano (~25 МБ) загружается с HuggingFace при первом использовании. Это одноразовая загрузка. Последующие запуски занимают 2–5 секунд.
Высокая нагрузка на CPU? Это нормально во время генерации речи. Уменьшите количество потоков в Settings, если это влияет на другие задачи.
Нет звука? Убедитесь, что установлен Python 3.10+ и виртуальное окружение было создано успешно. Мастер настройки может провести диагностику.

Описание голосов

KittenTTS предлагает 8 голосов с номерами 2–5, каждый в мужском и женском вариантах. Все голоса — английские, с немного различающимися тональными характеристиками. Попробуйте несколько, чтобы найти тот, который вам больше нравится.

Примечание о языках

KittenTTS в настоящее время поддерживает только английский язык. Для других языков используйте ElevenLabs или Google Cloud. Настройка языка TTS игнорируется при использовании KittenTTS — шахматные термины всегда произносятся на английском языке.