Перейти до вмісту

Налаштування KittenTTS

Повернутися до Огляду провайдерів TTS

KittenTTS запускає нейронну модель синтезу мовлення безпосередньо на вашому комп’ютері. Без хмари, без API-ключів, без передачі даних за межі вашого комп’ютера — і якість голосу справді гарна. Налаштування займає близько 5 хвилин. Наразі лише англійська мова.

KittenTTS використовує PyTorch для інференсу нейронної мережі на вашому процесорі. Це означає, що потрібна реальна обчислювальна потужність:

ОбладнанняДосвід використання
8+ ядер, сучасний CPU (Ryzen 7, i7, Xeon)Відмінно. Мовлення генерується швидко, мінімальний вплив на інші завдання
4-6 ядер (Ryzen 5, i5)Добре. Помітне навантаження на CPU під час генерації, але цілком придатне для використання
2 ядра / старий CPUПовільно. Генерація може займати кілька секунд на одну фразу. Розгляньте Google Cloud як альтернативу

Навантаження на CPU тимчасове — KittenTTS використовує процесор лише під час активної генерації мовлення (зазвичай 1-2 секунди на фразу). Між фразами навантаження на CPU падає практично до нуля.

За замовчуванням KittenTTS використовує всі доступні ядра CPU для максимальної швидкості. Якщо ви також запускаєте шаховий рушій (наприклад, Stockfish), можливо, варто обмежити кількість потоків, які використовує KittenTTS.

У Settings > Sound > KittenTTS CPU Threads встановіть значення для обмеження кількості потоків. Встановіть 0 для автоматичного режиму (використання всіх ядер). Хорошою відправною точкою для спільного використання з шаховим рушієм є половина кількості ваших ядер.

Порада: KittenTTS і Stockfish обидва потребують ядра CPU. Якщо ви аналізуєте на повну глибину, поки KittenTTS генерує мовлення, обидва конкуруватимуть за процесорний час. На машині з 8+ ядрами ви навряд чи це помітите. На 4 ядрах виділіть KittenTTS 2 потоки, а решту залиште для рушія.

Крок 1: Встановлення залежностей

Section titled “Крок 1: Встановлення залежностей”

KittenTTS вимагає Python 3.10+ та кілька пакетів Python. Оберіть один із цих методів:

Варіант A: Майстер налаштування в додатку (Рекомендовано)

Section titled “Варіант A: Майстер налаштування в додатку (Рекомендовано)”
  1. Відкрийте En Parlant~ та перейдіть до Settings > Sound
  2. Встановіть TTS Provider на KittenTTS (English Only)
  3. Якщо залежності відсутні, з’явиться жовте сповіщення «Setup Guide»
  4. Натисніть на сповіщення, щоб відкрити майстер налаштування
  5. Майстер проведе вас через кожен крок із кнопками «Fix» для автоматичного встановлення

Варіант B: Скрипт налаштування через термінал

Section titled “Варіант B: Скрипт налаштування через термінал”
Terminal window
cd /path/to/en-parlant
./scripts/setup-tts.sh --kittentts

Це створює віртуальне середовище Python та встановлює необхідні пакети (kittentts, flask, soundfile, numpy). Модель nano (~25 МБ) завантажується з HuggingFace при першому запуску.

Варіант C: Ручне налаштування

Section titled “Варіант C: Ручне налаштування”
Terminal window
cd /path/to/en-parlant/scripts
python3 -m venv .venv
.venv/bin/pip install kittentts flask soundfile numpy

Крок 2: Налаштування En Parlant~

Section titled “Крок 2: Налаштування En Parlant~”
  1. Відкрийте En Parlant~ та перейдіть до Settings (іконка шестерні) > вкладка Sound
  2. Встановіть TTS Provider на KittenTTS (English Only)
  3. Сервер запускається автоматично при виборі цього провайдера
  4. Зачекайте кілька секунд для завантаження моделі (при першому запуску завантажується з HuggingFace)
  5. Оберіть голос — доступно 8 варіантів (4 чоловічі, 4 жіночі)
  6. Натисніть кнопку Test поруч із селектором голосу

Ви маєте почути шаховий хід, озвучений природним, виразним ШІ-мовленням.

  • Помилка «Server not responding»? Сервер KittenTTS міг не запуститися. Перевірте майстер налаштування в Settings — він показує стан залежностей та може автоматично виправити відсутні пакети.
  • Перший запуск повільний? Модель nano (~25 МБ) завантажується з HuggingFace при першому використанні. Це одноразове завантаження. Наступні запуски займають 2-5 секунд.
  • Високе навантаження на CPU? Це нормально під час генерації мовлення. Зменшіть кількість потоків у Settings, якщо це впливає на інші завдання.
  • Немає звуку? Переконайтеся, що встановлено Python 3.10+ і віртуальне середовище було створено успішно. Майстер налаштування може діагностувати цю проблему.

KittenTTS пропонує 8 голосів з номерами 2-5, кожен у чоловічому та жіночому варіантах. Усі голоси англомовні з дещо різними тональними характеристиками. Спробуйте кілька, щоб знайти той, який вам найбільше подобається.

KittenTTS наразі підтримує лише англійську мову. Для інших мов використовуйте ElevenLabs або Google Cloud. Налаштування мови TTS ігнорується при використанні KittenTTS — шахові терміни завжди озвучуються англійською.