Skip to content

Наладка KittenTTS

Назад да Агляду правайдараў TTS

KittenTTS запускае нейронную мадэль TTS непасрэдна на вашай машыне. Без воблака, без API-ключоў, без перадачы даных за межы вашага камп’ютара — і якасць голасу сапраўды добрая. Наладка займае каля 5 хвілін. Пакуль толькі англійская мова.

Патрабаванні да абсталявання

Section titled “Патрабаванні да абсталявання”

KittenTTS выкарыстоўвае PyTorch для нейросеткавых вылічэнняў на вашым працэсары. Гэта значыць, патрэбна рэальная вылічальная магутнасць:

АбсталяваннеВопыт выкарыстання
8+ ядраў, сучасны працэсар (Ryzen 7, i7, Xeon)Выдатна. Маўленне генеруецца хутка, мінімальны ўплыў на іншыя задачы
4-6 ядраў (Ryzen 5, i5)Добра. Прыкметная загрузка працэсара падчас генерацыі, але цалкам прыдатна для працы
2 ядры / стары працэсарПавольна. Генерацыя можа займаць некалькі секунд на адно выказванне. Разгледзьце Google Cloud як альтэрнатыву

Загрузка працэсара часовая — KittenTTS выкарыстоўвае працэсар толькі падчас актыўнай генерацыі маўлення (звычайна 1-2 секунды на выказванне). Паміж выказваннямі загрузка працэсара падае амаль да нуля.

Па змаўчанні KittenTTS выкарыстоўвае ўсе даступныя ядры працэсара для максімальнай хуткасці. Калі вы таксама запускаеце шахматны рухавік (напрыклад, Stockfish), вы можаце абмежаваць колькасць патокаў, якія выкарыстоўвае KittenTTS.

У Settings > Sound > KittenTTS CPU Threads задайце значэнне для абмежавання патокаў. Усталюйце 0 для аўтаматычнага рэжыму (выкарыстанне ўсіх ядраў). Добрай адпраўной кропкай для сумеснага выкарыстання з шахматным рухавіком з’яўляецца палова колькасці вашых ядраў.

Падказка: KittenTTS і Stockfish абодва патрабуюць ядры працэсара. Калі вы аналізуеце на поўную глыбіню, пакуль KittenTTS генеруе маўленне, абодва будуць канкурыраваць за рэсурсы працэсара. На машыне з 8+ ядрамі вы рэдка гэта заўважыце. На 4 ядрах вылучыце KittenTTS 2 патокі, а астатнія пакіньце для рухавіка.

Крок 1: Усталяванне залежнасцей

Section titled “Крок 1: Усталяванне залежнасцей”

KittenTTS патрабуе Python 3.10+ і некалькі пакетаў Python. Абярыце адзін з гэтых метадаў:

Варыянт A: Майстар наладкі ў праграме (Рэкамендуецца)

Section titled “Варыянт A: Майстар наладкі ў праграме (Рэкамендуецца)”
  1. Адкрыйце En Parlant~ і перайдзіце ў Settings > Sound
  2. Усталюйце TTS Provider на KittenTTS (English Only)
  3. Калі залежнасці адсутнічаюць, з’явіцца жоўтае папярэджанне “Setup Guide”
  4. Націсніце на папярэджанне, каб адкрыць майстар наладкі
  5. Майстар правядзе вас праз кожны крок з кнопкамі “Fix” для аўтаматычнага ўсталявання

Варыянт B: Скрыпт наладкі ў тэрмінале

Section titled “Варыянт B: Скрыпт наладкі ў тэрмінале”
Terminal window
cd /path/to/en-parlant
./scripts/setup-tts.sh --kittentts

Гэта стварае віртуальнае асяроддзе Python і ўсталёўвае неабходныя пакеты (kittentts, flask, soundfile, numpy). Мадэль nano (~25 МБ) спампоўваецца з HuggingFace пры першым запуску.

Варыянт C: Ручная наладка

Section titled “Варыянт C: Ручная наладка”
Terminal window
cd /path/to/en-parlant/scripts
python3 -m venv .venv
.venv/bin/pip install kittentts flask soundfile numpy
  1. Адкрыйце En Parlant~ і перайдзіце ў Settings (значок шасцярні) > укладка Sound
  2. Усталюйце TTS Provider на KittenTTS (English Only)
  3. Сервер запускаецца аўтаматычна, калі вы абіраеце гэтага правайдара
  4. Пачакайце некалькі секунд, пакуль мадэль загрузіцца (пры першым запуску спампоўваецца з HuggingFace)
  5. Абярыце голас — ёсць 8 варыянтаў (4 мужчынскія, 4 жаночыя)
  6. Націсніце кнопку Test побач з выбарам голасу

Вы павінны пачуць шахматны ход, вымаўлены ўголас натуральным, выразным AI-маўленнем.

  • Памылка “Server not responding”? Сервер KittenTTS мог не запусціцца. Праверце майстар наладкі ў Settings — ён паказвае стан залежнасцей і можа аўтаматычна выправіць адсутныя пакеты.
  • Першы запуск павольны? Мадэль nano (~25 МБ) спампоўваецца з HuggingFace пры першым выкарыстанні. Гэта аднаразовае спампоўванне. Наступныя запускі займаюць 2-5 секунд.
  • Высокая загрузка працэсара? Гэта нармальна падчас генерацыі маўлення. Паменшыце колькасць патокаў у Settings, калі гэта ўплывае на іншыя задачы.
  • Няма гуку? Пераканайцеся, што Python 3.10+ усталяваны і віртуальнае асяроддзе было паспяхова створана. Майстар наладкі можа дыягнаставаць гэту праблему.

KittenTTS прапануе 8 галасоў з нумарацыяй 2-5, кожны ў мужчынскім і жаночым варыянтах. Усе галасы англамоўныя з крыху рознымі танальнымі характарыстыкамі. Паспрабуйце некалькі, каб знайсці той, які вам найбольш падабаецца.

KittenTTS на дадзены момант падтрымлівае толькі англійскую мову. Для іншых моў выкарыстоўвайце ElevenLabs або Google Cloud. Наладка мовы TTS ігнаруецца пры выкарыстанні KittenTTS — шахматныя тэрміны заўсёды вымаўляюцца на англійскай мове.