İçeriğe geç

TTS Sağlayıcılarına Genel Bakış

TTS Satranç Çalışma Şeklinizi Neden Kökten Değiştiriyor

Section titled “TTS Satranç Çalışma Şeklinizi Neden Kökten Değiştiriyor”

Açıklamalı bir oyunu incelediğinizde gözleriniz çifte görev yapıyor. Tahtadaki taşları takip etmeye ve aynı anda yorumları okumaya çalışıyorsunuz. Bakışlarınız tahta ile açıklama paneli arasında gidip geliyor ve her seferinde pozisyonu bir anlığına kaybediyorsunuz. Taşları yeniden bulmanız, hamle dizilerini yeniden izlemeniz ve zihninizde resmi yeniden oluşturmanız gerekiyor.

Metin-konuşma dönüştürme bunu tamamen çözüyor.

TTS etkinleştirildiğinde, bir oyunun hamlelerini adım adım ilerlerken açıklamalar size sesli olarak okunur. Gözleriniz tahtadan ayrılmaz. Atın f3’e konmasını izlerken bir ses bunun neden güçlü bir gelişim hamlesi olduğunu anlatır. Piyon yapısının değişimini görürken yorum arkasındaki stratejik fikri açıklar. Tahta ve sözler aynı anda gelir — tıpkı karşınızda oturan bir antrenörün öğretmesi gibi.

Bu özellikle şu durumlarda çok güçlüdür:

  • Açılış çalışması — pozisyon gelişirken her hamlenin arkasındaki fikirleri dinleyin
  • Oyun incelemesi — kendi açıklamalı oyunlarınızı adım adım ilerletin ve dersleri doğal bir şekilde özümseyin
  • Oyunsonu pratiği — yorum sizi yönlendirirken odağınızı kritik karelerde tutun
  • Dil pratiği — tüm satranç terimlerinin doğru şekilde çevrildiği Fransızca, Almanca, İspanyolca, Rusça, Japonca, Çince veya Korece satranç çalışın. “Knight f3, check” yerine “Cavalier f3, echec” duyun. Oyunu düşündüğünüz dilde öğrenin.
  • Erişilebilirlik — okumak yerine dinlemeyi tercih eden veya masa başından uzakta çalışmak isteyen oyuncular için

Bir kez denediğinizde, sessiz açıklamalara geri dönmek sesi kapatılmış bir film izlemek gibi hissettiriyor.

En Parlant~ beş TTS sağlayıcısı ile birlikte gelir; stüdyo kalitesinde seslere sahip bulut API’lerinden hiç internet gerektirmeyen tamamen yerel seçeneklere kadar uzanır. Başlamak için yalnızca birine ihtiyacınız var. Aşağıda en iyi ses kalitesinden en düşüğe doğru sıralanmıştır.

Mevcut en iyi ses kalitesi. ElevenLabs, gerçek kişiliğe sahip etkileyici, insana yakın konuşma üretir — bazı sesler sesli kitap okuyucuları, bazıları ise spiker gibi ses çıkarır. Aralarından seçim yapabileceğiniz düzinelerce benzersiz ses bulunur. Mükemmel CJK (Japonca, Çince, Korece) telaffuzu, Arapça, Hintçe ve tüm büyük Avrupa dilleri dahil olmak üzere 34’ten fazla dili destekler.

Ücretsiz katman aylık 10.000 karakter sunar (2-5 açıklamalı oyun için yeterli). Ücretli planlar 30.000 karakter için aylık 5 dolardan başlar. Kurulum basittir: bir hesap oluşturun, API anahtarınızı kopyalayın ve En Parlant~‘a yapıştırın.

İnternet gerektirir. Ses kalitesi tutkunları için en iyisi.

ElevenLabs Kurulum Rehberi

Kalite, dil desteği ve maliyet açısından en iyi denge. Google’ın WaveNet sinir ağı sesleri, CJK, Arapça, Hintçe, Bengalce, Filipince, Vietnamca ve tüm büyük Avrupa dilleri dahil 30’dan fazla dilde doğal ve net ses üretir. Ücretsiz katman cömerttir — aylık bir milyon karakter yüzlerce açıklamalı oyunu kapsar.

Kurulum yaklaşık 5 dakika sürer: bir Google Cloud hesabı oluşturun, Text-to-Speech API’sini etkinleştirin, bir API anahtarı oluşturun. Ücretsiz katmanı aşmadıkça herhangi bir ücret ödenmez (satranç açıklamalarıyla bunu aşmak çok zordur).

İnternet gerektirir. Çoğu kullanıcı için en iyisi.

Google Cloud Kurulum Rehberi

Tamamen kendi makinenizde çalışan yüksek kaliteli yerel yapay zeka. 8 ifadeli ses (4 erkek, 4 kadın) içeren hafif, yaklaşık 25 MB’lık bir sinir ağı modeli kullanır. Kalitesi oldukça iyidir — doğal tonlama, net telaffuz ve gerçek bir ifade gücü sunar.

Ödünleşim donanımdadır: KittenTTS, CPU çıkarımı için PyTorch kullanır, bu nedenle modern çok çekirdekli bir işlemci gerektirir. 8 çekirdekli bir makinede harika ses çıkarır; daha eski bir dizüstü bilgisayarda gecikme fark edebilirsiniz. Şimdilik yalnızca İngilizce desteklenmektedir.

Her açıklama ilk kez seslendirildiğinde kısa bir üretim gecikmesi olur (hızlı bir CPU’da 1-2 saniye, daha yavaş donanımlarda daha uzun). Bundan sonra ses bellekte önbelleğe alınır ve anında yeniden çalınır — daha önce duyduğunuz hamleler arasında ileri geri gitmek sıfır gecikme ile gerçekleşir. Ayrıca ayarlardan tüm oyunu arka planda önceden önbelleğe alabilirsiniz, böylece çalışmaya başlamadan önce her açıklama hazır olur.

İnternet gerektirmez. API anahtarı gerektirmez. En iyi yerel kalite.

KittenTTS Kurulum Rehberi

Docker aracılığıyla makinenizde çalışan açık kaynaklı bir TTS sunucusu. Hiçbir veri bilgisayarınızdan çıkmaz. Birkaç TTS motorunu (Larynx, Festival, eSpeak, Coqui-TTS) bir araya getirerek yalnızca İngilizce için 75’ten fazla ses seçeneği sunar.

Ödünleşim ses kalitesindedir: bunlar daha eski sinir ağı ve kural tabanlı motorlardır, bu nedenle çıktı ElevenLabs veya Google’a kıyasla daha robotik ses çıkarır. Avrupa dilleriyle (İngilizce, Almanca, Fransızca, İspanyolca, Rusça, Felemenkçe, İsveççe, İtalyanca ve daha fazlası) en iyi şekilde çalışır — CJK desteklenmez. Açıkçası, yerel bir model kurma zahmetine girecekseniz, KittenTTS daha az zahmetle daha iyi kalite sunar. OpenTTS için önemli bir talep olmadıkça, gelecekteki bir sürümde muhtemelen kullanımdan kaldıracağız.

İnternet gerektirmez. API anahtarı gerektirmez. Birçok ses seçeneğiyle maksimum gizlilik için en iyisi.

OpenTTS Kurulum Rehberi

İşletim sisteminizin yerleşik konuşma sentezi. Kurulum gerektirmez, API anahtarı gerektirmez, sunucu gerektirmez. Seçin ve başlayın. Ses kalitesi basittir — işletim sistemi düzeyindeki TTS’nin karakteristik robotik tonunu duyacaksınız — ancak sıfır kurulumla anında çalışır.

Linux’ta bu genellikle eSpeak veya speech-dispatcher’dır; macOS’ta sistem sesidir; Windows’ta SAPI’dir. Dil desteği tamamen işletim sisteminizde hangi ses paketlerinin yüklü olduğuna bağlıdır.

İnternet gerektirmez. Hızlı test için en iyisi.

Sistem TTS Kurulum Rehberi

SağlayıcıTürKaliteKurulumDiller
ElevenLabsBulut APIOlağanüstüAPI anahtarı34+ (CJK dahil)
Google CloudBulut APIÇok iyi (WaveNet)API anahtarı30+ (CJK dahil)
KittenTTSYerel sinir ağı yapay zekasıİyiPython + venvYalnızca İngilizce
OpenTTSYerel DockerOrtaDockerYalnızca Avrupa dilleri
Sistem (İşletim Sistemi)İşletim sistemi yerleşikTemelYokİşletim sistemine bağlı

Donanım notu: Yerel sağlayıcılar (KittenTTS ve OpenTTS) sinir ağı çıkarımını CPU’nuzda çalıştırır. Fark edilir gecikme olmadan konuşma üretmek için modern çok çekirdekli bir işlemciye (8+ çekirdek önerilir) ihtiyaç duyarlar. Bunu makinenizde bir satranç motoru daha çalıştırmak gibi düşünün. Makineniz eskiyse veya düşük güçlüyse, bunun yerine bulut sağlayıcılardan birini kullanın.

En zengin ses kalitesini istiyorsanız ElevenLabs ile başlayın — ücretsiz katman denemek için yeterlidir. Kalite ve ücretsiz kullanım arasındaki en iyi denge için Google Cloud aylık yüzlerce oyunu kapsar. Bulut bağımlılığı olmadan yüksek kaliteli yerel TTS için, modern bir CPU’nuz varsa KittenTTS mükemmeldir. Sıfır kurulumla test için Sistem TTS anında çalışır. Birçok ses seçeneğiyle maksimum gizlilik için OpenTTS her şeyi Docker aracılığıyla yerel olarak çalıştırır.

Tüm TTS ayarları Ayarlar > Ses bölümündedir:

AyarNe işe yarar
Text-to-SpeechTüm TTS özelliklerinin ana açma/kapama düğmesi
Auto-Narrate on MoveHamleler arasında ilerlerken açıklamaları otomatik olarak seslendirir
TTS ProviderBeş sağlayıcı arasında geçiş yapın
TTS VoiceSağlayıcıya özel ses seçimi
TTS LanguageAnlatım dili — satranç terimleri otomatik olarak çevrilir
TTS VolumeAnlatım ses düzeyi
TTS SpeedOynatma hızı (0,5x - 2x) — sesi yeniden üretmeden ayarlar
ElevenLabs API KeyElevenLabs API anahtarınız (yalnızca ElevenLabs kullanılırken gösterilir)
Google Cloud API KeyGoogle Cloud API anahtarınız (yalnızca Google kullanılırken gösterilir)
KittenTTS CPU ThreadsÇıkarım için CPU iş parçacıkları (0 = otomatik / tüm çekirdekleri kullan)
TTS Audio CacheYeniden üretimi zorlamak için önbelleğe alınmış sesi temizleyin

TTS anlatımı, tam çevrilmiş satranç söz dağarcığıyla birçok dili destekler. İşte bazı örnekler:

DilSatranç örneği
EnglishKnight f3, check. A strong developing move.
FrancaisCavalier f3, echec. Un coup de developpement fort.
EspanolCaballo f3, jaque. Un fuerte movimiento.
DeutschSpringer f3, Schach. Ein starker Entwicklungszug.
日本語ナイト f3、チェック。強い展開の手。
РусскийКонь f3, шах. Сильный развивающий ход.
中文马 f3,将军。一步控制中心的强力出子。
한국어나이트 f3, 체크. 중앙을 지배하는 강력한 전개 수.

Her satranç terimi — taş isimleri, “şah”, “şah mat”, “rok”, “alır”, “Parlak hamle” ve “Kötü hamle” gibi hamle kalitesi açıklamaları — seçilen dilde seslendirilir. PGN dosyalarınızdaki yorumlar yazıldığı gibi okunur, bu nedenle oyunlarınızı duymak istediğiniz dilde açıklayın.

TTS motoru ham metni olduğu gibi okumaz — satranç notasyonunu anlar. Herhangi bir metin seslendirmeden önce, bir ön işleme adımı PGN notasyonunu doğal konuşmaya dönüştürür:

PGN’de yazılanSesli okunan
Nf3”Knight f3”
Bxe6+”Bishop takes e6, check”
O-O-O”castles queenside”
e8=Q#”e8 promotes to Queen, checkmate”
Rae1”Rook a e1” (belirsizlik giderme)
5.Qxd8+ (yorumlarda)“5, Queen takes d8, check”
en prise”on preez” (Fransızca telaffuz)
Ra8 is hanging”Rook on a8 is hanging”
R vs R”Rook versus Rook”
6...Bf5 (hamle numarası noktaları)“6, Bishop f5” (doğal duraklama, “nokta” yok)

Yorumlar seslendirmeden önce temizlenir: [%eval], [%cal], [%csl] etiketleri çıkarılır. NAG sembolünü tekrarlayan baştaki kalite sözcükleri kaldırılır (böylece ?? {BLUNDER. The rook hangs} “Blunder. Blunder.” diye tekrarlamaz).

Her anlatım, ilk üretimden sonra bellekte önbelleğe alınır. Bir oyunda ileri geri gitmek, önbellekten anında yeniden çalınır — API çağrısı yok, yeniden üretim gecikmesi yok. Ayrıca tüm oyun ağacını arka planda önceden önbelleğe alabilirsiniz, böylece oynatma sırasında hiç duraklama olmaz.

Önbellek provider:voiceId:lang:text anahtarıyla çalışır, bu nedenle sesi veya sağlayıcıyı değiştirmek ayrı önbellek kayıtları oluşturur. Oynatma hızını değiştirmek önbelleği geçersiz kılmaz — hız, ses öğesi üzerinde istemci tarafında uygulanır.

Ayarlardaki Clear Audio Cache düğmesi, açıklamaları düzenledikten sonra yeniden üretimi zorlamanızı sağlar.

  • Auto-Narrate kullanın. “Auto-Narrate on Move” seçeneğini açın ve oyunlarda ilerlemek için ok tuşlarınızı kullanın. Hamle yaptıkça yorum doğal olarak gelir, tıpkı omzunuzda bir antrenör varmış gibi.

  • Kendi oyunlarınıza açıklama yazın. TTS, kendi oyunlarınızdaki yorumları dinlerken gerçekten parlıyor. Oyunlarınıza açıklama yazın, ardından anlatımla birlikte adım adım ilerleyin. Pozisyona bakarken “Piyonu almak cazip görünüyor ama tüm şah kanadınız hâlâ uyuyor” cümlesini duymak, okumaktan çok farklı bir etki yaratır.

  • Farklı hızları deneyin. Bazı oyuncular dikkatli çalışma için 1x’i, diğerleri daha hızlı inceleme için 1,3x’i tercih eder. Hız kaydırıcısı, ek API karakteri kullanmadan oynatımı gerçek zamanlı olarak ayarlar.

  • Hoparlör simgesini kullanın. Hamle listesindeki her yorumun yanında küçük bir hoparlör simgesi vardır. Yalnızca o tek açıklamayı dinlemek için tıklayın.

  • Satranç söz dağarcığı öğrenmek için dil değiştirin. İkinci bir dilde satranç çalışıyorsanız, TTS dilini buna uygun olarak ayarlayın. Dinleyerek “Cavalier” (At), “echec” (şah) ve “mat” (şah mat) gibi terimleri doğal olarak öğrenirsiniz.

Bu yönergeler, PGN açıklamalarınızdan en iyi sesli anlatımı üretmenizi sağlar.

Standart SAN notasyonu kullanın. Ön işlemci bunu otomatik olarak genişletir:

  • "After 7.Nf3, White controls e5" şu şekilde okunur: “After 7, Knight f3, White controls e5”
  • "The Bg5 pins the knight" şu şekilde okunur: “The Bishop g5 pins the knight”

NAG sembolü (!, ??, !?, vb.) otomatik olarak sözlü kalite ifadeleri üretir. Bunları yorumda tekrarlamayın:

  • Kötü: ?? {BLUNDER. A terrible move...} — TTS “Blunder. Blunder. A terrible move” der
  • İyi: ?? {A terrible move...} — TTS “Blunder. A terrible move” der

Standart PGN notasyonu çalışır: 6...Bf5. Ön işlemci, “nokta nokta nokta” yerine doğal duraklamalar için noktaları virgüllere dönüştürür.

Noktalar doğal TTS duraklamaları oluşturur. Farklı fikirler arasında kullanın:

{Doubled isolated e-pawns. The f-file is ripped open. The position is strategically won.}

[%cal ...] ve [%csl ...] etiketleri sesli anlatımdan otomatik olarak çıkarılır. Anlatımı etkilemeden görsel açıklamalar için bunları serbestçe kullanın.

En Parlant~ üzerine geliştirme yapanlar için yeniden dağıtım hakkında bir not:

  • ElevenLabs — Üretilen sesler üzerindeki tüm haklar size aittir (ElevenLabs Kullanım Koşulları, bölüm c(ii)). Serbestçe yeniden dağıtabilirsiniz.
  • Google Cloud — Üretilen ses üzerindeki tüm fikri mülkiyet hakları size aittir. Herhangi bir kısıtlama yoktur.
  • KittenTTS, OpenTTS, Sistem TTS — Üretilen ses üzerinde yeniden dağıtım kısıtlaması yoktur.

En Croissant, Francisco Salgueiro tarafından oluşturulan açık kaynaklı bir satranç çalışma aracıdır. Francisco gerçekten özel bir şey inşa etti — satranç çalışmak için ücretsiz, güçlü, topluluk odaklı bir platform — ve herkesin kullanabilmesi, geliştirebilmesi ve paylaşabilmesi için GPL-3.0 lisansı altında yayınladı. Bu TTS özelliği o cömertlik sayesinde var. Kurduğu temel için minnettarız ve ona katkıda bulunmaktan gurur duyuyoruz.

TTS eklentisi, Darrell tarafından Red Shed’de, Claude Code’un yardımıyla geliştirildi. Beş sağlayıcı, çoklu dil desteği, birçok dilde çevrilmiş satranç söz dağarcığı, yerel yapay zeka çıkarımı, bağımlılık yönetimi — kaynaktan inşa edildi, elle test edildi ve özenle katkıda bulunuldu.

Açık kaynağın güzelliği budur. Birisi harika bir şey inşa eder. Bir başkası üzerine ekler. Herkes faydalanır.

TTS’nin sizin için nasıl çalıştığını duymak isteriz. Yorumlar, öneriler ve geri bildirimler her zaman memnuniyetle karşılanır.

  • Henüz desteklemediğimiz bir dil mi istiyorsunuz? Bize bildirin — yeni dilleri hızla ekleyebiliriz.
  • Bir hata mı buldunuz? Bize söyleyin, hızla düzeltelim.
  • Başka bir TTS sağlayıcısı için fikriniz mi var? Eklemekten memnuniyet duyarız.
  • Sadece çalıştığını söylemek mi istiyorsunuz? Bunu duymak da harika.

GitHub üzerinde bir sorun açın veya doğrudan darrell@redshed.ai adresinden bize ulaşın.