»Moje (nejen) studentské portfolio «

květen 2025 

Text to speech as a game changer

Nástroj na text-to-speech pro vzdělávací materiály angličtiny pro starší dospělé, který by umožňoval simulovat reálné rodilé mluvčí v rozhovorech nebo role-play cvičeních. Dále by měl umět pracovat s různými přízvuky, hlasy a tempy řeči, měl intuitivní ovládání a nestál měsíčně ranec. 

Jako to vypadá teď

Poslechy nahrávám já anebo požádám cizince, kamarády, se kterými nahrávky dělám anebo využívám free nástroje, které mají omezený počet znaků. Pokud nahrávám já anebo využívám živé dabéry, tak to je časově náročné a jsem často závislá na časových možnostech jiných a zpracování jednoduchého rozhovoru nebo textu od začátku do nahrání na výukovou platformu se může protáhnout i na několik dní.
Další nevýhodou je, že dialogy musím často nahrávat jednohlasně, což není moc zajímavé a edukativní pro mé studenty.  

V případě využití nástrojů zdarma (například TTS Maker) je sice úkol zpracován rychle, ale má limitovanou kvalitu a dialogy nezpracovávám téměř nikdy, protože bych musela složitě stříhat různé hlasy a skládat je do jednoho audio souboru. 

Jaký mám cíl

Používám jeden (max 2) nástroje, ve kterých se mi snadno pracuje, kam nahážu text (i dialogy), vyberu si hlasy, tempo nebo styl pro jednotlivé části textu a vygeneruje se mi 1 zvukový soubor ve formátu, který můžu použít v online knihovně a v online kurzech (mp3). 
Vybraný tool umí různé hlasy - gender, věk, přízvuky, tempo. Všechny nahrávky mám na 1 místě, kde s nimi mohu dál pracovat a vracet se k nim. 

Ušetřím minimálně 50 % času, který trávím nahráváním a postprodukcí, což při spodní hranici znamená 2,5 hodiny týdně a při horní hranici až 5 hodin týdně, což přepočteno na peníze je cca 2500 - 5000 Kč týdně (moje práce a čas, práce asistentky + další náklady)

BONUS
Řešení mohu nabídnout dalším lektorům jazyků a tím vydělat další peníze. 

Proč to dělám

Trávím nahráváním zvukových materiálů a postprodukcí spoustu času (cca 5 - 10 hodin týdně).
Potřebuji obměňovat nahrávky a vytvářet je pro různé jazykové úrovně, pro různé výukové účely a v různých délkách a obtížnostech tak, abych studentům poskytla poslechy, které jim velmi pomáhají v pokrocích, takže je to činnost, které se věnuji pravidelně 1-2x týdně
Do budoucna mohu tvořit jen texty a do toolu je může naházet asistentka a já mám volné ruce pro jiné věci. 

Co jsem dělala

RESEARCH
V minulosti (2 roky zpět) jsem využívala několik placených nástrojů, ze kterých několik dnes již neexistuje anebo se přejměnovaly (Profit voice, PlayAI od Play.ht). Nabídka se ohromně rozrostla a začínám se ztrácet v přehršli možností. 
Tato část procesu mi zabrala nejvíc času, dohromady asi 2 týdny, protože jsem si chtěla vyzkoušet a srovnat co je v nabídce a někdy jsem se dostala na slepou kolej, protože jsem zůstala zacyklená v obrovské nabídce nástrojů a možností. 
Nakonec jsem si musela dát časový limit, a to maximálně 1 hodinu na prozkoumání či testování 1 nástroje.  

PŘEKÁŽKY V PRŮBĚHU
Původně jsem očekávala, že se mi do celého projektu nebude chtít jít právě z důvodu náročnosti na research - čas a energie. Toto se mi potvrdilo a musela jsem omezit mé "objevování" nových možností a funkcí časově. Vytvořila jsem si taky tabulku, ve které srovnávám různé nástroje podle předem daných parametrů. Tabulku postupně aktualizuji a je to i pro mě takový přehled výhod a nevýhod jednotlivých nástrojů. 

Cena toolů a free trial - důležitý parametr, který občas není snadné objevit anebo vyčíst na první dobrou. Některé tooly nemají trial period zdarma, jiné mají zkušební dobu omezenou počtem znaků nebo délkou nahrávky a jiné nástroje chtějí plnou registraci i kreditku, a to i na trial zdarma. Většina nástrojů nabízí různé balíčky jako kombinaci různých funkcionalit, které ne vždy jsou pro mě a moje účely zajímavé. Je to vcelku náročný úkol i vzhledem k tomu, že si platím i jiné nástroje pro tvorbu vzdělávacích materiálů.  K nějakému základnímu srovnání cena/výkon opět používám tabulku. U nástrojů, které nenabízí free trial jsem se rozhodla se déle jimi nezabývat, protože co si nemohu předem vyzkoušet, nechci. 

Čas - s tím bojuji vždy, ale řekla jsem si, že tímto projektem můj research nekončí. Tím, že si vedu záznamy v tabulce, můžu se ke svým poznámkám vracet a některé nástroje prozkoumat víc do hloubky někdy později. Moje potřeby se také vyvíjejí v čase, takže to neberu fatálně, ale jako něco, k čemu se budu průběžně vracet a testovat. 

Nástroje

Co jsem hodnotila 

✅ Hlasová nabídka angličtinypřízvuky, stáří mluvčích, pohlaví
✅ Kvalita hlasu - subjektivně1 (elektronický) -10 (přirozený lidský)
✅ Styly a tónystandard, neutral, dokument, vzdělávání; rychlost
✅ Emocenadšení, radost, smutek, nuda, šeptání
✅ Možnost dialogukombinace 2 a více hlasů pro rozhovory
✅ Stříhání zvukové stopypřímo v nástroji ano/ne
✅ Další úpravy stopyvkládání hudby nebo jiných zvuků
✅ Formát výstupump3 a další ano/ne
✅ Úložiště a historieano/ne
✅ Free trialano/ne
✅ Poplatek/měsícčástka
✅ Orientace v toolu a práce s nímškála 1 (easy)-5 (too complicated)

TTS Maker

+ elektronicky znějící hlasy, zejména ty s přízvukem UK přízvuky a mužské
+ velmi easy a straight forward orientace v toolu
+ možnost pustit si hlasy a nastavit tóny - serious/jealousy/gentle
+ 500 - 20 000 znaků na text (kvalitněji znějící hlasy mají nízký počet znaků)

- omezené styly, tóny, emoce, které zní dost roboticky
- nelze dialogy
- není úložiště nebo historie
- nelze stříhat ani upravovat -> 1 text = 1 hlas = 1 audio soubor

Ukázka TTS Maker

123APPS

+ překvapila mě kvalita hlasů, které zněly dost lidsky, i když zejména mužské často padaly do elektronických "ocásků"
+ měsíční poplatek je nízký

- nelze zvolit stáří mluvčích nebo emoce
- nelze dialogy
- není úložiště nebo historie
- trial má jen 1000 znaků/den

Ukázka 123apps

Revoicer

+ skvěle znějící lidské hlasy s různými tóny, emocemi a styly - zvukové ukázky mě nadchly
+ lákavě zpracovaná landing page vybízí k vyzkoušení
+ one time payment $67

- není trial! Jako cože?! bez trialu a možnosti vyzkoušení si toolu nedokážu říct, jestli má funkce, které potřebuji, takže jdu od toho

ElevenLabs

+ přirozeně znějící hlasy s různými přízvuky a styly, jako vyprávění, výuka nebo marketingové sdělení (dokonce i například Němec s přízvukem mluvící anglicky)
+ možnost jednoduše si vyzkoušet na landing page, jak jednoduše se s toolem pracuje
+ trial verze obsahuje i další nástroje jako conversational AI nebo speech to text
+ samotná funkce text to speech je opravdu hodně snadná a rozhovor jsem měla hotový během pár minut v prostředí, které bylo pro mě úplně nové, až jsem se divila, že to je tak jednoduché a hledala jsem nějaké problémy

- na landing page je možnost vyzkoušet si jen US English, tak jsem začínala odcházet, protože jen americká angličtina mi nestačí
- nutnost zaregistrovat se a přihlásit, abych mohla vidět a slyšet všechny možnosti nástroje
- 10k kreditů na měsíc (10 minut TTS) je dost málo, ale za $5 nebo $22 lze upgradovat na 30 nebo 100 minut

Ukázka dialogu ElevenLabs

A aktuálním vítězem se stává...

ElevenLabs

✅ Hlasová nabídka angličtinyANO (přízvuky, stáří, pohlaví, různé jazyky)
✅ Kvalita hlasu - subjektivně9 - 10 (přirozený lidský)
✅ Styly a tónyANO (narrative, conversational, characters etc., speed pace etc)
✅ EmoceČÁSTEČNĚ - nenašla jsem ve free verzi, ale různě zabarvené hlasy lze vybírat v nabídce nebo si vygenerovat svůj hlas
✅ Možnost dialoguANO a je to super easy a rychlé, stačí jen pár vteřin, když mám připravený text
✅ Stříhání zvukové stopynení potřeba, smazáním textu a přidáním řádku a hlasu lze vygenerovat opravu
✅ Další úpravy stopyLZE vkládání hudby nebo jiných zvuků, jen jsem na to nepřišla
✅ Formát výstupump3 a další ano
✅ Úložiště a historieANO
✅ Free trialANO
✅ Poplatek/měsíc5 - 22 USD
✅ Orientace v toolu a práce s ním2 pro tvorbu text to speech, 3 za orientaci v toolu celkově

Tento nástroj předčil má očekávání, zejména co do rychlosti zpracování úkolu, a to od vložení předpřipraveného textu, po navolení hlasů a dalších nastavení, po kontrolu celého rozhovoru a stažení výsledného audio souboru. Vše bylo během několika pár minut hotové a připravené pro další použití.

Mission accomplished

Cílem bylo: "Používám jeden (max 2) nástroje ✅, ve kterých se mi snadno pracuje ✅, kam nahážu text (i dialogy), vyberu si hlasy, tempo nebo styl pro jednotlivé části textu ✅ a vygeneruje se mi 1 zvukový soubor ✅ ve formátu, který můžu použít v online knihovně a v online kurzech (mp3) ✅. 
Vybraný tool umí různé hlasy - gender, věk, přízvuky, tempo ✅. Všechny nahrávky mám na 1 místě ✅, kde s nimi mohu dál pracovat a vracet se k nim. 

Ušetřím minimálně 50 % času ✅, který trávím nahráváním a postprodukcí, což při spodní hranici znamená 2,5 hodiny týdně a při horní hranici až 5 hodin týdně, což přepočteno na peníze je cca 2500 - 5000 Kč týdně (moje práce a čas, práce asistentky + další náklady ✅)"

BONUS
Řešení mohu nabídnout dalším lektorům jazyků ✅ a tím vydělat další peníze. 

Další nástroje, které jsem prozkoumala částečně

NaturalReader

  • různé hlasy, včetně přirozených lidských hlasů
  • možnost upravit rychlost a tón hlasu

Play.ht

  • testovala jsem před 2 roky
  • umí dialogy
  • profesionální syntéza hlasu s realistickými hlasy
  • výběr přízvuků (britský, americký atd.)
  • nabízí API pro integraci do vlastních aplikací

Descript

  • umí přepis a syntézu hlasu
  • vytváření vlastních hlasových profilů
  • vhodné pro interaktivní lekce nebo simulace konverzací

Replica Studios

  • specializuje se na tvůrce a hry
  • podporuje různé role a emoce
  • lze vytvořit specifické hlasové postavy pro jednotlivá role-play cvičení

Microsoft Azure Speech Studio

  • pokročilé možnosti nastavení hlasu, rychlosti a tónu
  • více jazyků a přízvuků
  • integrace s dalšími AI funkcemi, jako je sentiment analysis

LOVO AI:

  • hlasy optimalizované pro starší uživatele - různý věk, včetně dětí
  • přízvuky a různé jazykové varianty
  • generuje realistické konverzační situace
  • tento nástroj mě hodně zaujal a prozkoumám ho blíž

Murf AI

  • realistické hlasy, různé přízvuky
  • zvukové efekty pro realističtější simulace

Další benefity

Trh se za 2 roky hodně změnil a v nabídce je mnohem víc než jen jednoduché převedení textu do digitálního hlasu, který byl vytvořen umělou inteligencí. 
Naprosto mě uchvátila možnost klonování hlasu "voice cloning", který v placených verzích nabízí mnoho nástrojů. 

Voice Cloning je technologie, která umožňuje vytvořit digitální repliku lidského hlasu na základě zvukových nahrávek.

  • Jak Voice cloning funguje a co dokáže se můžete podívat ve videu z produkce CNET  tady
  • Jak se dá voice cloning využít je k přečtení například na Mediu tady.
  • A jak může voice cloning působit v marketingu tak velké společnosti jakou je Slovenská sporiteľňa, když její novoroční spot namluví 20 let mrtvá herecká hvězda Július Satinský, se můžete podívat a poslechnout si tady

A ano, vyvolává to mnoho otázek etických, právních i lidských. Některé platformy vyžadují důkaz o vlastnictví hlasu a jiné ne, některé platformy dokonce mohou váš klonovaný hlas nabídnout dalším uživatelům atd. Zde asi víc než jinde je třeba číst podmínky použití a možná se i doptat AI, jak to je s riziky....

Stay tuned! ♥

Zajímá tě moje cesta za DESIGNEM informačních služeb?

Chceš se mnou spolupracovat na designu svých vzdělávacích projektů podle principů designovéh myšlení? 
Dej mi o sobě vědět!

Říká se, že na komerčních stránkách podnikatelů a firem sekci "o mně nebo o nás" nikdo nečte. 

NENÍ TO PRAVDA

Kdyby existoval jediný člověk, který si tuto sekci na vašich stránkách přečte, pokud se tam dostane, pak jsem to .

Věřím, že se v celém kosmovesmíru najde minimálně jeden člověk, který si tuto stránku na mém webu taky všimne a možná si něco o mně přečte. 
Psaní pro mě vždy bylo nástrojem k uvolnění myšlenek, stresu i štěstí, smutku i euforie. Jazyk je stvořen přesně k tomuto účelu - sdělovat. 

A tak budu na těchto stránkách sdělovat střípky ze svého života, protože to je to, proč tu jsme. ŽÍT SVŮJ ŽIVOT.