Článek
Nový nástroj společnosti OpenAI, Voice Engine, dokáže vygenerovat přesvědčivou a přirozenou kopii hlasu kohokoli, a to na základě pouhých 15 vteřin nahraného zvuku. Byl ale zatím označen za až příliš riskantní pro plošné zpřístupnění, mohl by totiž napomáhat šíření dezinformací, kdy by šlo napodobit hlasy politiků a známých osobností.
Voice Engine byl poprvé vyvinut v roce 2022 a původně byl využíván k převodu textu na řeč u nástroje umělé inteligence ChatGPT. Jeho výkon však nebyl nikdy veřejně odhalen, částečně právě kvůli opatrnému přístupu, který společnost OpenAI zaujímá k jeho zpřístupnění.
Šíření firma blokuje mimo jiné i kvůli tomu, že na letošní rok připadá výjimečně vysoké množství voleb po celém světě, včetně těch prezidentských v USA nebo voleb do Evropského parlamentu. Podle magazínu Time jsou volby plánovány nebo se očekávají v nejméně 64 zemích a v EU, což dohromady představuje téměř polovinu světové populace. Společnost se tak snaží minimalizovat šíření dezinformací.
„Doufáme, že se nám podaří nastartovat diskusi o odpovědném využívání syntetických hlasů a o tom, jak se společnost může těmto novým schopnostem přizpůsobit. Na základě těchto rozhovorů a výsledků těchto malých testů učiníme informovanější rozhodnutí o tom, zda a jak tuto technologii nasadit ve velkém měřítku,“ uvedla společnost v článku na svém blogu. Tam si také můžete poslechnout ukázky klonovaných hlasů.
Technologii testuje několik firem
Aby OpenAI zjistila, jaké možnosti její technologie vlastně nabízí, poskytla ji pěti partnerským firmám, které s ní okamžitě začaly experimentovat a zkoušet, jak by ji ve svém podnikání mohly využít. Mezi společnosti s přístupem patří společnost Age of Learning zabývající se vzdělávacími technologiemi, platforma pro vizuální vyprávění příběhů HeyGen, výrobce zdravotnického softwaru Dimagi, tvůrce AI komunikační aplikace Livox a zdravotnický systém Lifespan.
Společnost ve svém blogovém příspěvku představila pokrok jednotlivých společností i s ukázkami, co Voice Engine v jejich rukou dovede. V ukázkách práce společnosti Age of Learning je například názorně slyšet, jak lze generování hlasů využít k předčítání učiva nebo k odpovídání na otázky studentů – odpovědi vygeneroval ChatGPT 4. To by mohlo do budoucna zpřístupnit studijní materiály většímu množství žáků.
HeyGen pak nástroj použila k překládání obsahů, jako jsou videa nebo podcasty. Tvůrci by tak mohli oslovit lidi z celého světa, a to svým vlastním hlasem, ale jiným jazykem a navíc s dokonalým přízvukem.
S jazyky pracuje také Dimagi, které vyvíjí nástroj pro komunitní zdravotníky, který by jim měl usnadnit komunikaci s pacienty. Aby těmto pracovníkům pomohla, používá Dimagi Voice Engine a GPT-4 k poskytování interaktivní zpětné vazby v hlavním jazyce každého pracovníka, včetně svahilštiny nebo neformálních jazyků.
Nástroj může pomáhat také lidem s poruchou řeči. Livox, aplikace s AI pro alternativní komunikaci, dokáže vytvořit jedinečný hlas, a pokud si přejí hovořit v různých jazycích, zachovat ten stejný hlas pro všechny z nich.
Pomoci může též pacientům s náhlým nebo degenerativním onemocněním řeči při obnově hlasu. Norman Prince Neurosciences Institute při Lifespan (neziskový zdravotnický systém), který slouží jako hlavní výuková pobočka lékařské fakulty Brownovy univerzity, zkoumá využití umělé inteligence v klinických souvislostech. V rámci pilotního projektu nabízejí generaci hlasu osobám s onkologickou nebo neurologickou poruchou řeči. Díky tomu, že Voice Engine vyžaduje pouze krátký zvukový vzorek, dokázali lékaři například obnovit hlas mladé pacientky, která ztratila plynulou řeč v důsledku cévního nádoru mozku, a to pouze pomocí zvuku jejího hlasu z videa nahraného pro školní projekt.
AI hlasů už se chopili podvodníci
Takovýto nástroj ale není bez rizik. Nahrává do karet nejen dezinformátorům, ale také všemožným jiným podvodníkům. Klonování hlasů totiž není pouze doménou OpenAI a pustila se do něj už spousta dalších vývojářů. Během několika kliknutí dnes může svůj hlas naklonovat každý, a v omezené podobě dokonce i zadarmo.
Podvodníci tak poměrně rychle, například díky obrázkům a videím ze sociálních sítí, dokážou napodobit podobu či hlas téměř kohokoli, například i dětí. Klon pak zavolá někomu, z koho chce vytáhnout peníze. Některému z příbuzných, do banky nebo kolegům. Jednou z obětí se stal například i Dalibor Cicman, šéf společnosti GymBeam, jehož klon se hackeři snažili použít při videohovoru s jedním ze zaměstnanců.
Jak se bránit podvodům, které kopírují hlas a podobu?
Podvodníci mohou relativně snadno zneužít vaši podobu nebo hlas na základě videa, nahrávek a fotek, které jste publikovali na internetu. S použitím speciálních – ale čím dál dostupnějších – nástrojů mohou vytvořit nahrávku, nebo dokonce živou „deep fake loutku“, která bude na první pohled k nerozeznání od vás.
Firmy by tedy měly zdůraznit svým zaměstnancům nutnost používat k oficiální komunikaci pouze schválené firemní kanály: „Útočníci se v obětech obvykle snaží vyvolat pocit urgence, aby je přiměli k uspěchaným nebo neobvyklým rozhodnutím, většinou k porušení zavedených firemních procesů,“ popisuje častou taktiku Luis Corrons, bezpečnostní expert Avastu. V takové situace je důležité se nenechat zmást a osobu kontaktovat jiným kanálem, abyste si ověřili, že je to skutečně ona.
„U schvalování finančních operací nebo poskytování citlivých informací je důležité mít nastavené procesy, komunikační kanály a odpovědné osoby, které mohou takové informace poskytovat,“ radí Vladimíra Žáčková, specialistka kybernetické bezpečnosti společnosti ESET. „Riziko prozrazení důvěrných informací nebo schválení neoprávněných operací se tak značně snižuje.“ Připomíná také, že firmy by si měly dávat pozor, co všechno o sobě na webu zveřejňují. Zejména organizační struktura společnosti může být útočníky snadno zneužitelná, protože jim umožní věrohodněji napodobit něčí vystupování.
Ani jednotlivci nejsou v bezpečí. S tím, jak se cena sofistikovaných útoků snižuje, mohou se s nimi setkat i soukromé osoby. „Nevěřte hlasu,“ varuje americká Federální obchodní komise. „Kontaktujte tu osobu jiným způsobem a ověřte, že je to skutečně ona.“ Můžete si také s blízkými předem domluvit heslo pro podobné případy. Nebo se alespoň zeptat na otázku, na kterou vy i dotyčný určitě znáte odpověď, ale která nejde dohledat na internetu.
Svět tak stojí před velkou výzvou, aby co nejlépe zamezil zneužívání těchto nástrojů. Americká vláda se aktuálně neetické využívání hlasové technologie AI snaží omezit. V únoru například Federální úřad pro dozor nad komunikačními kanály (FCC) zakázal robotické hovory využívající hlasy umělé inteligence poté, co lidé dostávali nevyžádané hovory od hlasu prezidenta Joea Bidena naklonovaného umělou inteligencí.
Společnost OpenAI navrhla několik kroků, které by podle ní mohly omezit rizika spojená s podobnými nástroji. Například postupné zrušení ověřování hlasu pro přístup k bankovním účtům, nastavení zásad na ochranu používání lidských hlasů umělou inteligencí, lepšího vzdělávání v oblasti deepfakes a vývoje systémů monitorování AI obsahu.
OpenAI v příspěvku na blogu zároveň uvádí, že se její partneři zavázali dodržovat základní zásady. Nebudou tak používat Voice Engine k vydávání se za lidi nebo organizace bez jejich souhlasu. Společnost po svých partnerech také chce, aby ke klonování vždy získali výslovný a informovaný souhlas původního mluvčího, nevytvářeli způsob, kterým by jednotliví uživatelé mohli vytvářet své vlastní hlasy, a aby posluchačům sdělovali, že hlasy jsou generovány umělou inteligencí.
OpenAI také přidala ke všem svým zvukovým klipům vodoznak, aby bylo možné vysledovat jejich původ a aktivně sledovat, jak je zvuk používán.
Generativní umělá inteligence na vzestupu
Od listopadu 2022, kdy firma OpenAI představila nástroj ChatGPT, lidé po celém světě experimentují s tím, jak jim generativní umělá inteligence může pomoci.
O tom, co nové nástroje umí, nebo neumí, se diskutuje z mnoha pohledů. Jedná se o skutečnou inteligenci a kreativitu? Výsledky jsou totiž nejen ohromující, ale také bizarní.