Článek
Alexa od firmy Amazon promluvila novým hlasem. Což není samo o sobě nic zvláštního. Za osm let, co je domácí digitální asistentka na trhu, dostala Alexa už několik hlasových sad, včetně šeptání nebo napodobování hlasu celebrit.
Jenže tentokrát nešlo o hlas celebrity. Ve scénáři, který americká firma prezentovala na konferenci v Las Vegas, požádalo dítě digitálního asistenta: „Alexo, může mi babička dočíst pohádku Čaroděj ze země Oz?“
„Dobře,“ odpovídá Alexa svým klasickým způsobem. Pak ale přepne a pohádku čte klidným, nepatrně ochraptělým hlasem starší ženy. Z nadšeného výrazu chlapce na videu máme pochopit, že je mu poslech babiččina hlasu příjemný. (Na video se můžete podívat v úvodu článku.)
Strojové učení nemůže odstranit bolest ze ztráty blízkého člověka. Ale může uchovat vzpomínky.
Ale bylo by to tak ve skutečnosti? Nebyl by vnuk naopak přinejmenším rozpačitý z toho, že mu pohádku čte hlas napodobující jeho babičku? Navíc když se – jak víme z kontextu – jedná o babičku, která již nežije?
Vzpomínky přetrvají
Podle Amazonu jde o budování důvěry uživatele. K tomu je podle nich potřeba empatie a afektivity: „Tyto atributy se staly ještě důležitějšími v dnešní době přetrvávající pandemie, kdy tolik z nás ztratilo někoho blízkého,“ uvedl Rohit Prasad, viceprezident, jenž novou experimentální funkci překvapenému publiku ukázal.
„Strojové učení sice nemůže odstranit bolest ze ztráty blízkého člověka,“ dodal Prasad, „ale rozhodně může přispět k tomu, aby vzpomínky na něj přetrvaly.“
Tato funkce „napodobení babičky“ byla jen krátkou částí nadupané dvouhodinové prezentace, a navíc šlo jen o jednu z mnoha prezentací konference. Měřeno počtem zmínek v médií měla ale rozhodně největší zásah.
Reakce jsou ale jiné, než Amazon možná očekával. Nejen kvůli své podobnosti s dystopickým seriálem Černé zrcadlo sklidila tato vize „hlasu ze záhrobí“ takřka univerzální kritiku.
Noční můra pro každého
Především není vůbec jisté, zda je funkce „oživení hlasu zesnulého“ pro děti nějak žádoucí. Jak poznamenává David Gewirtz ze zpravodajského webu o technologiích ZDNet, taková funkce se až podezřele podobá psychologickému fenoménu „senzorického vnímání zemřelých“. Řada lidí má po smrti blízkého člověka pocit, že jej stále vidí, slyší nebo jinak vnímá. Jak by takovému člověku zamotala hlavu možnost přehrát si prakticky libovolný text hlasem zemřelé osoby?
„Vůbec není jisté, zda to, že dítěti poskytnete hlas ztraceného příbuzného, pro něj bude útěchou, nebo to naopak přinese živobytí psychoterapeutům těchto dětí,“ glosuje Gewirtz.
Přestože během prezentace viceprezident Prasad opravdu naznačoval, že má jít o hlas babičky, která již nežije, později v rozhovoru pro TechCrunch scénář pozměnil: „Tady nešlo o zesnulou babičku. Jenom aby bylo naprosto jasno, ta babička je živá.“
„Šlo spíše o technologii,“ vysvětlil Prasad. „Jsme vědecká společnost, která je velmi zaměřená na zákazníky. Chceme zákazníkům poskytnout správnou sadu ovládacích prvků, včetně toho, čí hlas na ně mluví.“
Ale i kdyby se jednalo o živou osobu, pořád je to počítačové napodobení cizího hlasu. „Nemám pocit, že by byl svět připraven na široce dostupnou technologii počítačové hlasové imitace,“ řekla deníku The Washington Post Rachel Tobacová, výkonná ředitelka společnosti SocialProof Security. „Taková technologie by mohla být použita k manipulaci s veřejností prostřednictvím falešných zvukových nebo obrazových záznamů.“
Deep fake klon prezidenta Zelenského:
„Pokud kyberzločinec dokáže snadno a věrohodně napodobit hlas jiné osoby pomocí malého hlasového vzorku, může tento hlasový vzorek použít k vydávání se za jiné osoby,“ dodala Tobacová. „Padouch tak může ostatní přesvědčit, že je osobou, za kterou se vydává. A to mu umožní podvádět, krást data, převzít cizí účet a další věci.“
Další hrozbou by mohlo být vydírání, stalkování nebo necitlivé vtipy. Široká škála rizik je důvodem, proč firma Microsoft jen několik dní před prezentací Amazonu oznámila, že svůj systém na věrohodné napodobování lidského hlasu (Custom Neural Voice) zatím uzavře jen pro vybrané klienty: „Tato technologie má vzrušující potenciál v oblasti vzdělávání, přístupnosti a zábavy, ale je také snadné si představit, jak by mohla být použita k nevhodnému vydávání se za řečníky nebo klamání posluchačů.“
Počítači postačí minuta vašeho hlasu
Přestože „záhrobní“ funkce od Amazonu zatím není k dispozici – jednalo se jen o ukázku konceptu pro potřeby prezentace –, je celkem jisté, že jde o technologii, která je „zralá“. Už v roce 2016 se editování lidského hlasu představilo na konferenci Adobe. Vývojář Zeyu Jin ukázal, jak může vzít hlasovou stopu, přepsat slova a znovu zvuk pustit, tentokrát ale s novým textem.
Z komerčně dostupných nástrojů to dnes nabízí třeba Respeecher. Musíte ale nejprve software vytrénovat, aby uměl váš hlas přesvědčivě napodobit.
Amazon tvrdí, že jejich experimentální funkce takový trénink nepotřebuje a hlas dokáže imitovat už na základě jednominutové ukázky: „Museli jsme se naučit vytvořit kvalitní hlas z méně než minutové nahrávky, ne z hodin studiových záznamů,“ vysvětlil Prasad. „Způsob, jakým jsme toho dosáhli, spočívá v tom, že jsme problém zarámovali jako úlohu převodu hlasu, a ne jako úlohu generování řeči.“
„Nepochybně žijeme ve zlaté éře strojového učení, kdy se naše sny a sci-fi stávají skutečností,“ uzavřel svou prezentaci Prasad. „Jsem optimista a věřím, že všudypřítomná inteligence, umožněná pokrokem v oblasti zobecnitelné AI, obohatí každodenní život každého člověka všude na světě.“
O tom, že vliv strojového učení na společnost je a bude velký, zřejmě pochybuje málokdo. Co se týče obohacení, bude muset Amazon vymyslet lepší – a méně kontroverzní – příklady než napodobování babiččina hlasu. Ale za pár let si i na to zvykneme. Do závěti pak možná budeme kromě výčtu odkazovaného majetku doplňovat i informace o tom, kdo má právo vytvořit z našich záznamů strojově generovaný hlas, který zní k nerozeznání od toho našeho.