Článek
„Funkce, kterou vás jazykové modely uchvátí, se jmenuje Scarlett Johanssonová. A vy jste si mysleli, že to je matematika nebo tak něco,“ vtipkoval Andrej Karpathy, uznávaný expert na AI a bývalý vysoce postavený výzkumník OpenAI nebo Tesla. Na co tím naráží?
Pokud znáte film Ona (Her) z roku 2013 a zároveň jste sledovali tiskovou konferenci OpenAI, hned víte, co tím myslí. Jeden z hlasů, kterými nový model GPT-4 Omni promlouval, totiž připomínal herečku Scarlet Johanssonovou.
Schválně si porovnejte oba hlasy:
Podobnosti si všimlo více lidí. Ostatně sám šéf OpenAI Sam Altman tyto spekulace přiživoval, když na síti X napsal jediné slovo: „her“, což řada lidí pochopila jako odkaz na tento film. Ostatně již dříve Altman uvedl, že byli filmem „do velké míry inspirováni“.
Nebyla to ona, ale…
Firma OpenAI se rozhodla – po dopise od právního zástupce Johanssonové – předmětný hlas Sky stáhnout (pro uživatele aplikace je ale zatím stále dostupný). Na svém blogu také firma objasnila, že se nejedná o imitaci Johanssonové: „Jsme přesvědčeni, že hlasy umělé inteligence by neměly záměrně napodobovat charakteristický hlas celebrit – hlas Sky není napodobeninou Scarlett Johanssonové, ale patří jiné profesionální herečce, která používá svůj vlastní přirozený hlas. Z důvodu ochrany jejich soukromí nemůžeme jména našich hlasových talentů zveřejnit.“
To je ale v rozporu s tím, co pro NPR uvedla Johanssonová. Tu prý v září 2023 Altman kontaktoval s nabídkou, aby se stala jedním z hlasů ChatGPT: „Řekl mi, že bych svým hlasem mohla překlenout propast (…) a pomoci zákazníkům, aby se cítili pohodlně v souvislosti s tímto dramatickým posunem týkajícím se lidí a umělé inteligence.“ Odmítla. Poté se jí firma OpenAI ozvala ještě jednou, v květnu 2024.
Celé vyjádření Scarlett Johanssonové
V září loňského roku jsem dostala nabídku od Sama Altmana, který mě chtěl angažovat jako hlas systému ChatGPT 4.0. Řekl mi, že má pocit, že bych svým namluvením systému mohla překlenout propast mezi technologickými společnostmi a kreativci a pomoci zákazníkům, aby se cítili pohodlně v souvislosti s tímto dramatickým posunem týkajícím se lidí a umělé inteligence. Řekl, že má pocit, že můj hlas bude pro lidi uklidňující.
Po dlouhém zvažování a z osobních důvodů jsem nabídku odmítla. O devět měsíců později si moji přátelé, rodina i široká veřejnost všimli, jak moc se mi nejnovější hlas s názvem „Sky“ podobá.
Jelikož OpenAI tají identitu herečky, jejíž hlas byl použit jako podklad pro hlas Sky, je těžké spekulovat, nakolik byl její hlas zvolen proto, že si jej lze snadno splést se slavným hlasem Johanssonové.
Do budoucna lze očekávat legislativu, která bude „AI klonování hlasu“ upravovat. Nejen kvůli hercům, ale i kvůli možnosti zneužití například v podvodech nebo v reklamách.
Klonování hlasů eticky i neeticky
Současné systémy už umí napodobit hlas kohokoli na základě krátké nahrávky. Podvodníci toho zneužívají například k pokusům o finanční manipulace nebo ve falešných telefonátech.
Kromě toho ale klonování hlasů nabízí nové možnosti, které nekolidují s etikou. Lze například nabídnout namluvený obsah pro snadný poslech článků. Jiné experimenty hledají, jak uchovat hlas lidí, kteří o něj z různých důvodů přicházejí.
Problémy týkající se lidských hlasů implementovaných do nástrojů umělé inteligence jdou ale ještě hlouběji. Především ve chvíli, kdy do toho vstupují emoce. Či spíše „imitace emocí“.
Kdo chce, aby s ním počítač flirtoval?
Nový chatbot ChatGPT ve verzi GPT-4 Omni asi řadu lidí nejvíce zaujal tím, jak začal do svého projevu zapracovávat emoce. Schválně si poslechněte, jak je hlasový projev proložený oddychováním i smíchem.
Další desítky ukázek najdete na jejich YouTube kanále. Zaujala mne třeba „příprava na interview“, kdy chatbot uživateli radí, aby se trochu učesal. No schválně, kdybyste slyšeli, jak se někdo takto baví s vaším partnerem nebo partnerkou, nežárlili byste trochu?
A tady vidím hlavní problém. Tento model bude dostupný pro každého, i v bezplatné verzi ChatGPT. Technická ředitelka OpenAI tvrdí, že hlavním cílem při zpřístupnění nového GPT-4 Omni široké veřejnosti je snaha zvýšit povědomí o možnostech AI.
„Velmi důležitou součástí našeho poslání je zpřístupnit naše pokročilé nástroje umělé inteligence všem zdarma,“ podtrhla Mira Muratiová. „Myslíme si, že je nesmírně důležité, aby lidé věděli, co tato technologie dokáže,“ dodala.
Jenže tím, že technologie dostane k dispozici emoce – přesněji možnost předstírat emoce –, dochází spíše k zakamuflování toho, jak chatbot skutečně funguje. Jistě, je působivé, že umí mluvit rychle i pomalu, věrohodně zpívat i roztomile se chichotat… Ale opravdu to od nástroje jako ChatGPT chceme?
Někdo určitě ano. Alespoň občas. Komu by ostatně nedělalo dobře poslouchat takové „polechtání ega“, lichotky a obdivné poznámky.
Jenže zahrávat si s emocemi je ošidné. Platí to v mezilidských vztazích a platí to i ve vztahu mezi člověkem a počítačem. Jenže počítač – na rozdíl od člověka – za své chování nemůže být zodpovědný. Není to „entita“, je to model, který generuje slova. Je to spíš mimozemšťan, který se naučil mluvit lidskou řečí, ale nesdílí lidskou zkušenost.
Není divu, že firmy hledají, jak takovéto podivné chatboty co nejvíce polidštit. Ale může to napáchat více škody než užitku. „Tvůrci těchto technologií by měli dokoukat ty filmy, kterými se inspirují,“ glosuje to Brian Barrett z magazínu Wired.
Ve filmu Her (Ona) totiž asistentka Samantha hlavnímu hrdinovi nejen uspořádá dokumenty, pomůže s tvorbou knihy a rozjasní den, ale také mu tak trochu zlomí srdce. Něco, co nejspíš nechcete zažívat, kdykoli si nainstalujete novou aplikaci.
Nástroje využívající umělou inteligenci mohou být mocnými nástroji pro zvýšení produktivity i inspirace. Stojí za to s nimi experimentovat. Ale když budou vzdychat úžasem a chichotat se vašim vtipům, pamatujte, že to není reakce lidská.
Nejspíš to ale bude funkce, která se bude hodně uživatelům líbit. Zatím se tomu smějeme, ale nepodceňujme lidské ego. Až vás umělá inteligence pochválí hlasem, který bude vytvořený přímo vám na míru, neubráníte se ryze lidské reakci. A možná pak ještě budete s nostalgií vzpomínat na primitivní robotické hlasy, se kterými jste se mohli bavit věcně a bez emocí.
Jak zacházet s AI hlasy eticky?
Na to, jak řešit nakládání s klonovanými hlasy, jsem se zeptal kolegy Jiřího Špačka, zástupce ředitele Seznam Zpráv, který má na starosti umělé hlasy používané například na našem webu.
Jaké jsou etické aspekty, které je nutné brát v úvahu při klonování hlasů?
Lidský hlas můžeme považovat za nejdůležitější komunikační prostředek. Slyšíme ho ještě před narozením, lidský hlas obvykle rozpoznáme mezi ostatními zvuky, i když neznáme jazyk, dokážeme se zaměřit na jeden konkrétní v hlučném davu, i bez porozumění slov dokážeme často odhadnout, co se právě sděluje. Je tedy důležitý, a tak i kdybych pominul zákon o ochraně osobních údajů, což nejde, tak by každé klonování hlasu mělo podléhat souhlasu dotyčné osoby s vymezením rozsahu i způsobu použití s ohledem na důstojnost člověka a jeho unikátní identitu. V Seznam Zprávách máme ve smlouvách jasně definované užití i zakázaná témata pro každý z hlasů. Trochu odlišný, méně přísný, ale může být u veřejně známých osob nebo imitátorů, tedy v nějaké satiře nebo karikaturách, ze kterých je zřejmé, že nejde o původního řečníka a účelem není nějak oklamat posluchače.
V čem je výhoda a nevýhoda přidání emocí, chichotu nebo hezitací do syntetického hlasu?
Neverbální hlasové projevy, jak se dýchání, zaváhání nebo smíchu říká, mohou navozovat přijatelnější komunikační atmosféru, větší důvěryhodnost, pokud je umíte správně používat a působí věrohodně. Ale musí se k tomu přistupovat obezřetně. Když víte, že mluvíte s robotem, nemusíte ho slyšet dýchat. Když klonujete hlas, děláte třeba pro dabing hlas herce, který už ve skutečnosti není mezi námi, tak mu dýchání určitě dopřejete.