Ukradl ChatGPT hlas slavné herečce? Flirt a chichotání jsou krok stranou

Článek

„Funkce, kterou vás jazykové modely uchvátí, se jmenuje Scarlett Johanssonová. A vy jste si mysleli, že to je matematika nebo tak něco,“ vtipkoval Andrej Karpathy, uznávaný expert na AI a bývalý vysoce postavený výzkumník OpenAI nebo Tesla. Na co tím naráží?

Pokud znáte film Ona (Her) z roku 2013 a zároveň jste sledovali tiskovou konferenci OpenAI, hned víte, co tím myslí. Jeden z hlasů, kterými nový model GPT-4 Omni promlouval, totiž připomínal herečku Scarlet Johanssonovou.

Schválně si porovnejte oba hlasy:

Porovnejte si hlas z filmu Her (Ona) s hlasem Sky v ChatGPT.Video: střih: Pavel Kasík, Seznam Zprávy

Podobnosti si všimlo více lidí. Ostatně sám šéf OpenAI Sam Altman tyto spekulace přiživoval, když na síti X napsal jediné slovo: „her“, což řada lidí pochopila jako odkaz na tento film. Ostatně již dříve Altman uvedl, že byli filmem „do velké míry inspirováni“.

Nebyla to ona, ale…

Firma OpenAI se rozhodla – po dopise od právního zástupce Johanssonové – předmětný hlas Sky stáhnout (pro uživatele aplikace je ale zatím stále dostupný). Na svém blogu také firma objasnila, že se nejedná o imitaci Johanssonové: „Jsme přesvědčeni, že hlasy umělé inteligence by neměly záměrně napodobovat charakteristický hlas celebrit – hlas Sky není napodobeninou Scarlett Johanssonové, ale patří jiné profesionální herečce, která používá svůj vlastní přirozený hlas. Z důvodu ochrany jejich soukromí nemůžeme jména našich hlasových talentů zveřejnit.“

To je ale v rozporu s tím, co pro NPR uvedla Johanssonová. Tu prý v září 2023 Altman kontaktoval s nabídkou, aby se stala jedním z hlasů ChatGPT: „Řekl mi, že bych svým hlasem mohla překlenout propast (…) a pomoci zákazníkům, aby se cítili pohodlně v souvislosti s tímto dramatickým posunem týkajícím se lidí a umělé inteligence.“ Odmítla. Poté se jí firma OpenAI ozvala ještě jednou, v květnu 2024.

Celé vyjádření Scarlett Johanssonové

V září loňského roku jsem dostala nabídku od Sama Altmana, který mě chtěl angažovat jako hlas systému ChatGPT 4.0. Řekl mi, že má pocit, že bych svým namluvením systému mohla překlenout propast mezi technologickými společnostmi a kreativci a pomoci zákazníkům, aby se cítili pohodlně v souvislosti s tímto dramatickým posunem týkajícím se lidí a umělé inteligence. Řekl, že má pocit, že můj hlas bude pro lidi uklidňující.

Po dlouhém zvažování a z osobních důvodů jsem nabídku odmítla. O devět měsíců později si moji přátelé, rodina i široká veřejnost všimli, jak moc se mi nejnovější hlas s názvem „Sky“ podobá.

Jelikož OpenAI tají identitu herečky, jejíž hlas byl použit jako podklad pro hlas Sky, je těžké spekulovat, nakolik byl její hlas zvolen proto, že si jej lze snadno splést se slavným hlasem Johanssonové.

Výběr hlasů ChatGPT v aplikaci pro Android (21. května 2024).Video: Pavel Kasík, Seznam Zprávy

Do budoucna lze očekávat legislativu, která bude „AI klonování hlasu“ upravovat. Nejen kvůli hercům, ale i kvůli možnosti zneužití například v podvodech nebo v reklamách.

Klonování hlasů eticky i neeticky

Současné systémy už umí napodobit hlas kohokoli na základě krátké nahrávky. Podvodníci toho zneužívají například k pokusům o finanční manipulace nebo ve falešných telefonátech.

Poslechl šéfa, kolegové mu obří transakci schválili. Všichni byli jen loutky

8. 2. 2024 10:00

Zákaz robotických telefonátů. Američanům už nesmí volat naklonované hlasy

9. 2. 2024 19:00

Kromě toho ale klonování hlasů nabízí nové možnosti, které nekolidují s etikou. Lze například nabídnout namluvený obsah pro snadný poslech článků. Jiné experimenty hledají, jak uchovat hlas lidí, kteří o něj z různých důvodů přicházejí.

Nové iPhony umí samy naklonovat váš hlas. Zatím to nejde použít ani zneužít

24. 7. 2023 10:25

Poznejte robota: Seznam Zprávy testují v rádiu stroj, který mluví jako člověk

21. 6. 2023 11:55

Problémy týkající se lidských hlasů implementovaných do nástrojů umělé inteligence jdou ale ještě hlouběji. Především ve chvíli, kdy do toho vstupují emoce. Či spíše „imitace emocí“.

Kdo chce, aby s ním počítač flirtoval?

Nový chatbot ChatGPT ve verzi GPT-4 Omni asi řadu lidí nejvíce zaujal tím, jak začal do svého projevu zapracovávat emoce. Schválně si poslechněte, jak je hlasový projev proložený oddychováním i smíchem.

Ukázka interakce s novým modelem GPT-4 (13. května 2024).Video: Video: OpenAI, střih a titulky: Pavel Kasík, Seznam Zprávy

Další desítky ukázek najdete na jejich YouTube kanále. Zaujala mne třeba „příprava na interview“, kdy chatbot uživateli radí, aby se trochu učesal. No schválně, kdybyste slyšeli, jak se někdo takto baví s vaším partnerem nebo partnerkou, nežárlili byste trochu?

A tady vidím hlavní problém. Tento model bude dostupný pro každého, i v bezplatné verzi ChatGPT. Technická ředitelka OpenAI tvrdí, že hlavním cílem při zpřístupnění nového GPT-4 Omni široké veřejnosti je snaha zvýšit povědomí o možnostech AI.

„Velmi důležitou součástí našeho poslání je zpřístupnit naše pokročilé nástroje umělé inteligence všem zdarma,“ podtrhla Mira Muratiová. „Myslíme si, že je nesmírně důležité, aby lidé věděli, co tato technologie dokáže,“ dodala.

Jenže tím, že technologie dostane k dispozici emoce – přesněji možnost předstírat emoce –, dochází spíše k zakamuflování toho, jak chatbot skutečně funguje. Jistě, je působivé, že umí mluvit rychle i pomalu, věrohodně zpívat i roztomile se chichotat… Ale opravdu to od nástroje jako ChatGPT chceme?

Někdo určitě ano. Alespoň občas. Komu by ostatně nedělalo dobře poslouchat takové „polechtání ega“, lichotky a obdivné poznámky.

Jenže zahrávat si s emocemi je ošidné. Platí to v mezilidských vztazích a platí to i ve vztahu mezi člověkem a počítačem. Jenže počítač – na rozdíl od člověka – za své chování nemůže být zodpovědný. Není to „entita“, je to model, který generuje slova. Je to spíš mimozemšťan, který se naučil mluvit lidskou řečí, ale nesdílí lidskou zkušenost.

Systémy umělé inteligence se tváří přívětivě, ale pod maskou lidskosti jde o těžko pochopitelnou „mimozemskou“ technologii.

Není divu, že firmy hledají, jak takovéto podivné chatboty co nejvíce polidštit. Ale může to napáchat více škody než užitku. „Tvůrci těchto technologií by měli dokoukat ty filmy, kterými se inspirují,“ glosuje to Brian Barrett z magazínu Wired.

Ve filmu Her (Ona) totiž asistentka Samantha hlavnímu hrdinovi nejen uspořádá dokumenty, pomůže s tvorbou knihy a rozjasní den, ale také mu tak trochu zlomí srdce. Něco, co nejspíš nechcete zažívat, kdykoli si nainstalujete novou aplikaci.

Nástroje využívající umělou inteligenci mohou být mocnými nástroji pro zvýšení produktivity i inspirace. Stojí za to s nimi experimentovat. Ale když budou vzdychat úžasem a chichotat se vašim vtipům, pamatujte, že to není reakce lidská.

Nejspíš to ale bude funkce, která se bude hodně uživatelům líbit. Zatím se tomu smějeme, ale nepodceňujme lidské ego. Až vás umělá inteligence pochválí hlasem, který bude vytvořený přímo vám na míru, neubráníte se ryze lidské reakci. A možná pak ještě budete s nostalgií vzpomínat na primitivní robotické hlasy, se kterými jste se mohli bavit věcně a bez emocí.

Jak zacházet s AI hlasy eticky?

Na to, jak řešit nakládání s klonovanými hlasy, jsem se zeptal kolegy Jiřího Špačka, zástupce ředitele Seznam Zpráv, který má na starosti umělé hlasy používané například na našem webu.

Jaké jsou etické aspekty, které je nutné brát v úvahu při klonování hlasů?

Lidský hlas můžeme považovat za nejdůležitější komunikační prostředek. Slyšíme ho ještě před narozením, lidský hlas obvykle rozpoznáme mezi ostatními zvuky, i když neznáme jazyk, dokážeme se zaměřit na jeden konkrétní v hlučném davu, i bez porozumění slov dokážeme často odhadnout, co se právě sděluje. Je tedy důležitý, a tak i kdybych pominul zákon o ochraně osobních údajů, což nejde, tak by každé klonování hlasu mělo podléhat souhlasu dotyčné osoby s vymezením rozsahu i způsobu použití s ohledem na důstojnost člověka a jeho unikátní identitu. V Seznam Zprávách máme ve smlouvách jasně definované užití i zakázaná témata pro každý z hlasů. Trochu odlišný, méně přísný, ale může být u veřejně známých osob nebo imitátorů, tedy v nějaké satiře nebo karikaturách, ze kterých je zřejmé, že nejde o původního řečníka a účelem není nějak oklamat posluchače.

V čem je výhoda a nevýhoda přidání emocí, chichotu nebo hezitací do syntetického hlasu?

Neverbální hlasové projevy, jak se dýchání, zaváhání nebo smíchu říká, mohou navozovat přijatelnější komunikační atmosféru, větší důvěryhodnost, pokud je umíte správně používat a působí věrohodně. Ale musí se k tomu přistupovat obezřetně. Když víte, že mluvíte s robotem, nemusíte ho slyšet dýchat. Když klonujete hlas, děláte třeba pro dabing hlas herce, který už ve skutečnosti není mezi námi, tak mu dýchání určitě dopřejete.

Vyhledat

Hlavní menu

záhlaví

Hlavní obsah

Ministr Baxa koupil dům za 15 milionů. Jak ho celý platil, neuvedl přesně

Tykač vybuduje největší bateriová úložiště v Česku

Putin chce změnit strukturu elit. Zabavuje majetek i věrným oligarchům

Sto tisíc dětí nemá lékaře. Stát po kritice změnil podmínky pro ordinace

Škrtněte příspěvky starého penzijka. Nebo ho zrušte komplet, volají experti

Úplatek chtějí v Íránu policista i zdravotní sestra, ukazuje film z Varů