Článek
Společnost New York Times vydávající slavný stejnojmenný deník koncem prosince podala u newyorského soudu žalobu na firmy OpenAI a Microsoft pro masivní porušování autorských práv v jejich produktech ChatGPT a Copilot.
Čtete ukázku z newsletteru TechMIX, ve kterém Pavel Kasík a Matouš Lázňovský každou středu přinášejí hned několik komentářů a postřehů ze světa vědy a nových technologií. Pokud vás TechMIX zaujme, přihlaste se k jeho odběru!
Není to zdaleka první stížnost týkající se autorských práv a AI. Z „rabování obsahu“ byla v minulosti obviněna nejen firma OpenAI, ale také třeba generátor obrázků Midjourney. Nicméně po přečtení úvodního dokumentu si myslím, že tahle žaloba by mohla být o něco důležitější než ty dosavadní.
Přesvědčivé ukázky opisování
Především je na první pohled zřejmé, že je stížnost dobře připravená s ohledem na cílovou skupinu, tedy na porotu. Proto se značná část dokumentu věnuje tomu, jak klíčovou roli hraje nezávislá novinařina v demokratické společnosti a jak The New York Times svou činnost financují: z předplatného a skrze licenční ujednání.
Díky tomu totiž může stížnost zvýraznit hned dvě věci: ChatGPT přímo soutěží s New York Times (obě služby jsou založeny na modelu předplatného) a firma OpenAI, která příslušné jazykové modely vytrénovala, si k tomu nevyžádala svolení.
Z hlediska obžalovaných firem přitom nejde o žádnou neziskovou činnost: „Využití cenného obsahu, který patří ostatním, bylo pro žalované nesmírně lukrativní,“ uvádí žaloba. Připomíná, že OpenAI směřuje k obratu miliardy dolarů za rok 2023 a firma Microsoft zvýšila – i díky svému důrazu na technologie generativní umělé inteligence – svou tržní hodnotu na rekordních 2,8 bilionu dolarů (což je o bilion více než před rokem).
Porušení práv je zde podle zástupců New York Times dvojí a oboje je v přílohách názorně dokumentováno. ChatGPT především umí „slovo od slova“ reprodukovat obsah chráněný autorským právem, a to v rozsahu větším než malém.
Takových ukázek má žalující strana více. Doslova stovky (PDF). Myslím, že na porotu i na soudce to může docela zapůsobit. „Rozdíl mezi tím, jak s novinovým obsahem zachází vyhledávače, a jak s ním zachází chatbot, je naprosto zjevný,“ komentuje žalobu Jason Kint, zakladatel organizace Digital Content Next. „V příloze J jsou stovky příkladů údajného porušení autorského práva, kdy ChatGPT generuje prakticky identické texty. To je prostě neoddiskutovatelné. Tento důkazní materiál považuji za neuvěřitelně silnou ilustraci pro soudní proces, který bude projednáván před porotou složenou z Američanů.“
Odborníci budou moci dokola opakovat abstraktně znějící principy fungování jazykových modelů, ale pokud z ChatGPT leze článek, který písmeno po písmenu opisuje text z New York Times, tak to prostě vypadá jako porušení autorských práv bez ohledu na to, jestli to dělá člověk, nebo neuronová síť.
Plagiáty i halucinace
Na porotu může také zapůsobit tato ukázka, kde ChatGPT bez uzardění pomáhá uživateli obejít zabezpečení zamčeného článku.
Samozřejmě, že i internetové vyhledávače ukazují části textu. Na tom je ostatně současné on-line informační prostředí postavené a těží z toho i New York Times. Ale úryvky, které vypíše ChatGPT nebo Bing Chat (později Microsoft Copilot), jsou mnohem delší, a lze tedy tvrdit, že významně zasahují do autorských práv redakce.
Druhý typ prohřešku je podle NY Times neméně závažný: tzv. halucinace. K těm dochází u velkých jazykových modelů ze samotného principu jejich fungování. Neuronová síť je vytrénovaná na textech, ale nemá tyto texty obvykle k dispozici a místo toho spoléhá na pravděpodobnosti, podle kterých generuje následující slova. Může tak vygenerovat důvěryhodně vypadající text, který je ale mimo realitu.
ChatGPT si vymýšlí a kecá
Nástroj ChatGPT je založený na velkém jazykovém modelu (LLM). Je vytrénovaný na velkém množství textů z internetu. Umí tak, slovo po slově, generovat důvěryhodně vypadající text.
Ale to neznamená, že jde o výsledky odpovídající realitě. ChatGPT si vymýšlí, fabuluje a sebejistě vám bude tvrdit naprosté nesmysly. Není to „chyba“, vyplývá to z principu, na kterém služba funguje.
Na to je třeba pamatovat, když uvažujete o použití k něčemu jinému než pro vlastní pobavení. Veškerý výstup z nástrojů založených na LLM berte vždy maximálně jako nápad či návrh, nikoli jako bernou minci. Vygenerovaná fakta ověřujte, než je někde použijete.
Konkrétně podle stížnosti ChatGPT tvrdí, že New York Times napsaly něco, co přitom v původních textech nikdy nebylo. Zvláště zjevné je to třeba u oblíbeného recenzního webu Wirecutter, který New York Times patří. Když ChatGPT tvořil souhrn jejich testu kancelářských židlí, tak tam zahrnul „vítěze“, kteří ve skutečné recenzi vůbec nebyli.
„Čtenáři se spoléhají na vysoce kvalitní a dobře podložená doporučení redakce Wirecutter,“ píše stížnost. „Značka Wirecutter je takovými incidenty poškozena. Podkopávají důvěru spotřebitelů a vyvolávají dojem, že doporučení ve Wirecutter jsou nespolehlivá.“ V dalších příkladech si pak ChatGPT nebo Bing Chat zcela vymýšlí třeba „přehled nejzdravějších jídel“ nebo neexistující odstavce z reportáží.
Má žaloba šanci?
Nemyslím si, že je to jednoduchý případ. Naopak velmi dobře odkrývá, že pojmy jako „autorství“ a „autorská práva“ jsou zralé na pořádnou revoluci. Tuto debatu ostatně připomíná i čerstvý případ legendárního Mickey Mouse, u kterého teprve po 95 letech vypršela ochrana autorských práv.
„Žaloba od New York Times je zatím nejlepší argument pro to, že generativní umělá inteligence porušuje autorská práva,“ domnívá se americká právnička Cecilia Zinitiová, která oblasti AI i technologií dlouhodobě sleduje. „Vizuální stránka důkazů je velmi působivá, navržená tak, aby přesvědčila porotu. Podle mého OpenAI prostě nemůže obhájit tuto praxi(…). Bude pro ně chytřejší se s žalující stranou dohodnout, než aby se přetahovali u soudu.“
Vyjádření OpenAI k žalobě
„Respektujeme práva tvůrců a vlastníků obsahu a jsme odhodláni s nimi spolupracovat, abychom zajistili, že budou mít prospěch z technologie AI i z nových zdrojů příjů,“ uvedla v prohlášení společnost OpenAI. „Naše probíhající rozhovory s New York Times byly produktivní a postupovaly konstruktivně, takže jsme tímto vývojem překvapeni a zklamáni. Doufáme, že najdeme oboustranně výhodný způsob spolupráce, jako to děláme s mnoha dalšími vydavateli.“
„Je důležité dodat, že společnost New York Times má výborné právníky,“ připomíná Zinitiová. „Tohle není nějaký rychlý pokus se finančně přiživit, jako to bylo u těch žalob, které byly podány týden po startu ChatGPT. Tohle je strategický právní krok.“
S tím souhlasí i Danielle Coffeyová, výkonná ředitelka News/Media Alliance, obchodní skupiny sdružující vydavatele zpravodajství, kterou cituje Wall Street Journal: „Deník New York Times velmi dobře demonstroval hodnotu a důležitost ochrany zpravodajského obsahu.“ Věří ale, že lze nalézt způsob, jak zajistit, že nové technologie se mohou s kvalitní žurnalistikou doplňovat, nikoli s ní jen soupeřit.
Vlastně ani nevím, jaký výsledek bych si měl já nebo internetová veřejnost přát. Původní novinařině – coby autor i coby čtenář – nadšeně fandím, a stejně tak nadšeně sleduji pokroky generativní AI. Zdá se, že se v roce 2024 schyluje k nějakému rozuzlení, ale radši se nebudu dopouštět žádných predikcí. Nejde totiž zdaleka jen o žurnalistiku. Archiv textů New York Times tvoří zjevně významnou část textů, na kterých OpenAI své modely trénuje, ale pokud by uspěli se svou stížností, představovalo by to ohromný precedent, který by určitě změnil, jak funguje trénování podobných neuronových sítí.
Případ se může táhnout opravdu dlouho, a nebo může jít o taktiku, která má dostat technologické firmy zpět k vyjednávacímu stolu. Nejsem si ale jistý, zda se – vzhledem k tempu, jakým se generativní AI posouvá a vyvíjí – bude tato právní bitva odehrávat dostatečně rychle na to, aby vůbec do něčeho zasáhla.
V plné verzi newsletteru TechMIX toho najdete ještě mnohem víc. Přihlaste se k odběru a budete ho dostávat každou středu přímo do své e-mailové schránky.