Hlavní obsah

Komentář: AI vaří z kradených surovin, jinak to neumí. Je čas zavřít krám?

Matouš Hrdina
Editor newsletterů
Foto: koláž: Pavel Kasík, Seznam Zprávy

Ilustrační obrázek.

Žaloba na firmy OpenAI a Microsoft rozvířila debatu o limitech využívání autorského obsahu pro trénování AI generátorů. Ukazuje se, že obchodní model těchto nástrojů byl od počátku vybudován na porušování autorských práv.

Článek

Na OpenAI, Microsoft, Stability AI a další firmy provozující textové či obrazové generátory v poslední době míří řada žalob. Ale ta ze strany vydavatele New York Times si získala velkou pozornost díky opravdu pádným argumentům.

Zjednodušeně řečeno dokazuje, že nástroj ChatGPT byl trénován (mimo jiné) na obsahu deníku New York Times a že dokáže na vyžádání doslovně reprodukovat text zdrojových článků. A že se navíc při pokusech o jejich shrnutí či parafrázování dopouští faktických omylů, čímž vydavatele NYT ještě dále poškozuje. Argumenty žaloby nedávno v newsletteru TechMIX podrobně rozebral Pavel Kasík.

Firma OpenAI na svém blogu v pondělí přispěchala s odpovědí, ve které se snaží hlavní body žaloby vyvracet. Uvádí, že s některými médii již úspěšně spolupracuje a její technologie pro novináře vytváří „nové možnosti“, nástroje i cesty k propojení s publikem.

Tvrdí, že její využití autorského obsahu je oprávněné („fair use“) a že médiím umožňuje na vyžádání vyloučit vlastní obsah z tréninkových datasetů („opt-out“). Dodává, že přesné kopírování cizího obsahu je údajně ojedinělý jev. Část viny přitom hází na samotné New York Times s tím, že jejich pracovníci do ChatGPT zadávali nestandardní pokyny, a systémem tak manipulovali.

Většina z těchto protiargumentů stojí na vodě. „Nové možnosti“ pro novináře jsou stejný trik, jako když časopis neplatí svým přispěvatelům a za články jim slibuje „zviditelnění“. Možnost opt-out klauzule nemůže zpětně změnit fakt, že jazykový model už byl vytrénován na datech získaných bez povolení. Ta z něj – z logiky fungování dané technologie – už nelze odstranit. Svalování viny na uživatele je průhledná klička a příliš neobstojí ani tvrzení, že přesné kopírování článků je u nástrojů typu ChatGPT vzácnost, či dokonce systémový omyl. Výzkumy naznačují, že je to naopak integrální součást jejich vnitřního mechanismu.

I kdyby ale byly všechny argumenty OpenAI sebepádnější, stále je podrývá fakt, že se firma z porušování autorských práv sama usvědčila už na začátku loňského prosince ve vysvětlujícím dopisu pro jeden z výborů britské Sněmovny lordů. Zcela bezelstně v něm konstatuje, že bez porušování autorských práv by nástroj ChatGPT nemohl fungovat, protože autorská práva dnes pokrývají drtivou většinu digitálního obsahu. A pokud by se snad systém trénoval jen na volně dostupných knihách, obrazech a dalších datech, byly by jeho schopnosti nedostačující.

Bezostyšné není jen toto přiznání, ale i jeho obhajoba. Firma OpenAI sází na populární ideologii nezastavitelného pokroku a tvrdí, že její technologie je pro společnost nesmírně přínosná – skoro jako kdybychom až do jejího uvedení v listopadu 2022 žili v děsivě zaostalém pravěku. K tomu dodává kouzelnou formuli, že ChatGPT „demokratizuje možnosti tvorby“. Tedy že všechny vady překoná fakt, že z kradených dat uživatelé údajně vytvoří fascinují texty či obrázky.

Zdůrazňuje také existenci opt-out klauzule, jakkoli jde vzhledem k logice fungování internetu jen o fíkový list. Není reálné, aby každý tvůrce digitálního obsahu (což je dnes velká část lidstva) sám požádal o vyjmutí z tréninkových datasetů. Zjevným řešením je jen opačný postup, tedy nástroj „opt-in“, jehož prostřednictvím by tvůrci obsahu museli jeho využití OpenAI a dalším firmám výslovně povolit.

V neposlední řadě OpenAI sází na geopolitickou kartu pomrkáváním, že pokud nebude Západ s autorským právem zacházet kreativněji, předstihne ho ve vývoji AI technologií Čína.

Podstata onoho přiznání ale zůstává nezměněna. Trénování modelů pro nástroje typu ChatGPT by se bez vykrádání autorského obsahu neobešlo. I kdyby jejich provozovatelé nakrásně využívali jen legálně volně dostupná data, ve výsledku by je to stejně nespasilo. Pokud se jejich nástroje mají připojovat k síti a získávat aktuální informace (třeba používáním vyhledávačů či prohlížením webových stránek), což je velká deviza modelu GPT-4 a dalších pokročilejších nástrojů, dalšímu vykrádání obsahu se zase jen těžko vyhnou.

Neobstojí argument, že jde jen o shrnutí, parafráze či užitečné odkazy na informace, čímž se v podobných sporech občas obhajují provozovatelé vyhledávačů. Ani že jde jen o obsahy vytvářené na míru a na přání konkrétního uživatele. Pokud v Seznam Zprávách občas při zachování odpovídajících profesních zvyklostí a etiky odkážeme na zprávu z konkurenčního média, je to v pořádku. Ale kdybychom na vyžádání automaticky převyprávěli jakýkoli cizí článek, a ještě si za to nechali zaplatit, konkurence by s námi rychle vyrazila dveře. Zcela právem.

Je těžké odhadnout, jak může aktuální soudní spor s New York Times dopadnout, ale toho nejlepšího řešení se nejspíš nedočkáme. Pokud newyorský soud žalobu smete, bude to tragická záležitost nejen pro média a další tvůrce původního obsahu – mimo jiné proto, že chatboti na rozdíl od novinářů neumějí získávat nové původní informace, které pak budou pro veřejnost stále hůře dostupné.

A pokud se NYT s OpenAI dohodnou na finančním vyrovnání (což je jeden z možných skrytých motivů žaloby), může to být precedens pro další podobné spory. Ty sice oprávněně podojí už tak dost zadluženou peněženku OpenAI, ale zároveň mohou od dalšího rozvoje odradit menší a méně movité AI firmy. A paradoxně tím posílit dominantní roli OpenAI a dalších velkých hráčů v oboru.

Kdyby soud donutil OpenAI ke smazání aktuálních modelů a vytrénování nových na legálních datech, bylo by to jistě důvodem k radosti. Jenže zmíněný problém s automatickým prohlížením nového webového obsahu by to stejně neodstranilo. Stejně jako řadu dalších potíží – co třeba dělat v případě, že články NYT na svůj web neoprávněně zkopíruje nějaká třetí strana, a teprve odtud je „legálně“ načte ChatGPT?

Otázkou tak zůstává, jestli má mít zrovna tento specifický typ aplikace AI technologií právo na existenci. Navzdory zářivým vizím vykreslovaným jejich (zisku chtivými) provozovateli zatím žádný zásadní přínos pro lidstvo nepřináší, i když možnost okamžitě vygenerovat studentskou slohovku nebo obrázek létajícího slona pojídajícího zmrzlinu je jistě úžasná. Jen těžko lze ale tolerovat provozování byznysu, který dle svého vlastního doznání nemůže fungovat legálně.

Vykrucování OpenAI a dalších firem připomíná hospodského, který v konkurenčním podniku vyloupil spíž a z nakradených surovin teď vaří ve vlastní kuchyni. Když se na to přijde, hájí se tím, že potraviny sebral a nakoupil na spoustě míst a ty kradené tvoří ve výsledném guláši jen nepodstatnou část.

Může také tvrdit, že za vše mohou škodolibí štamgasti, kteří si u něj objednávají kradené řízky, i když on sám jim je aktivně nenabízí. Nebo že si v jeho interaktivním podniku zákazníci vaří sami a on jen poskytuje (kradené) suroviny. Nebo že své zásoby nakoupil od jiného zloděje a nevěděl, že jde o kradené zboží. Anebo že vaří tak laciné a delikátní lahůdky, že mu za to prostě musíme odpustit všechny prohřešky.

Jakákoli klička ovšem nic nezmění na tom, že takový hospodský je zkrátka zloděj, a pokud svou živnost nedokáže úspěšně provozovat poctivě, bude zřejmě muset zavřít krám.

Doporučované