Generátory obrazů začaly krádeží, říká umělkyně. Budoucnost ale nevidí černě

Pavel Kasík

24. 10. 2024 8:08

Článek

Kdokoli si dnes může vygenerovat obrázek čehokoli. Na počkání, zdarma nebo za několik haléřů, a v prakticky libovolném stylu. Je to nejspíš největší demokratizace výtvarného umění v dějinách. Začala tím, že výzkumníci postahovali hromadu popsaných fotek a nakrmili jimi neuronovou síť.

„Řekla bych, že je to možná největší krádež v historii, jaká se udála,“ domnívá se umělkyně, designérka a instruktorka Lenka Hámošová. Naráží na to, že generátory obrazů, založené na umělé inteligenci, se trénovaly na datech bez povolení autorů. Po celém světě běží řada soudních sporů s firmami, které své neuronové sítě takto vycvičily a nyní je nabízejí ke komerčnímu použití.

(V článku jsou jen vybrané pasáže. Pro celý obsah si pusťte podcast v audio- nebo videoverzi. Speciálně u této epizody, která se týká výtvarného umění, doporučujeme zhlédnout video, obsahuje totiž ukázky všech zmíněných nástrojů.)

Nahoře ukázka obrázků, které generoval Stable Diffusion, dole odpovídající obrázky v trénovacích datech.

„Na druhou stranu mám pocit, že už není cesty zpět,“ dodává Hámošová. „Je zbytečné plakat nad rozlitým mlékem.“

Sama coby grafická designérka usoudila už v roce 2018, že neuronové sítě generující obrazy si zaslouží pozornost umělců: „Uvědomila jsem si, že se to bude vyvíjet rychle. Pokud tyto technologie coby grafický designér nebudu sledovat, je to profesionální sebevražda.“ Tehdy také začala studovat kreativní využití těchto AI nástrojů.

Dechberoucí pokrok generátorů

Projekty jako StyleGAN (generující neexistující lidské obličeje) nebo GauGAN (generující fotorealistické krajinky) ukázaly skoro až kouzelně vypadající potenciál neuronových sítí pro generování obrazů. Revoluce ale přišla s nástrojem DALL-E 2, který na začátku roku 2022 ukázala OpenAI. Nástroj uměl generovat obrázky v prakticky libovolném stylu a uměl dokonce kombinovat objekty, které spolu nikdy na zdrojových obrázcích nebyly.

Ukázky plyšových medvídků v různých stylech, kterými tehdy ještě relativně málo známá firma OpenAI prezentovala schopnosti generátoru DALL-E 2 na jaře 2022.

„Ty první obrázky se podobaly tomu, co jsme se učili na dějinách umění. Tedy třeba obrázek plyšového telefonu, spojení různých materiálů nebo něco, co porušuje fyzikální zákony,“ vysvětluje Hámošová, proč jsou ukázky zajímavé. Lidé obvykle podle ní v generátorech zkouší různé legrácky, jako první ji napadl létající jednorožec. Já zase nejčastěji testuji promptem (instrukcí): „realisticky vypadající stan ze salátu na poušti“.

Stan na poušti (generátory FLUX, Midjourney a Imagen 3).

Od prvních verzí ale generátory udělaly ohromný krok kupředu. Dobře to vidíme, když porovnáme první verzi generátoru Midjourney s tou šestou (zatím nejnovější). Všem dáme stejný prompt: Modrý ptáček sedí na větvi, detailní fotografie z dálky pomocí teleobjektivu.

Zatímco první tři verze jsou spíše abstraktním pokusem, čtvrtá je najednou rozpoznatelná, a pátá i šestá už jsou od fotografie k nerozeznání.

Rizika i potenciál

To, že většina lidí už nerozpozná generované snímky od reálných fotek, jsme ověřili i experimentálně na začátku roku 2024. Pokud jste test ještě nezaznamenali, můžete si jej zopakovat:

Poznáte AI od fotky?

Pravá fotka, nebo falešný snímek? Velký test ukáže, čemu se už nedá věřit

23. 1. 2024 15:00

Průměrná úspěšnost lidí byla pouhých 54 procent, což je velmi blízko náhodného tipování. U některých snímků pak byla úspěšnost ještě menší. A 99 procent lidí udělalo v testu pět a více chyb. V praxi to podle mého znamená, že už nemůžeme fotkám z neznámého zdroje věřit (což není až taková novinka).

Různých generátorů snímků se samozřejmě chopili podvodníci, kteří pomocí nich svlékají lidi bez dovolení, klonují hlasy nebo i podobu šéfů velkých firem. Nebezpečí rozpadu důvěry řadí odborníci k významným rizikům umělé inteligence.

Každý se teď může vizuálně vyjádřit

Ale povídáme si i o světlých stránkách. Všichni z nás – i já, který jsem nikdy moc neměl trpělivost se štětcem ani tužkou – teď můžeme vizuálně realizovat své představy v překvapivě kvalitní podobě. „Říká se tomu někdy demokratizace kreativity,“ popisuje Hámošová, která o zapojení AI nástrojů pořádá přednášky. „Z mého pohledu je to demokratizace přístupu k vizuálnímu vyjádření.“ Přirovnává to k vynálezu knihtisku.

Trochu se ale bojím, co to bude znamenat pro další vývoj umění. Co když se zkrátka příští generace umělců vůbec nebude učit pracovat se štětcem a tužkou, protože už od začátku budou mít k dispozici nástroje? Co když se příští Lenka Hámošová nebude muset učit malovat, protože zkrátka odmalička může na tabletu promptovat a hned, bez velké snahy, vytvářet působivé obrázky?

„Neviděla bych to tak černě,“ oponuje Hámošová. „Mám neteř a synovce a vidím, že stále si chtějí malovat klasickými vodovkami. Dělat nepořádek. A pak vezmou mobil a tvoří na mobilu. Funguje to společně.“

Umělá inteligence ale bude samozřejmě generovat obrázky a videa rychleji i levněji. Hrozí nám, že se přestaneme zajímat o lidské výtvory? Co mohou lidé nabídnout navíc?

Instrukce: Žena s headsetem pro virtuální realitu na hlavě, dlouhé zrzavé vlasy, žluté šaty, ve stylu malby Alfonse Muchy, květinové dekorace, Art Nouveau.

Napadá mne zde historická metafora hry na klavír. Pragmaticky vzato se dnes přece nikdo nemusí učit hrát na klavír. Dřív to byla možná jediná možnost, jak si domů přinést trochu hudby, ale posledních sto let to už neplatí. Přesto se ale nové generace dětí trápí se stupnicemi a etudami. Někteří to vzdají a ti pak – jako já – ocení generátory písniček.

Jiní ale stráví tisíce hodin trénováním. A když někde hrají naživo, pro všechny kolem je to úplně jiný zážitek, než když slyšíme reprodukovanou hudbu. Když slyšíme stroj, přemýšlíme o technických parametrech a můžeme být ohromeni. Když vidíme člověka, jak umí něco, co my ne, může nás to dojmout a inspirovat.

Chápeme, že ten člověk je „jedním z nás“ a to, co dokázal, je výsledkem něčeho, co s ním jako lidé sdílíme. I proto si myslím, že člověk bude v umění hrát i nadále ústřední roli. Ne snad proto, že by počítač neuměl tvořit a fantazírovat. Ale spíše proto, že počítačového umění bude brzy všude hromada.

Možná bude lidská kreativita o to vzácnější. Někteří umělci AI nástroje odmítnou – a budou vědět proč. Jiní díky asistenci umělé inteligence dají své kreativitě nový rozměr. Když se budeme snažit, možná se nám těchto kouzelných krabiček povede využít k tomu, abychom ještě lépe ukázali, co jsme my lidé zač.

(V článku jsou jen vybrané pasáže. Pro celý obsah si pusťte podcast v audio- nebo videoverzi. Speciálně u této epizody, která se týká výtvarného umění, obzvláště doporučujeme zhlédnout video, obsahuje totiž ukázky všech zmíněných nástrojů.)

Mozaika Pavla Kasíka

Osmidílná minisérie Seznam Zpráv o umělé inteligenci. Novinář Pavel Kasík s pomocí hostů popisuje současný stav technologického fenoménu AI z různých perspektiv a bez přikrášlování. Mozaika Pavla Kasíka vychází každý čtvrtek jako video na webu Seznam Zpráv a v audio podobě na Podcasty.cz, Spotify, Apple. Následující sobotu pak vydáváme bonusový materiál v podobě celého rozhovoru s hosty pořadu.