Hlavní obsah

Mozek se zdráhá to přijmout. Další umělá inteligence ohromuje svou fantazií

Foto: Research.Google (ořez redakce SZ)

Nová neuronová síť Imagen od Google vygenerovala tento obrázek na základě instrukcí „mozek se veze na raketě mířící k Měsíci“.

Počítače dokáží generovat neuvěřitelně realistické obrazy a napodobit tak fantazii umělců a grafiků. Stačí jim krátká instrukce, poradí si ale i s podrobným popisem. Porovnejte, co umí síť Imagen od Google a DALLE-2 od OpenAI.

Článek

Umělá inteligence umí umění! Tak by se dalo novinářskou zkratkou vyjádřit překvapení posledních dvou měsíců. Rozšířená představa lidí o tom, co činí lidské bytosti jedinečnými, dostala pořádné trhliny.

Zdráháme se přirozeně mluvit o „počítačové fantazii“. Jenže jak jinak nazvat situaci, kdy umí počítačový program na základě jednoduchého popisu vytvořit ne jednu, ale hned desítky a stovky a tisíce realisticky vypadajících maleb, fotek, kreseb, ilustrací?

Na začátku dubna představila OpenAI svého „umělého umělce“ jménem DALL-E 2. Už v době uvedení bylo jasné, že to nebude poslední neuronová síť tohoto typu. Přesto je překvapením, že necelé dva měsíce poté tu máme dalšího kandidáta, který generuje ohromující výsledky.

Porovnejte, co umí dva „umělí umělci“

„Představujeme vám Imagen, difuzní model pro převod textu na obraz s bezprecedentním stupněm fotorealismu a hlubokou úrovní porozumění jazyku,“ uvádí výzkumný tým Google. Jejich neuronová síť Imagen staví – podobně jako DALL-E – na síle velkého jazykového modelu a také na ohromné databázi fotografií. Na nich se natrénovala ke generování obrazů.

Jak dodávají sami autoři, výsledky jsou až překvapivě dobré. Podle jejich testů na lidech by měly být výsledky sítě Imagen dokonce měřitelně lepší než ty od DALL-E 2. To zatím nemůžeme posoudit, protože nemáme k dispozici živé srovnání, jen ukázky vygenerovaných děl. Nicméně obě neuronové sítě mají své silné stránky, a tak jsme pro vás připravili výběr 40 fotek: po dvaceti od každého „umělce“.

Nejprve tvorba od Imagen ze stáje Google

(galerii můžete rozkliknout a procházet, u každého snímku jsou i instrukce, na základě kterých jej neuronová síť Imagen vygenerovala)

+16

Další ukázky tvorby Imagen najdete na jejich stránkáchv jejich výzkumné zprávě.

A tady jsou ukázky od neuronové sítě DALL-E 2, kterou už naši čtenáři nejspíše znají. Psali jsme o ní poprvé na začátku května a pak jsme publikovali reakce veřejnosti a umělců.

DALL-E 2 od OpenAI

(galerii můžete rozkliknout a procházet, u každého snímku jsou i instrukce, na základě kterých jej neuronová síť DALL-E2 vygenerovala)

+16

Další ukázky tvorby neuronové sítě DALL-E 2 najdete v našem článku, na jejich stránkách nebo na jejich Instagramu.

Tak co myslíte, která neuronová síť si podle vás vede lépe při interpretaci textového zadání?

Anketa

Která neuronová síť generuje lepší výsledky?
DALL-E 2 od OpenAI je lepší
47,1 %
Imagen od Google je lepší
10,9 %
obě mají silné a slabé stránky
18,2 %
ani jedna negeneruje realistické výsledky
23,8 %
Celkem hlasovalo 516 čtenářů.

Je jasné, že teď vidíme spíše ukázky těch lepších výsledků, jedná se o výběr. Při reálném používání takového generátoru obrázků bude nutně docházet k různým nedorozuměním, chybné interpretaci nebo zkrátka nebude výsledný obrázek dávat smysl. Něco z toho jsou dětské nemoci, něco hlubší (vlastně až filosofický) problém. Celkový trend je ale jasný: počítače teď (díky analýze ohromného množství dat a pokrokům ve strojovém učení) zjevně umí něco, co většina lidí od počítačů vůbec nečekala.

Dopady budou radikální

Když jsem psal o DALL-E 2, obvolal jsem několik umělců, abych se jich zeptal na jejich dojmy. Zajímalo mne, zda si myslí, že by pro ně tento typ sítí mohl být konkurencí. Případně zda by mohla existence softwaru, který lidem na přání generuje takovéto obrazy, změnit trh s ilustracemi a grafikou.

Zajímalo by mě, jak by si neuronová síť poradila například s metaforou, symbolikou, abstrakcí a obecnou zkratkou.
Karel Czech, scénograf

Námi oslovení výtvarníci z různých oborů přistupovali k takovým předpovědím opatrně. Shodli se ale na tom, že skutečný umělec dělá více, než že jen plní zadání. „Asi by to mohlo spoustě lidí vzít práci,“ uvažuje grafik Michal Barák. „Ale když si představím třeba sérii ilustrací ke knížce, tak tam je je vždycky potřeba v první řadě invence a autorský vklad. To se naprogramovat nedá. Umím si ale představit symbiózu autora (umělce) a toho softwaru.“

Schopnost počítače následovat zadání má navíc zatím své limity: „Zajímalo by mě, jak by si neuronová síť poradila například s metaforou, symbolikou, abstrakcí a obecnou zkratkou, což jsou v mé práci důležité faktory,“ přemýšlí scénograf Karel Czech. „Pro mne začíná být ilustrace zajímavá, když v ní vidím práci s už zmíněnou metaforou, symbolikou a zkratkou a samozřejmě i trochu humoru v jakékoli podobě.“

Sám ale dodává, že řada nakladatelství už nyní pracuje s ilustrátory v podstatě jako s počítači. Nevyžadují po nich žádný autorský vklad, ale dávají jim přesná zadání a požadují určitý „populární“ styl. Taková práce by šla do značné míry počítačem nahradit.

„Absolutně by to změnilo obor,“ myslí si ilustrátor Vladimír Strejček o nástupu podobného nástroje na trh. „Kdyby to fungovalo tak, že si nadiktuji obsah ilustrace a specifikuji styl, tak by 95 % ilustrátorů ze dne na den přišlo o zakázky.“ Naprostá většina všech komerčních ilustrací je totiž kreslena styly, které již existují. „Umělá inteligence má tedy možnost se ty styly naučit,“ dodává Strejček. „Nemám z toho dobrý pocit. Myslím, že brzy bude nemožné poznat, co dělal člověk a co umělá inteligence.“ Více z odpovědí umělců v našem předchozím článku.

Ani jedna z neuronových sítí zatím není veřejnosti k dispozici. Zdá se, že velké firmy se trochu poučily z předchozích přešlapů a jsou s uvolňováním nové technologie opatrnější. Potenciál pro zneužití je pochopitelně značný.

Realisticky vzato je ale jen otázkou času, kdy budou nástroje – tyto dva, nebo nějaké podobné – masově rozšířené. Už teď bychom se tedy měli naučit žít s tím, že obrazová informace nemusí být výsledkem lidské kreativity.

A co se týče toho, zda takováto technologie změní trh? To je podle mého zcela bez debat. Stačí k tomu jednoduchý myšlenkový experiment. Podívejte se znovu na ty obrazy, které je schopen software vygenerovat. Představte si, že byste něco takového uměli vy. Uměli byste napodobit různé umělecké styly a na počkání ilustrovat vše od mývalů s kovbojským kloboukem přes abstraktní vesmírné variace až po realistické fotky pejsků v boudě postavené z rolek suši.

Dokázali byste se s takovou schopností na trhu uplatnit? Dokázali byste ji zpeněžit? Pokud ano, tak zároveň odpovídáte na to, zda tyto technologie změní trh. Nepochybně změní, a ta změna bude překvapivá a radikální. A zdaleka se nedotkne jen ilustrátorů, grafiků a umělců. Ani moje práce není vůči těmto trendům imunní. Co ta vaše?

Doporučované