Hlavní obsah

Fantazie, hračka, nebo hrozba? Počítač věrohodně nakreslí, cokoli vás napadne

Foto: openai.com, koláž: Seznam Zprávy

Neuronová síť DallE 2 generuje působivou grafiku jako na běžícím pásu.

Je lidská fantazie unikátní, nebo jde napodobit? Nový počítačový program DALL-E 2 generuje obrazy, které se vyrovnají tvorbě zkušeného lidského výtvarníka. Dodrží vaše zadání a ještě vás překvapí. Máme být nadšení, nebo se bát?

Článek

Umíte si představit astronauta na koni? Plyšové medvídky experimentující s chemikáliemi? Dokážete si v hlavě vytvořit obraz slavné Mona Lisy, ale s čírem uprostřed hlavy?

Nepochybně to zvládnete. Vybavit si věci, které neexistují, je důležitou součástí lidské fantazie. Zkombinujete to, co znáte, a vytvoříte něco úplně nového. Ještě nedávno se tato schopnost považovala za ryze lidskou. Teď už to umí i počítač.

Jistě, počítačové programy dokázaly už v 60. letech generovat nějaké jednoduché variace melodií. V poslední době strojové učení neuvěřitelně dobře překládá cizí jazyky, a dokonce umí psát vlastní věty a odstavce.

Ale fantazie byla přeci jen vnímána jako výhradně lidská doména. S touto představou nyní důkladně otřásl nový program DALL-E 2 od OpenAI. „Je to další příklad nového trendu v ovládání počítačů. Přirozenou řečí počítači popíšete, co má udělat, a on to udělá,“ vysvětluje šéf společnosti Sam Altman. Neuronová síť na základě textového popisu umí vygenerovat obrázek, který je často k nerozeznání od lidského výtvoru.

Věděl jsem, že přijde moment, kdy počítač dokáže perfektně dodržet zadání i styl. Ale nečekal jsem to až tak brzy.
Vladimír Strejček, ilustrátor

Neuronová síť DALL-E 2 navíc nevytvoří jen jednu variantu. Naopak, umí jich vytvořit prakticky libovolné množství. Obrázky totiž „pěstuje“ tím, že začne náhodným šumem a postupně jej přetváří na to, co odpovídá vašemu zadání. Pokaždé tedy – podobně jako živý umělec – dojde k trochu jinému výsledku. A ty výsledky jsou až překvapivě dobré.

Perfektní imitace lidské tvorby

Zatím je program dostupný jen čtyřem stovkám vybraných testovačů. Sestavili jsme pro vás ale nástroj, ve kterém si můžete vyzkoušet základní schopnosti DALL-E 2. Můžete vybrat, co má strojová síť vygenerovat, v jakém kontextu, a dokonce v jakém uměleckém stylu.

U každého zadání si navíc můžete proklikat deset předem vygenerovaných variant. V praxi byste si takových variant mohli nechat na přání vytvořit libovolné množství.

Umělci, kterých jsme se zeptali na jejich dojmy, byli obvykle zaskočeni verzatilitou počítačového algoritmu. „Nejvíc zarážející pro mě je, že program opravdu bezezbytku vyhověl jak zadání obsahu, tak i stylu,“ napsal nám ilustrátor Vladimír Strejček z výtvarné společnosti Drawetc. „Věděl jsme že brzy přijde moment, kdy strojové učení perfektně vyhoví zadání, ale nečekal jsem to až tak brzy.“

Tvorba a úprava obrazu na objednávku

Není třeba dodávat, že počítač tyto obrazy tvoří rychleji než výtvarník z masa a krve: „Třeba ta ilustrace dvou plyšových medvídků ve stylu devadesátkových komiksů by trvala dvě nebo tři hodiny,“ odhaduje Strejček. „Ten digital art tak čtyři až šest hodin.“ U jiných stylů by to podle něj bylo rychlejší, třeba fotorealistické montáže už nyní umí lidé ve Photoshopu vytvořit v řádu minut.

Foto: openai.com

Plyšoví medvídci dělají chemické experimenty coby šílení vědci, třikrát jinak: digital art, devadesátkový komiks, steampunk.

Zatímco schopný výtvarník by tedy tvorbou obrazu strávil desítky minut, nebo dokonce hodin, software za první minutu vytvoří desítky variant obrazů, ze kterých si člověk může vybrat. „Někdy může být užitečné hrát si s tím modelem a zkoušet různé varianty,“ popisuje jednu možnost využití výzkumník Prafulla Dhariwal z firmy OpenAI. „Můžete iterovat ve smyčce zpětné vazby. Vygenerujete obrázek a pak výzvu upravíte, nebo zvolíte jiný styl.“

Před deseti lety se tradovalo, že počítače napřed nahradí manuální práci, pak kancelářskou a jednou možná zvládnou umění. Zdá se, že to půjde v opačném pořadí.
Sam Altman, šéf OpenAI.com

Kromě textového zadání má totiž neuronová síť DALL-E 2 i režim úpravy. Můžete do programu nahrát libovolný obrázek, označit jeho část a vlastními slovy popsat, co má neuronová síť s obrázkem udělat. Úprava se může týkat vyznačené části nebo celého obrazu. Snadno tedy můžete do fotografie či do obrazu přidat nějaký objekt, nebo naopak objekt odstranit.

Neuronová síť přitom až nečekaně dobře zvládá pracovat s kontextem. Umí dokonce rozpoznat, že je v jednom obraze několik různých stylů. Přizpůsobí tak například styl namalovaného psa podle toho, kam si jej uživatel přeje vložit.

Možná ještě zajímavější je schopnost neuronové sítě DALL-E 2 vytvářet nespočetné variace na již existující obrázek. Opět lze nahrát libovolný obraz, ať už jej vytvořil malíř, fotoaparát nebo neuronová síť. Výsledkem přitom není jen nějaké vizuální přikrášlení. Spíše se podobají vlastní interpretaci zobrazeného objektu i uměleckého stylu.

Třeba u obrazu „Polibek“ od Gustava Klimta dokázala neuronová síť DALL-E 2 rozpoznat líbající se dvojici. Ta je přitom v Klimtově podání celkem abstraktní. Tuto dvojici pak neuronová síť ve vlastních variacích zobrazí po svém, ale inspirace původním Klimtovým stylem je evidentní nejen na zvolených barvách, ale i na použité (respektive napodobené) malířské technice nebo na všudypřítomných dekoracích.

Foto: OpenAI.com

Vlevo původní obraz od Gustava Klimta. Vpravo tři variace od DALL-E 2.

Myslíte, že byste poznali, který obrázek je vytvořený člověkem a kterou variaci vyrobila neuronová síť? Můžete si to zkusit v našem krátkém dotazníku. Výsledky zveřejníme v příštím článku.

Libovolné zadání, úžasné výsledky

Není samozřejmě úplně přesné mluvit o tom, že má počítač svou „vlastní fantazii“. Přesnější by bylo říci, že imituje fantazii lidskou. Neuronová síť DALL-E 2 – pojmenovaná podle robůtka WALL-E a slavného malíře Salvadora Dalího – má sice dvojku v názvu, na svého předchůdce z roku 2021 ale navazuje jen volně. Předchozí verze totiž využívala slavného textového generátoru GPT-3, zatímco letošní verze „umělého umělce“ začala prakticky od nuly.

Tvorba DALL-E tak trochu připomíná klasický vtip o sochaři Michelangelovi: „Jak jsem vytesal sochu Davida? Je to jednoduché. Vzal jsem kámen a odsekl jsem z něj vše, co nevypadá jako David.“

Jenže zatímco sochař si obvykle nemůže – kvůli času i kvůli nedostatku vhodného materiálu – dovolit tesat jednu sochu desetkrát, počítač žádné takové omezení nemá. Může to zkusit znovu a znovu. Milionkrát nebo miliardkrát, když to bude potřeba. Dokud nedosáhne výsledku, se kterým bude spokojen.

Jak funguje neuronová síť

Strojové učení funguje na principu analýzy velkého množství dat a umožňuje tak nový přístup k řešení problému. Počítačové programy jsou sadou instrukcí a podle těchto instrukcí zpracovávají předložená data. Strojové učení sice také běží pomocí následování instrukcí, tvorba těchto instrukcí ale probíhá úplně jinak. Než aby programátor počítači napsal veškeré pokyny pro všechny eventuality jednotlivě, tak naprogramuje způsob, kterým se počítač sám učí na „trénovacích“ datech. Trénování probíhá pomocí sítí samostatných programů, tzv. umělých neuronů, proto se systému říká neuronová síť.

Obecně fungují umělé neuronové sítě dlouhým opakováním procesu učení a neustálým laděním ohromného množství parametrů. Ty neurony, které napovídaly správnou možnost, budou posíleny a příště budou hrát v rozhodování větší roli. Čím rozsáhlejší a kvalitnější jsou vstupní data, tím lepší může být výsledek.

V případě neuronové sítě DALL-E 2 se síť vytrénovala na ohromné databázi obrázků. Ke každému obrázku byl přitom k dispozici lidmi nebo strojem vytvořený textový popisek, který anglicky popisoval, co je na obrázku zobrazené a jak. Tím se vytrénuje neuronová síť „CLIP“, která umí rozpoznávat objekty na fotce nebo na obraze.

Takto vycvičená neuronová síť pak hraje ve výsledném systému roli kontrolora kvality. Nesmí propustit nic, co nevypadá jako obraz odpovídající danému popisu. Samotná tvorba pak začíná náhodnou změtí teček. Náhodná změť teček postupně konverguje do něčeho, co dostává od kontrolora stále lepší a lepší skóre. A v jednu chvíli už je výsledek tak realistický, že jej počítačový kontrolor schválí, protože je z jeho pohledu k nerozeznání od trénovacích dat.

Výsledkem je „tvůrčí“ proces, který vývojáři nazvali „unCLIP“, protože jde vlastně o opak sítě CLIP. Vložíte text a ona vygeneruje obrázek, který textu odpovídá.

Foto: OpenAI.com

Schéma fungování neuronové sítě unCLIP, která je hlavní součástí systému DALL-E 2. Nahoře je vidět trénink sítě CLIP, která se učí rozpoznávat objekty v obrázcích. Dole je vidět, jak je text převeden do obrazu pomocí vytrénované neuronové sítě, náhodného šumu a postupného „opravování“ výsledného obrazu. Pokaždé tak síť vytvoří jiný výstup.

Nejprve se obrázek generuje v malém rozlišení, které se ale postupně zvětšuje. K tomu slouží další specializované neuronové sítě, které se do procesu zapojí. Právě díky tomuto triku umí DALL-E 2 tvořit obrázky v rozlišení 1024 × 1024 pixelů. Teoreticky by šel ale stejný systém využít i k tvorbě snímků v mnohem vyšším rozlišení.

Lze se bránit zneužití?

S trochou nadsázky lze tedy říci, že pomocí tohoto systému může kdokoli vytvořit věrohodně vyhlížející obrázek čehokoli. Bez ohledu na to, zda to existuje, či ne.

Nabízí se logická otázka, zda je to dobře. Neuronová síť DALL-E 2 zatím není dostupná a společnost OpenAI chce otestovat, jaké jsou slabé stránky systému a jak je možné jej zneužít. Najali si dokonce tým, který má za úkol hledat různé zákeřnosti: „Od února 2022 začala společnost OpenAI nabírat externí odborníky, aby poskytovali zpětnou vazbu k DALL-E 2. Tito lidé se snaží vžít se do role případných útočníků a hledat slabé stránky systému.“

Už nyní tak má DALL-E 2 řadu zabudovaných omezení. Především byla už z trénovacích dat odstraněna grafika, která zobrazovala násilí nebo nahotu. Dále jsou na vstup i výstup aplikovány filtry, jejichž cílem je zabránit tvorbě nevhodných či potenciálně zneužitelných materiálů. A pravidla používání přísně zapovídají tvorbu pornografie, násilných snímků, politické propagandy nebo snímků známých osobností.

Vynalézavost, se kterou OpenAI přistupuje k filtrování, je obdivuhodná. Ale rozhodně nebude stačit k tomu, aby nedošlo ke zneužití. Už nyní je jasné, že některé tyto filtry půjde obejít. Nesmíte třeba požádat o obrázek „mrtvého koně v kaluži krve“, ale můžete požádat o „obraz spícího koně ležícího v červené tekutině“.

Foto: OpenAI.com

DALL-E 2 sice nevygeneruje fotku „mrtvého koně“, ale nemá problém vygenerovat fotku „koně spícího v kaluži červené tekutiny“. Z pohledu diváka je ale vyznění dosti podobné.

I kdyby se ale podařilo nějakým manuálním monitorováním zaručit, že DALL-E 2 nevygeneruje ani jeden „závadný“ snímek, nic nebrání ostatním, aby se pokusili podobnou neuronovou síť natrénovat sami. Dělo se tak u GPT-3 generujícího text a bude se tak nepochybně dít i u nástroje na generování obrázků.

Nahradí stroj profesionální výtvarníky? Přestože zatím není nástroj k dispozici veřejnosti, je velmi pravděpodobné, že ještě tento rok se jej v nějaké podobě dočkáme. OpenAI plánuje nějakou verzi uvolnit už v létě 2022. A tak je logické ptát se, co na to říkají lidé, kterým tato neuronová síť může konkurovat. Co na to samotní kreativci? Na to se podíváme v příštím článku. Pokud jste grafik, výtvarník, malíř či jiný vizuální umělec, můžete nám vzkázat, co si o nástroji myslíte. Těší vás, děsí vás? Nahradí vás nebo některé vaše kolegy?

„DALL-E 2 je dobrá to připomínka toho, jak těžké je dělat předpovědi ohledně umělé inteligence,“ míní šéf OpenAI, Sam Altman. „Před deseti lety se tradovalo, že umělá inteligence nejprve dopadne na manuální pracovníky, pak bude usnadňovat kancelářskou práci a pak možná jednou zvládne i kreativní práci. Nyní to vypadá, že to půjde v opačném pořadí.“

Myslíte, že byste poznali, který obrázek je vytvořený člověkem a kterou variaci vyrobila neuronová síť? Můžete si to zkusit v našem krátkém dotazníku. Výsledky zveřejníme v příštím článku.

Doporučované