Hlavní obsah

Neuvěřitelný skok: umělá inteligence zaskočila svět (skoro) dokonalými filmy

Foto: koláž: Pavel Kasík, Seznam Zprávy, AI vizualizace

Po realistických „fotkách“ se umělá inteligence opřela do generování videoklipů.

Všichni čekali, že letos začne umělá inteligence generovat videa. Ale že udělá takový skok, to tušil málokdo. Nový model Sora od OpenAI umí tvořit až minutové klipy jen z textového zadání. Nejsou dokonalé, ale i tak překvapily.

Článek

Článek si také můžete poslechnout v audioverzi.

Generátory obrázků, natrénované na milionech fotek i uměleckých děl, dokáží na základě instrukcí generovat výtvory k nerozeznání od reality. To už ví skoro každý, a kdo ne, může si to snadno vyzkoušet.

Ve stejné době se začalo mluvit i o generování videa. Ale zatímco u uměle pěstovaných fotek se modely rychle dostaly na použitelnou úroveň, vygenerované videoklipy byly spíše k smíchu. Ani ty nejlepší generátory videa (třeba Pika Labs, Runway nebo Lumiere od Google) si neporadily s pohybem postav, osvícením scény nebo realistickým otočením hlavy.

Ohromný skok kupředu

To se ale změnilo včera, když OpenAI ukázala svou novou službu Sora: „Učíme umělou inteligenci porozumět a simulovat fyzický svět v pohybu,“ píší výzkumníci. „Naším cílem je pomoci lidem vyřešit problémy, které se týkají interakce se skutečným světem.“

Nástroj Sora umí na základě textového vstupu vygenerovat až minutový videoklip, který vypadá realisticky. Kromě toho také zvládá napodobit animované filmy, lidské postavy, počítačové hry, záběry z dronů nebo videodokumenty z přírody. Umí také generovat více záběrů, které na sebe navazují, a stará se (více méně) o konzistenci scény i postav.

Podívejte se, jak výtvory vygenerované umělou inteligencí vypadají:

Videoklipy vygenerované AI nástrojem Sora.Video: Pavel Kasík, Seznam Zprávy

Prozatím služba není přístupná veřejnosti. OpenAI se domnívá, že by bylo možné ji zneužít. Pozvala proto zatím jen skupinu výzkumníků, aby vyzkoušeli, jaké jsou limity této technologie. Přístup dostane i tzv. „red team“, který má za úkol prolomit filtry a vygenerovat pomocí nástroje škodlivé nebo nebezpečné videoklipy. Na základě těchto zkušeností chce OpenAI nástroj lépe ochránit, než jej poskytne veřejnosti.

Podobný postup zvolila firma OpenAI při uvedení generátoru DALL-E 2, který vytváří obrázky. Na jaře roku 2022 ukázala OpenAI jen příklady výtvorů, a teprve po několika měsících testování nástroj uvolnila k použití všem zájemcům. Novější verze DALL-E 3 je pak v placené verzi ChatGPT nebo Microsoft Copilot.

K dokonalosti daleko, ale…

Generované záběry, které vypadly z neuronové sítě Sora na základě textových instrukcí, jsou netypické i svým vysokým rozlišením. Sora umí vygenerovat videa v rozlišení 1920 na 1080 pixelů, na výšku i na šířku. Nástroj také – podobně jako třeba konkurenční Runway Gen 2 – dokáže rozpohybovat vložený obrázek.

Zatím nemáme možnost nástroj vyzkoušet. Lze předpokládat, že výzkumníci vybrali především ty výsledky, které jsou zajímavé a ukazují kvality nového modelu. Soudě podle zkušeností s DALL-E 2 to ale budou ukázky relativně reprezentativní.

Pokud se na libovolný z klipů výše zadíváte detailně, určitě najdete celou řadu drobných problémů. Nohy se ohýbají trošičku jinak než při normální lidské chůzi, vlny mizí trochu pomaleji, než by člověk čekal ve skutečném moři, listování knihou vypadá nepřirozeně.

Ale kdybyste u těch povedených ukázek předem nevěděli, že jde o vygenerované záběry, poznali byste to? A jste si jistí, že by to poznala většina lidí, kteří konzumují obsah na internetu? Právě před zneužitím takovýchto nástrojů varují experti. Šlo by pomocí něj tvořit dezinformace, falešné důkazy pro pojišťovnu či k soudu nebo třeba klonovat lidi a lákat peníze z jejich blízkých.

Výzkumníci v technické zprávě dodávají, že neuronová síť disponuje některými překvapivými (tzv. emergentní) schopnostmi. Poradí si s trojrozměrnými záběry, fiktivní kamera tedy může prostorem prolétat, rotovat i „švenkovat“. Výzkumníky také překvapila schopnost udržet podobu objektů i po jejich dočasném překrytí.

V neposlední řadě dokáže Sora (alespoň někdy) realisticky simulovat interakci objektů v rámci daného prostředí: „Tyto schopnosti naznačují, že další rozšiřování videomodelů je slibnou cestou k vývoji vysoce schopných simulátorů fyzického a digitálního světa a objektů, zvířat a lidí, kteří v nich žijí,“ doufají vývojáři.

Tvorba filmů se zásadně změní

Skokový pokrok překvapil i nadšence z řad filmařů, kteří možnosti AI dlouhodobě sledují. „Je to bezprecedentní demokratizace filmového média,“ myslí si režisér Petr Salaba, který nedávno představil film Scalespace vygenerovaný pomocí AI nástrojů. Umožní to podle něj tvorbu filmů lidem, pro které to zatím nebylo možné. „Se vším dobrým i špatným, co s tím souvisí.“

„Je to úlet,“ souhlasí filmař a dobrodruh Dan Přibáň s tím, že nástroj Sora je mnohem dál, než se od generovaného videa čekalo. „Podle mého to zatím bude mít problém s kontinuitou (záběrů, pozn. red.). Ale až to vyřeší, přijde další velká inflace obsahu.“

Také firma OpenAI uznává, že nástroj zatím není dokonalý. Dokonce se podělila o některé zajímavé – a vtipné – chyby, kterých se Sora zatím dopouští:

Legrační chyby generovaných videoklipů Sura od OpenAI.Video: Pavel Kasík, Seznam Zprávy

Tyto vizuální přešlapy jsou roztomilé a absurdní zároveň. Dávají nám lidem pocit jistého bezpečí. „Vida, jaké nesmysly z toho počítače padají, to nikdy k ničemu nebude.“

Zasmějme se chybám, dokud je čas. „V roce 2022 jsme se všichni smáli Midjourney, když vyšla první verze,“ připomíná Reid Southen, filmař z amerického Michiganu. „A teď je to Midjourney, které lidem reálně bere práci.“

Jak funguje generátor obrázků?

Jak vlastně počítačová síť obrázek vytváří? Úplně jinak než malíř. Ten totiž štětcem postupně nanáší barvy na místa, kde je chce mít, a nejspíše má v hlavě nějakou představu toho, co na obrázku bude.

Generátor postupuje jinak. Jsou v něm, zjednodušeně řečeno, dvě neuronové sítě: Tvůrce a Kritik. Tvůrce začíná s hromadou šumu. Mnohokrát tento šum poupraví a pošle Kritikovi. Kritik posoudí, jestli se aspoň podobá tomu, co má nakreslit.

Takto vypadá postupný proces generování obrázku neuronovou sítí Midjourney.Video: koláž: Pavel Kasík, Seznam Zprávy, AI vizualizace

Doporučované