Článek
„Umělá inteligence se nebude k lidem chovat jako chytrý software, ale bude to spíše váš odborný pomocník a asistent,“ vysvětlili zástupci společnosti Google, když minulý týden ukázali svůj nový pokročilý jazykový model. „Dnes se této vizi přibližujeme představením modelu Gemini, nejpokročilejšího generativního modelu, jaký jsme kdy představili.“
O tomto modelu Google mluví už od letošního jara. Na vývojářské konferenci v květnu 2023 musel ukázat, že firma, která byla vždy na špičce vývoje strojového učení, nehodlá zůstat pozadu. Ale jejich dosavadní model PaLM 2 zkrátka nedosahoval ve většině ohledů schopností zatím nejpokročilejšího dostupného nástroje: GPT-4 od OpenAI.
Všichni tedy od Gemini čekali, že bude lepší než tento – už v březnu představený – konkurenční jazykový model. A tak si Google ve svém oznámení dal záležet, aby s „džípýtý čtyřkou“ takříkajíc vytřel podlahu.
Dostupnost a verze modelu Gemini
Google oznámil tři verze modelu Gemini, od nejsilnější Ultra přes střední Pro až po nejmenší Nano. V Evropě zatím není oficiálně dostupná žádná z nich. Ve zbytku světa mohou uživatelé vyzkoušet Gemini Pro v rámci asistenta Google Bard.
„Naše modely Gemini jsme důkladně testovali a vyhodnocovali jejich výkonnost při řešení nejrůznějších úloh,“ uvedl Google. „Výkon Gemini Ultra překonává současné nejmodernější dostupné modely ve 30 z 32 široce používaných srovnávacích testů.“
Většina lidí ale neví o tom, co znamenají srovnávací testy umělé inteligence s podivnými názvy jako MMMU, BIG-Bench-Hard nebo HellaSwag. A právě pro ně Google připravil svižnou, originální a v některých ohledech ohromující ukázku toho, co všechno Gemini Ultra zvládne. Jakožto multimodální umělá inteligence totiž prý umí reagovat na video, hlas, text i obraz a to vše plynule kombinovat.
Část ukázky jsme doplnili českými titulky:
„Je to kachna!“ pozná sebevědomě model z jednoduché kresbičky. Také dokáže stopovat pohyb papírové kuličky pod kalíšky, což je na první pohled názorná ukázka porozumění videu v reálném čase. A nakonec se nechá ošálit kouzelnickým trikem, aby vzápětí popsal, k čemu došlo, což má zase ukázat na porozumění lidskému kontextu.
Pokud ukázku viděl někdo, kdo nemá zkušenosti s novými nástroji AI, musel být zcela jistě unesen. Ale i odborníci, kteří jsou na rozpoznávání hlasu nebo obrazu už zvyklí, byli nadšení, celá spolupráce totiž byla velmi plynulá.
Jenže během dvou dnů vyšlo na povrch, že tato ukázka diplomaticky řečeno nereprezentuje realisticky, co model opravdu umí. Ostřejší kritika dokonce mluví o „zfalšování“.
Je to střih, nebo klam?
„Testovali jsme možnosti Gemini, našeho nového multimodálního modelu AI. Pořizovali jsme záběry, abychom jej otestovali na širokém spektru nejrůznějších výzev, a předkládali jsme mu řadu snímků,“ píše se na začátku předváděcího videa. „A žádali jsme ho, aby uvažoval o tom, co vidí.“
Abychom byli fér, tak na začátku videa Google diváka upozorní malým písmem na to, že „sekvence byly pokráceny“. To není nijak neobvyklé a samo o sobě by to jistě nikoho nenaštvalo. My také ukázky práce s ChatGPT, Photoshopem a jinými nástroji obvykle musíme trochu sestříhat, aby netrpělivý divák nemusel čekat desítky sekund na vygenerování odpovědi.
Dokonce se dá očekávat, že vybrané ukázky jsou výběrem toho lepšího, co se povedlo, a naopak různá nedorozumění nebo přeřeknutí se do výběru nedostanou. V popisku videa se pak dále dozvídáme: „Pro účely této ukázky byla zkrácena doba odezvy a výstupy Gemini byly zestručněny.“ To už je trochu varovnější signál, protože právě schopnost vyjadřovat se stručně k věci – a ne v dlouhých „okecávacích“ odstavcích, jak mají jazykové modely ve zvyku – bylo pro řadu lidí to, co je na ukázce zaujalo.
Jenže postup, jakým vznikla ukázka Google Gemini Ultra, jde za hranu běžných „zkrácení“. Parmy Olsonová, technologická reportérka agentury Bloomberg, se firmy Google natvrdo zeptala, jak to s tím videem bylo, a Google jí poslal ukázku, jakým způsobem se video sestavovalo.
Dozvěděla se, že „model dostal jednotlivé obrázky z videa a k tomu textové pokyny“. To rozhodně není dojem, který získali diváci z videa. Není to navíc poprvé, co firma Google pro marketingové potřeby „sehrála scénku“, aby ukázala schopnosti AI v lepším světle.
Je opravdu lepší než GPT-4?
Reálněji působí ukázky Gemini Ultra prezentované v technické dokumentaci (PDF). Jako první je zde třeba vyřešená matematicko-fyzikální slovní úloha.
To je rozhodně pěkná ukázka hned několika schopností: porozumění textu, rozpoznání naškrábaného textu a odhalení chyby ve výpočtu studenta. Dále model krok po kroku vysvětlil správný postup a ukázal správný výsledek.
Jenže to už dnes není nic nového. Když dáme úplně stejné zadání ChatGPT Plus, dostaneme přinejmenším stejně dobrou odpověď:
Jinými slovy, Gemini Ultra ukázalo, že si umí poradit s tím, co zvládne i současný favorit, GPT-4. To ale není to tvrzení, které Google razí. Naopak chce vyvolat dojem, že je jednoznačně lepší: „S výsledkem 90,0 % je Gemini Ultra prvním modelem, který překonal lidské experty v testu MMLU (massive multitask language understanding), který využívá kombinaci 57 předmětů, jako je matematika, fyzika, historie, právo, medicína a etika, pro testování znalostí světa i schopností řešení problémů,“ píše se třeba na blogu Google. Dokonce to doprovází tento neuvěřitelný graf:
První problém tohoto grafu je samozřejmě optické zvýraznění. Zatímco 86 procent je dole, 90 nahoře, přestože rozdíl mezi oběma čísly je relativně malý. Při bližším prozkoumání je však tento „milník“ ještě o dost pochybnější.
Aby Google oslavovaného výsledku 90 % dosáhl, musel zjevně dlouho zkoušet různé způsoby testování. Dokládá to v již zmíněné technické dokumentaci:
Zjednodušeně řečeno: při obyčejném srovnání dosáhly GPT-4 a Gemini Ultra prakticky stejných výsledků, ale GPT-4 byl o trochu lepší. A tak výzkumníci zkoušeli různé „okolní instrukce“, aby svůj model vybičovali k lepšímu výkonu. To se jim povedlo, ale stejně tak tím pomohli i protivníkovi. Nakonec ale konečně přišli s metodou „Chain-of-Thought@32 Uncertainty-Routed“, která zjednodušeně řečeno vede dialog o zadané úloze, vytvoří si několik variant odpovědi, nechá o nich hlasovat, ale zároveň dá prostor těm odpovědím, které jsou sebevědomější, aby jejich hlas měl větší váhu.
Takové srovnání pak zkrátka stojí na vodě. Stejně tak by totiž zase výzkumníci OpenAI mohli přijít s nějakou jinou metodou, kde by vyhrál jejich model. Jinými slovy, k podobným „srovnáním“ budeme muset přistupovat velmi skepticky.
Přesto je to skvělá zpráva
Znamená to snad, že by byl nový model Gemini Ultra špatný? To vůbec ne. O novém modelu těžko můžeme něco říci, ještě jsme jej neviděli. Na základě studia technické dokumentace lze říci s jistotou, že bude „přibližně na úrovni toho, co nyní umí GPT-4“, což je ohromný úspěch.
Dosud byl model GPT-4 od OpenAI ve své univerzalitě a „rozvažování“ prakticky osamocený. Nyní zřejmě dostane soupeře, který jej umí dohnat a v některých věcech (byť marginálně) i překonat.
Co umí GPT-4 a ChatGPT?
Konkurence je potřebná a firmy uvítají možnost vybrat si, který model nasadí. Když byl GPT-4 jedinou alternativou, byly boje o post šéfa OpenAI do značné míry vnímány jako boj o budoucnost vývoje umělé inteligence. Google připomíná, že právě v jeho laboratořích vznikla velká část objevů vedoucích k současné generativní umělé inteligenci postavené na jazykových modelech (transformátorech). A je jasné, že chtěl ukázat, že umí nejen dohnat, ale také předehnat.
Přikrášlené video, které ohýbá realitu, i legračně přehnané grafy tak vypovídají především o tom, jak důležité pro firmu Google bylo vyvolat dojem „nejlepšího na trhu“.
Ale možná je tam i jiná lekce: Pokud dvě nezávislé laboratoře přišly s takto podobně výkonnými modely, mohlo by to znamenat, že narážíme na možnosti toho, co lze touto technologií dosáhnout. A další pokroky že budou o něco pomalejší, než se původně zdálo.
Spíše to ale bude znamenat, že probíhá boj o veřejné vnímání. A protože většina firem ani lidí neví, jak mezi sebou tyto sci-fi technologie porovnávat, můžeme očekávat opravdu zajímavou přetahovanou.
Doplnění: Do článku jsme doplnili ukázky instrukcí.