Článek
Firmy firmy OpenAI a Google si v prosinci pro zákazníky připravily řadu překvapení. Hlavně druhá jmenovaná v posledních týdnech překvapila pestrou nadílkou novinek z oblasti AI.
Google ukázal nový generátor videa Veo 2, generátor obrázků Imagen 3, nový multimodální model Gemini 2.0 Flash a několik dalších funkcí, které potvrdily, že to firma s umělou inteligencí myslí vážně.
Čtete ukázku z newsletteru TechMIX, ve kterém Pavel Kasík a Matouš Lázňovský každou středu přinášejí hned několik komentářů a postřehů ze světa vědy a nových technologií. Pokud vás TechMIX zaujme, přihlaste se k jeho odběru!
„Omlouváme se, že náš šéf Demis tu dnes s námi nemůže být. Přebírá si právě Nobelovu cenu ve Stockholmu.“
Takto začala desátého prosince tisková konference firmy Google. Přiznám se, že mě hned napadly dvě věci. Zaprvé, že takové nenápadné připomenutí ohromného úspěchu bylo skoro určitě plánované. Nobelovu cenu dostal Demis Hassabis za nástroj AlphaFold, který způsobil revoluci ve skládání proteinů a ukázal, jak umělá inteligence od základů mění vědecké bádání.
A zadruhé jsem si říkal, že bude těžké tohle oznámení překonat. Abych to uvedl do kontextu: Google totiž v generativních nástrojích nehrál tak docela první housle. Když vezmeme nejviditelnější zapojení generativního AI – chatboty – tak v popularitě i schopnostech už dva roky vede ChatGPT od OpenAI. V polovině roku 2023 se k němu přidal Claude od firmy Anthropic.
ChatGPT je už dva roky nejpopulárnější chatbot:
Podobný asistent od Google – nazvaný Gemini – přišel až před rokem. Upozornil na sebe od začátku velmi zajímavou ukázkou schopností analyzovat obraz v reálném čase. Jenže při bližším prozkoumání jsem zjistil (nejen já, samozřejmě), že demonstrace schopností byla velmi kreativně sestříhaná. Přímo bych řekl zavádějící. Což se u ukázek občas stane, ale tehdejší přikrášlení bylo podle mého za hranou.
Od té doby Google nezahálel a během roku 2024 uvedl několik zajímavých AI funkcí. Především na mobilech se Googlu podařilo implementovat AI funkce rychleji a lépe než konkurenčnímu Applu. Ale obecně vzato se na Google pohlíželo jako na firmu, která v oblasti generativní AI spíše dohání konkurenci. Nechci předbíhat, ale zdá se, že se jim to těsně před koncem roku podařilo.
Novinky na všech frontách
Na první pohled je novinek tolik, že je těžké se v nich vyznat. To se v oblasti AI nástrojů stává často, ale letošní prosinec je v tom opravdu extrém. Firma OpenAI zveřejňuje každý pracovní den jeden „vánoční dárek“ a Google na nás během posledního týdne vysypal celou řadu nových oznámení. Bylo toho tolik, že mi chvíli trvalo všechno vyzkoušet.
Za největší novinku bych označil nový model Gemini 2.0. Vzájemné posuzování a srovnávání jazykových modelů je poměrně obtížná a trochu subjektivní disciplína. Ale nový model Gemini 2.0 Flash je v řadě ohledů na úrovni GPT-4o od OpenAI, nebo dokonce mírně lepší. Podstatné je, že model Flash je opravdu rychlý a levný. A navíc multimodální.
O multimodalitě slyšíme už dlouho. Zatímco textový model umí zpracovat pouze text, multimodální model pracuje i s obrázky, audiem a videem. Dosud jsme viděli ukázky, které byly zajímavé, ale nepříliš užitečné. Google ale nyní – i díky vyšší rychlosti modelu – poprvé ukázal použitelného asistenta, který vidí to, co vidíte vy, a v reálném čase na to reaguje. Můžete sdílet svou obrazovku, webovou kameru nebo to, co vidí váš telefon.
Je to způsob interakce, který otevírá celou řadu nových možností. Firma OpenAI něco podobného ukázala také, ale Google je tentokrát rychlejší.
Přiznám se, že mi osobně není úplně pohodlné povídat si s asistentem o tom, co dělám na obrazovce. Přítomnost někoho (něčeho) jiného mě trochu stresuje. Ale třeba při řešení konkrétních problémů s nastavením nebo při opravě zdrojového kódu je to užitečné. A hlavně překvapivě rychlé. Asistent vidí celý kontext, vše, co vidíte vy, a nemusíte tak složitě psát, o co vám jde.
Další výhodou Gemini 2.0 je ohromné kontextové okno. V podstatě to znamená, že můžete chatbotovi hodit ohromné množství obsahu – jeden milion tokenů odpovídá přibližně deseti knihám – a on by se v tom měl vyznat. Je to osmkrát více, než u svých modelů nabízí OpenAI. Google navíc nasadil cenu nového modelu opravdu nízko, a láká tak vývojáře k tomu, aby si novinku vyzkoušeli.
Nepochybně zajímavou funkcí je hloubkový výzkum (zatím pouze v angličtině). Tato funkce prozatím využívá starší model Gemini 1.5 Pro, ale slibuje, že ve svých výstupech bude pečlivě citovat zdroje. Něco podobného už nyní nabízí Perplexity nebo experimentální univerzitní projekt Storm, ale implementace od Googlu je velmi povedená.
Asistentovi napřed zadáte úkol, on navrhne postup a požádá o vaše schválení, než se pustí do podrobného výzkumu. I taková maličkost je mimochodem velmi vítané zlepšení. Můžete totiž evidentní chyby odchytnout dříve, než se AI agent pustí do práce.
Celý „hloubkový výzkum“ trvá několik minut a vy můžete sledovat, jak Gemini postupuje a jaké stránky prochází. Pochvalu si zaslouží, že výslednou rešerši lze hned exportovat do Google Dokumentů. Ze všech podobných AI agentů, které jsem zkoušel, je tento podle prvotního testování nejlepší. Pořád si občas vymýšlí, ale chyb je řádově méně, než jsem čekal. Funkce je zatím dostupná jen v angličtině.
Vizuální exploze
Google odborníky i veřejnost opravdu překvapil s novými nástroji na generování obrázků a videa. Od února 2024 všichni čekali na to, až OpenAI ukáže plnou verzi svého generátoru videí Sora. Jenže během roku vyšlo několik konkurenčních videonástrojů (Runway ML, Kling nebo Hunyan). Takže když konečně v prosinci 2024 Sora přišla, nebyla to až taková senzace. Pochvalu si zaslouží za několik zajímavých uživatelských funkcí, které tvorbu usnadňují. Ale co do kvality výstupu to bylo spíše zklamání.
A do toho přišel Google a vypustil (zatím jen pro vybrané testery) svůj generátor Veo 2. Jakmile srovnáte výsledky obou vedle sebe, je celkem jasné, že Google vede co do kvality, realističnosti i celkového dojmu.
Google Veo 2 is fantastic when it comes to physics.
— Jerrod Lew (@jerrod_lew) December 18, 2024
I put it to the test with a range of outputs to see how liquids and solids would react with each other.
What do you think? pic.twitter.com/xIRc8cNppb
Porovnejte třeba „zlatý retrívr probíhající brutalistní uměleckou galerií”: video vygenerované nástroji Runway, Sora a Kling. A tady stejné zadání, ale vygenerováno novým nástrojem Veo 2 od Google.
Všechny tyto klipy by byly ještě před rokem naprosté sci-fi. Ale Veo 2 je nyní o kus dál než konkurence. Lidé mají samozřejmě sklon sdílet spíše ty povedené ukázky, ale i tak vypadá generátor od Google překvapivě dobře.
Málokdo ale dnes poptává AI vygenerovaná videa. Pro mnoho lidí bude důležitější nový generátor obrázků. V této oblasti je velká konkurence a už od začátku roku 2024 říkám, že jde v podstatě o vyřešený problém. Šestá verze Midjourney byla tak dobrá, že většina lidí vůbec nepozná vygenerované snímky od skutečných fotek (schválně si to vyzkoušejte).
I tak mne ale nový generátor od Googlu – Imagen 3 – překvapil. Zatím není moc použitelný v praxi, dělá totiž relativně malé snímky. Na posouzení toho, že umí poslouchat pokyny, to ale stačí.
Ingredience jsou připraveny, co dál?
Ještě zajímavější mi přijde nástroj Whisk, ve kterém Google ukázal inovativní způsob zadávání úkolů. Doteď bylo běžné, že můžete generátorům dát obrázek, aby se jím inspirovaly.
Whisk (v Česku zatím nedostupný) ale umí zkombinovat obrázkové a psané zadání, a to překvapivě hravým a intuitivním způsobem. Podle mého jsou právě takovéto experimenty potřeba k tomu, aby více uživatelů pochopilo, co lze pomocí nových nástrojů skutečně udělat. Pořád to vypadá jako magie – či v tomto případě alchymie, ale výrazně uchopitelnější.
Což je podle mého i trajektorie, kterou se bude vývoj AI nástrojů ubírat v roce 2025. Nepůjde už tolik o jednotlivé jazykové modely – i ty nejlevnější už jsou dnes tak dobré, že pro většinu úkolů bohatě stačí. Velké rozdíly budou ale v tom, jak se povede tuto „sílu na pozadí“ smysluplně zapojit.
Samotná aplikace Gemini zatím z AI novinek těží jen částečně. To ale šéfům Googlu nemusí vadit. Jejich úkol teď podle mého leží jinde: Budou postupně zapojovat AI funkce do nástrojů, které lidé již používají. Skoro každý týden si všimnu nějaké novinky v Gmailu nebo Google Dokumenty, která využívá AI funkcí.
Na tyto malé drobnosti pak příští rok navážou ti AI agenti, o kterých zatím všichni mluví, ale nikdo je ještě nedokázal smysluplně implementovat, nebo alespoň jasně definovat. Čeká nás hromada experimentů, které budou hledat, co za nás AI dokáže udělat, a kde tuhle novou sílu lidé chtějí nebo naopak nechtějí.
Google nemá vyhráno, konkurence je velká. Ale po roce od uvedení první verze Gemini lze říci, že se kalifornské firmě podařilo dohnat konkurenci a vstupuje do nového roku na mnohem lepší pozici než loni. A samozřejmě v žádném případě není dobojováno. OpenAI se své korunky favorita jen tak vzdát nehodlá.
V plné verzi newsletteru TechMIX toho najdete ještě mnohem víc. Přihlaste se k odběru a budete ho dostávat každou středu přímo do své e-mailové schránky.