Článek
„Před rokem jsme oznámili náš model Gemini, který jsme od začátku trénovali tak, aby od začátku uměl pracovat multimodálně, s textem, obrazem i videem,“ připomněl hned na začátku šéf Googlu, Sundar Pichai, když zahajoval vývojářskou konferenci Google I/O. Tím naznačil, že i letos budou takřka všechna oznámení napojená na umělou inteligenci. Nebo, jak tomu chce říkat Google: „éra Gemini“.
Hned první oznámení bylo svým způsobem největší – týká se totiž nejnavštěvovanější stránky světa, vyhledávání Google. Od tohoto týdne bude dříve experimentální funkce využívající automaticky generované souhrny (popsali jsme v podrobném testu) k dispozici všem uživatelům v USA. Další země jsou podle Pichaie v pořadí.
V praxi to znamená, že uživatelé v USA na svůj dotaz nově nedostanou jen přehled odkazů na webové stránky, na kterých mohou najít odpověď. Místo toho bude Google „googlovat za ně“ a projde za pár sekund desítky nebo dokonce stovky možností. Využije mapovou databázi reálných míst i obsah prohledávaných stránek a sestaví z nich uživateli odpověď přímo na míru.
Je zřejmé, že si Google na základě uživatelského chování spočítal, že se mu nesníží příjmy z reklam, pokud lidem vyhledávač dá odpověď, aniž by museli klikat na některou z nalezených stránek. Provozovatelé webů – na jejichž stránky takový uživatel už mnohdy neklikne – to ale dost možná budou vidět jinak.
Více o konferenci I/O
Google I/O (zkratka pro Input/Output) je každoroční akce pro vývojáře, kde Google ukazuje novinky týkající se systému Android, prohlížeče Chrome a dalších ekosystémů, které firma Google spravuje. První ročník se konal v roce 2008.
Postupně se z akce stala i mediálně populární záležitost, protože zde Google začal představovat některé své vize a novinky zaměřené na koncové uživatele: první tablet s Androidem, první Chromebook nebo asistent Google Home. Z méně úspěšných vizí pak nejvíce pozorností vzbudily brýle Google Glass.
V květnu 2023 Sundar Pichai na konferenci poprvé ukázal projekt umělé inteligence Google Gemini, který pak veřejnosti odhalil v prosinci 2023. V únoru 2024 na něj navázal verzí 1.5 s ohromným kontextovým oknem. Pichai zde také ukázal koncept zapojení umělé inteligence do vyhledávání Google.
Ohromné a ještě větší kontextové okno
Bylo jasné, že všechna velká oznámení se budou týkat generativní umělé inteligence. A taky že ano. První oznámená novinka potěšila hlavně vývojáře: „Vývojáři zkoušeli naši ukázku milionového kontextového okna a dokázali s tím úžasné věci,“ zdůraznil šéf Googlu. „Nyní nabízíme Gemini 1.5 s kontextovým oknem jeden milion tokenů všem lidem na celém světě.“
Co je kontextové okno?
Konverzační nástroje používající modely umělé inteligence pracují na principu doplňování slov. Model dostane jako zadání „kontext“, což jsou texty veškerých otázek i odpovědí v dané konverzaci nebo třeba nahrané textové dokumenty.
Zpřístupnění této verze s milionovým kontextovým oknem mimo jiné znamená pro uživatele možnost použít generativní umělou inteligenci nad vlastními daty. Bude zajímavé otestovat, zde se tím opravdu důkladně omezí ony „halucinace“, kterými zatím trpí všechny generativní chatboty.
Nová verze Gemini – zatím dostupná jen na pozvání – navíc bude mít kontextové okno až dvoumilionové. To odpovídá asi dvaceti knihám, nebo opravdu dlouhému filmu. Konkurenční ChatGPT (s novým GPT-4o) pracuje s 128 tisíci tokeny, Claude 3 Oppus má 200 tisíc.
Co představila konkurence?
V marketingu Google určitě nemají radost z toho, jak se do jejich týdne – tedy do dlouho plánované vývojářské konference Google I/O – shodou náhod trefilo i několik dalších velkých oznámení týkajících se generativní umělé inteligence.
Jen den před začátkem konference Google ukázala firma OpenAI novinky ve svém chatbotu ChatGPT. Technická ředitelka Mira Murati na pódiu ukázala nový GPT-4-omnimodel a slíbila, že bude dostupný na celém světě, a to i v bezplatné verzi ChatGPT.
Na to navázala konkurenční firma Anthropic, jejíž chatbot Claude dosud nebyl dostupný v Evropě, případně museli evropští uživatelé používat různé nástroje pro obcházení detekce polohy. To se nyní změnilo a Claude je dostupný i v Evropě.
Jak konkrétně může velké kontextové okno pomoci běžnému uživateli? Můžete se třeba zeptat svého Gmailu (pokud máte placenou funkci Workspaces) na celkem komplexní otázku typu: „Pročti e-maily od školky mého mladšího dítěte a podívej se do mého kalendáře, zda mi nějaká akce nekoliduje s plánovanou návštěvou lékaře příští týden.“ Dokonce za vás může napsat odpověď.
Možná nejzajímavější ukázka se týkala relativně málo známé služby NotebookLM, což je poznámkový blok obohacený o umělou inteligenci. Díky tomu, že je Gemini model multimodální, může vzít vaše poznámky a „vyextrahovat“ z nich informace, které vám pak předloží v úplně jiné formě. Třeba jako podcast.
Do takového podcastu mohou uživatelé i vstupovat a ptát se na dotazy. Jistě ne každý o takový „výlet“ do svých poznámek stojí, ale třeba pro společné učení rodičů s dětmi to může být neobvykle poučné.
Nastupují AI agenti, sami je pozvete
„Co kdybychom to mohli vzít ještě o krok dále. Tím se dostáváme k inteligentním AI agentům,“ rozpovídal se Pichai o hojně diskutované možnosti zapojení umělé inteligence.
O „samostatných agentech“ založených na umělé inteligenci se samozřejmě mluví už dlouho. Google ukázal několik možností, jak konkrétně by to mohlo vypadat, v pracovním prostředí Google Workspace.
Není novinkou, že se můžete ptát různých asistentů (třeba Microsoft Copilota) na otázky týkající se vašich firemních dat. Goole ale nyní ukázal (zatím experimentální) možnost, jak to posunout o krok dále: můžete „napromptovat“ nového kolegu, pojmenovat jej a dát mu nějaké zodpovědnosti. Pak si s ním v rámci firemního chatu budete moci psát, a on za vás může prohledávat materiály, nové materiály tvořit nebo dokonce komunikovat s vnějším světem.
V rámci Google Gemini – chatbotu, který je k dispozici v řadě zemí po celém světě včetně Česka – bude také možné vytvořit vlastní chatboty („Gems“), což pravděpodobně bude fungovat podobně jako „vlastní GPTs“ u ChatGPT.
Podívejte se na přehled dalších novinek, které Google během úvodní prezentace ukázal:
Google ale připomíná, že konkurence nemůže lidem nabídnout takové kontextové okno jako právě Gemini. Právě na schopnosti obsáhnout velké množství vlastních dat (třeba 1500 stránek PDF) pomocí onoho milionového okna Google propaguje svůj model. Gemini bude mít ale i odlehčenou verzi (Gemini Flash) pro rychlejší odpovědi. Platící uživatelé Gemini Advanced budou mít brzy možnost si práci s milionovým kontextovým oknem vyzkoušet.
Nějakým způsobem se Gemini dotýká nebo brzy dotkne snad všech služeb a nástrojů Google. Největší dopad uvedených novinek ale zřejmě bude právě u její nejpopulárnější – a nejvýnosnější – služby, vyhledávání. Protože službu jsem měl možnost vyzkoušet, odhaduji, že uživatelé tuto změnu uvítají a reálně jim ušetří čas i nervy. Dopad na celý webový ekosystém může být výrazný. Umělá inteligence sice bude u svých souhrnů odkazovat i na původní weby. Ale bude na ně někdo klikat?
Generativní umělá inteligence na vzestupu
Od listopadu 2022, kdy firma OpenAI představila nástroj ChatGPT, lidé po celém světě experimentují s tím, jak jim generativní umělá inteligence může pomoci.
O tom, co nové nástroje umí, nebo neumí, se diskutuje z mnoha pohledů. Jedná se o skutečnou inteligenci a kreativitu? Výsledky jsou totiž nejen ohromující, ale také bizarní.