Hlavní obsah

Konec podivných triků. Čím nás letos umělá inteligence (ne)překvapí

Foto: koláž: Pavel Kasík, Seznam Zprávy, AI vizualizace

Zavádění AI asistentů mi připomíná zavádění internetu v 90. letech.

Generativní umělá inteligence je divná. Na jednu stranu zvládá tvořit, malovat a programovat. Na druhou stranu dělá nesmyslné chyby a vytrvale si vymýšlí. Není divu, že se na ni lidé i firmy dívají skepticky. Co se letos změní?

Článek

Článek si také můžete poslechnout v audioverzi.

Připravte se na nával predikcí, metafor a historických paralel. Povedených i méně povedených. Hledám totiž různé způsoby, jak osvětlit podivné pronikání umělé inteligence do našich životů.

Čtete ukázku z newsletteru TechMIX, ve kterém Pavel Kasík a Matouš Lázňovský každou středu přinášejí hned několik komentářů a postřehů ze světa vědy a nových technologií. Pokud vás TechMIX zaujme, přihlaste se k jeho odběru!

Je tomu rok ode dne, kdy OpenAI představila svou přelomovou umělou inteligenci GPT-4. Od té doby byl tento velký jazykový model nekorunovaným králem, vůči kterému se všichni poměřovali. Mimochodem, GPT-4 je dostupný v placené verzi ChatGPT, takže pokud používáte bezplatnou verzi tohoto chatbota, vaše představa o použitelnosti AI tím bude nejspíš hodně zkreslená.

Je čas změnit názor na umělou inteligenci

Schopnosti GPT-4 mě před rokem vedly k napsání článku „Je čas změnit názor na umělou inteligenci“. Snažil jsem se v něm ukázat, že i přesto, že se můžeme bavit o filozofických a etických aspektech toho, co to je „skutečné myšlení“, těžko se dá pochybovat o tom, že výsledky produkované GPT-4 nejsou ukázkou „uvažování“ a „kreativity“.

Před rokem bych ale čekal, že se od GPT-4 už posuneme. Namísto toho ale až dosud neměl tento model od OpenAI skutečnou konkurenci. Hodně dalších modelů se mu přiblížilo v některých ohledech, ale žádný jej přesvědčivě nedostihl. Teprve v posledních měsících jsme se dočkali dvou konkurentů, kteří jej dohnali (a v něčem možná trochu předehnali). Google v únoru představil (zatím neveřejně) svůj Gemini 1.5 a Anthropic počátkem března ukázal Claude 3.

Foto: Pavel Kasík, Seznam Zprávy

Chatbot Claude 3 zatím není oficiálně dostupný v Evropské unii.

Všechny tři pokročilé modely jsou placené (každý cca 20 dolarů měsíčně) a liší se řadou významných funkcí i nepatrných drobností. Je těžké je objektivně porovnávat, ale už z prvních dojmů je jasné, že Gemini a Claude dokázaly GPT-4 dohnat. Ale ne nijak výrazně předehnat Rozhodně to není takový propastný rozdíl, jako byl mezi GPT-3.5 a GPT-4.

Foto: https://huggingface.co/spaces/lmsys/

První příčky jsou si v hodnocení velmi blízko.

Jeden z pokusů o objektivní srovnání je LMSYS aréna, kde je současné pořadí GPT-4, Claude 3 a Gemini Pro, s velmi malým odstupem.

Co můžeme očekávat v nejbližších měsících?

Proč jsou si tak blízko? Jedna z teorií je, že GPT-4 byl od začátku na samém limitu toho, čeho lze pomocí velkých jazykových modelů dosáhnout. Ostatní se mu tak sice mohou přiblížit nebo jej mírně překonat, ale významného pokroku se od této technologie nedočkáme.

To aspoň tvrdí skeptici. Podle mého to ale může být přesně naopak. Dosud nebyl na firmu OpenAI žádný velký tlak. Když jste nejlepší skokan světa s půlmetrovou rezervou, nemusíte se zlepšovat a pořád budete nejlepší. Nyní ale GPT-4 má konkurenci za zády a to může vést k intenzivnějšímu souboji.

Navíc je potřeba znovu připomenout, že porovnávání nástrojů umělé inteligence není to samé jako porovnávat délku skoku nebo rychlost jízdy. Velké jazykové modely jsou dost možná nejkomplikovanější strukturou, kterou lidé kdy stvořili. Jakékoli jednorozměrné poměření je nutně zkreslující.

Nástroje se budou nadále zlepšovat. Ale i kdyby se nezlepšovaly, tak se budou zlepšovat výsledky. Lidé se totiž postupně učí, jak tyto podivné pomocníky zapřáhnout a zužitkovat.

Já osobně očekávám zlepšení generativní AI hlavně v těchto šesti kategoriích: rychlost, práce s dokumenty a multimodalita, předvídatelnost, uživatelské rozhraní, soukromí a samostatnost. (Stranou zatím ponechám vizuální nástroje.)

Rychlost a optimalizace

Co se týče rychlosti, jsou totiž zatím nástroje generativní umělé inteligence překvapivě pomalé. Respektive – ony jsou bleskově rychlé, když uvážíme, jak náročné statistické výpočty a inference na pozadí probíhají. Jenže to je běžnému uživateli jedno. Ten je od počítače zvyklý na okamžitou odpověď. Postupné generování, slovo po slovu, tak může být pro běžné nasazení příliš pomalé.

Jak si ale můžete vyzkoušet na webu firmy Groq, v této oblasti se zřejmě dočkáme dost podstatných vylepšení. Jejich Language Processing Unit je speciálně navržený hardware, který zvládá tzv. inferenci se zaměřením právě na jazykové modely. Je to podobné jako kdysi s bitcoinem: Napřed se těžil na grafických kartách, ale časem vznikl specializovaný a optimalizovaný hardware přímo pro těžbu.

Rychlejší odpovědi mohou znamenat, že nasazení jazykových modelů bude levnější a použitelnější všude tam, kde se to dnes zatím nehodí.

Větší důvěryhodnost výsledku

Firmám také zatím ve smysluplném nasazení umělé inteligence brání špatná práce jazykových modelů s fakty. ChatGPT a jemu podobné nástroje si zkrátka při plnění funkce „užitečného asistenta“ vymýšlejí neexistující data, zákony a pravidla. Takového kolegu, který zákazníkům slíbí cokoli, jen aby vypadal užitečně, opravdu nechcete.

Přirovnal jsem to k opilému strejdovi: Chce vám pomoci, opravdu se snaží a působí nesmírně sebevědomě. Ale těžko mu můžete vyčítat, když si sem tam něco vymyslí. Je to vaše chyba, že jste od něj čekali reálnou odpověď.

Tomu by ale mohla pomoci lepší práce s dokumenty. Pokud se AI bude striktně držet ověřených dat a bude je umět citovat, mohly by halucinace téměř zmizet. V současnosti se o to pokouší dva různé přístupy: větší kontextové okno a účinnější vyhledávání v předem vybraných dokumentech (tzv. RAG). V obou případech jde o ukotvení generovaného obsahu v realitě.

Co je kontextové okno?

Konverzační nástroje používající modely umělé inteligence pracují na principu doplňování slov. Model dostane jako zadání „kontext“, což jsou texty veškerých otázek i odpovědí v dané konverzaci nebo třeba nahrané textové dokumenty.

Kontextové okno o velikosti jednoho milionu tokenů ukázal Google a spekuluje se o možnosti deseti milionů tokenů. To odpovídá přibližně sedmi milionům anglických slov. V podstatě byste mohli nechat chatbota, aby si „načetl“ třeba stovku knih a při odpovědích z nich vycházel. Nebo můžete nahrát video a pak se o něm do detailu bavit.

Zatím to rozhodně nefunguje stoprocentně a výsledky jsou pořád místy podivně nepředvídatelné, ale tlak na zlepšení je v této oblasti obrovský. Proto si myslím, že se už letos dočkáme významných vylepšení. Z „opilého strejdy“ by se tak mohl stát sečtělý knihovník, který pečlivě uvádí své zdroje.

Konec podivných triků?

S tím bude souviset i předvídatelnost výstupu. Dnes je to s ChatGPT a jemu podobnými nástroji taková ruleta. Na stejnou otázku vám pokaždé odpoví trochu jinak. Popisujeme to (nesprávně, ale celkem trefně) lidskými emocemi. Chatbotovi vyčítáme, že je líný, náladový, ukecaný, povrchní nebo politicky korektní. Pro kreativní využití to může být zajímavé, ale brání to širšímu nasazení do „seriózní praxe“. Místo toho se lidé učí různé triky.

Prompt engineering nebo alchymie?

Generativní umělá inteligence přinesla nový pojem: prompt engineering. V podstatě jde o umění tvořit instrukce (tzv. prompty) tak, aby z AI modelu vypadly co nejlepší výsledky.

Slovo engineering by naznačovalo nějakou exaktní vědu, ale místo toho se to často podobá spíše experimentování a alchymii. Některé uznávané postupy jsou totiž opravdu bizarní:

Můj oblíbený fígl z poslední doby: Používejte žargon ze Star Treku. Stačilo začít dotaz podivnou větou: „Kapitánův deník, hvězdné datum [zde vložte datum]: Úspěšně jsme vytyčili kurz přes turbulence a nyní se blížíme ke zdroji anomálie.“ Chatbot následně dával lepší odpovědi na otázky týkající se matematiky. Proč? Kdo ví, ale konečně ty stovky hodin, které jsem „strávil“ na vesmírné lodi Enterprise, nějak zužitkuji.

Jenže jakkoli jsou takovéto triky zábavné, zároveň odrazují běžné uživatele. Asi jako když museli řidiči prvních automobilů startovat motor pomocí kliky. Byla to namáhavá a občas trochu nebezpečná činnost. A myslím, že nikdo si po vynálezu elektrického startéru (1912) nestěžoval na nedostatečný „kontakt s motorem“. Zatím vidíme, že snaha „dát jazykový model do klece“ působí spíše komicky a kontroverzně. V praxi je ale předvídatelná klec přesně to, co bude většina zákazníků vyžadovat.

Lepší uživatelské rozhraní

Jazykový model je vlastně jen nástroj na dokončování textu na základě kontextu. Taková opravdu výkonná virtuální klávesnice, která slovo po slovu doplní vaši větu. Úspěch ChatGPT spočíval právě v tom, že dal lidem snadný a srozumitelný způsob, jak s touto technologií „komunikovat“. Ale jenom proto, že se toto uživatelské rozhraní zatím osvědčilo, jej přece nebudeme používat navěky.

Naopak, domnívám se, že pro řadu činností je to vlastně nejhorší možné rozhraní. Posuďte sami: Chtěli byste si s kolegou, který sedí vedle vás, všechno posílat pomocí textových zpráv? Někdy by určitě bylo lepší, kdybyste si spolu sedli k jednomu stolu nebo k jedné obrazovce a všechno spolu probrali a vyřídili bez zbytečných prodlev a nedorozumění.

Foto: Pavel Kasík, Seznam Zprávy

Takto třeba vypadá integrace asistenta Copilot do programu Microsoft Word. Po kliknutí na všudypřítomnou ikonku asistenta se vám objeví dialogové okno, kde můžete v kontextu zadat úkol a Copilot se jej (více či méně úspěšně) pokusí splnit.

Přesně tam míří implementace umělé inteligence do různých nástrojů. Dobrou ukázkou je zapojení generativní umělé inteligence do programování nebo zabudování do e-mailového nástroje Microsoft 365. Nechcete popisovat chatbotovi, že vám přišel e-mail, od koho, co chcete odpovědět a jaký máte zítra program. To si přece může sám zjistit: Má přístup do vašeho kalendáře a do historie konverzací s tímto klientem a také vidí dokumenty, na kterých jste v poslední době pracoval. Zatím to v praxi docela skřípe, ale zase – poptávka po takovém zlepšení bude ohromná, takže se jej dočkáme spíše dříve než později.

Bude umělá inteligence na naší straně?

S velkou zvědavostí budu sledovat, jak se to v následujícím roce vyvine ohledně soukromí. Víme totiž, že lidé jsou více než ochotni své citlivé údaje vyměnit za trochu toho pohodlí. A pokud tedy budou mít na výběr mezi rychlým, levným řešením, které běží online, a drahým, pomalejším lokálním asistentem, nejspíše si řada z nich vybere toho internetového.

Ale není to zdaleka předem prohraná bitva. Open-source modely se poslední dobou hodně zlepšují a některé nástroje mohou běžet přímo na vašem počítači, či dokonce mobilu. Nebude to asi masová záležitost, ale umím si představit, že mít svého osobního – na velkých firmách nezávislého – asistenta se může stát opravdu důležitou protiváhou komerčních zájmů.

V době, kdy na nás všechny budou cílit podvody, dezinformace a reklamy generované umělou inteligencí, se nám bude hodit osobní AI bodyguard. Ideálně takový, u kterého víme, že má opravdu na paměti náš zájem a není to jen našeptávač, který za našimi zády prodává naše data k ještě přesnějšímu cílení reklamy.

Nechte AI agenty pracovat

A konečně tu máme samostatnost. Pod tím si nemusíte nutně představovat nějakou tu obecnou inteligenci (tzv. „AGI“) ani chodícícho robota. Slovem „agent“ se ve strojovém učení obecně myslí i program, který dostane nějaký úkol a ten pak „samostatně“ plní.

Takové pokusy se objevují už dlouho. Můžete si třeba pomocí některého z experimentálních nástrojů vytvořit celý tým „agentů“, což jsou vlastně chatboti utržení ze řetězu. Každému dáte nějakou „osobnost“, nějaké schopnosti a nějaké nástroje. Je to trochu jako hra Dračí doupě, která se hraje sama a vy jen občas přijdete zkontrolovat, jak probíhá.

Začíná to ale nabírat obrátky. Jednou z prvních vlaštovek je koncept Humane AI Pin, kde mě sice mate to propojení s fyzickým zařízením, ale možná je to dobrý způsob, jak na sebe upozornit. Asistent umí následovat některé (spíše jednodušší) instrukce a vy pak místo klikání na webu můžete zadávat úkoly. V nějaké podobě se tato vize možná ujme.

V posledních dnech získal značnou pozornost projekt Devin, což je samostatný programátor, kterému zadáte úkol a on na něm (aspoň teoreticky) bude samostatně pracovat, dokud jej nedokončí.

Foto: Mckay Wrigley

Vlevo konverzace uživatele s agentem Devinem, vpravo je vyvíjená aplikace, kterou Devin rovnou testuje.

Jak jsem poznamenal minule, nemyslím si, že by současné AI nástroje mohly kompletně nahradit programátory. Devin zdaleka nezvládne všechno. Ale věřím, že tyto experimenty se samostatnými agenty nakonec pomohou odhalit, jak a kde jejich služeb smysluplně využít.

Co tady Devin předvádí s programováním, to brzy zkusí nějaký jiný „agent“ ve vašem oboru. Pokud máte možnost, čas a chuť, doporučil bych vám, abyste takový nástroj zkusili vyrobit sami. Už jen proto, že si při tom osaháte schopnosti současných nástrojů na vlastní pěst.

Čekat revoluci není revoluční

Vše výše uvedené je technicky možné už s dnes dostupnými modely. Co když přijde nějaký nový, třeba onen mýty opředený GPT-5? Nebo aspoň „čtyřiapůlka“? Včera se objevily zvěsti o tom, že OpenAI se chystá uvést vylepšenou verzi s názvem GPT-4.5. Je to naprosto nepotvrzená zpráva vycházející zřejmě z uniklé tiskové zprávy… Ale i kdybychom celý rok žádné nové modely nedostali, pole pro experimentování je i tak neuvěřitelně široké.

Zavádění AI asistentů mi připomíná zavádění internetu v 90. letech. Některé firmy prostě chtěly „být na internetu“, ale braly to vlastně jako zápis v telefonním adresáři. Jinak nehodlaly na svém fungování nic měnit. A pak byli lidé, kteří experimentovali s novým komunikačním prostředím a postupně našli tisíce způsobů, jak vytvořit úplně nové platformy a nástroje.

První exploze plná prázdných očekávání přinesla pořádné zklamání v podobě splasknutí dot-com bubliny. Ovšem v následujících 20 letech se všechny ty šílené internetové sny z konce 90. let nejen naplnily, ale často je reálný dopad internetových technologií mnohonásobně překonal.

Čekám, že analogickým procesem si projdeme i nyní. Objeví se celá řada naprosto šílených nápadů, jak AI zapojit a vydělat na ní. Velká část se neosvědčí, spousta projektů zkrachuje. Budeme číst o trapasech, kontroverzích, stupidních chybách a splašených chatbotech. Ale mezitím, téměř nenápadně, budou lidé a firmy po celém světě zjišťovat, k čemu všemu tyhle podivné „vždyť-je-to-skoro-jako-člověk“ mimozemské technologie mohou být dobré.

Změna bude asi postupnější, než si nejspíš myslíme. Podívejme se, jak dlouho trvalo, než si lidé zvykli na internetový prohlížeč nebo chytrý telefon. Ale změny na sebe budou navazovat a budou se vzájemně násobit.

Rychlejší hardware dá vzniknout lepším lokálním modelům. Lokální modely dají firmám možnost bezpečněji pracovat s vlastními daty. Samostatní AI agenti umožní vznik nových firem a služeb a ty urychlí programování nových nástrojů… Jestli se vám z toho potenciálu netočí hlava, tak nedáváte pozor.

V plné verzi newsletteru TechMIX toho najdete ještě mnohem víc. Přihlaste se k odběru a budete ho dostávat každou středu přímo do své e-mailové schránky.

Doporučované