Článek
Co píšeme v analýze
V předtuše velkých zisků nyní vstupují na pole umělé inteligence technologičtí obři jako Microsoft, Google, Meta nebo Amazon.
Některé jsou v ošemetné pozici. Pokud by například vyhledávač Google začal s pomocí umělé inteligence nabízet chybné výsledky, firma by přišla o reputaci.
Přesto všichni velcí hráči evidentně věří, že je „AI pro lidstvo ta nejpřínosnější technologie vůbec.“
Je to skoro osm měsíců od chvíle, kdy ChatGPT našel způsob, jak ukázat umělou inteligenci masovému publiku. Prostřednictvím textové komunikace dokázal dávat překvapivě dobré a užitečné odpovědi a plnit i celkem složité pokyny. A taky si vymýšlet důvěryhodně vypadající nesmysly.
Brzy se debata rozběhla všemi směry. Může umělá inteligence vzít lidem práci? Vydělají na ní velké firmy, nebo naopak ty nové? Dojde ke vzpouře robotů, vlně dezinformací nebo pošlapání lidských práv?
Mezitím ostatní firmy vtrhly do ringu a přispěchaly se svými jazykovými modely a na nich postavenými nástroji. Microsoft, Google, Meta, Amazon, OpenAI… Také už se v tom ztrácíte? V této analýze uděláme inventuru toho, co máme nyní k dispozici a co se nejspíše brzy chystá.
OpenAI spustila vlnu a jede na ní
Začít musíme samozřejmě u OpenAI, kalifornské výzkumné laboratoře, která zjistila, že jako nezisková společnost to ve výzkumu umělé inteligence daleko nedotáhne. Šéf Sam Altman proto strukturu upravil na hybridní model: firma může vydělávat, ale její prioritou má být vždy výzkum a bezpečnost.
OpenAI provozuje ChatGPT, který v bezplatné verzi používá GPT-3 a v placené pak o poznání lepší (a pomalejší) verzi GPT-4.
V ChatGPT si mohou uživatelé nově aktivovat i celou řadu pluginů, jejichž spolehlivost je velmi různorodá. A také zapnout analytický nástroj Code Interpreter, který je naopak překvapivě spolehlivý a užitečný nejen pro analýzu dat, ale pro jakékoli rychlé programování na míru dané situaci a vašim souborům („odstraň poslední stránku z tohoto PDF“, „zkombinuj tyto dva excelové soubory do jednoho na základě čísla položky“ nebo „vytvoř z těchto deseti obrázků video“).
Ještě důležitější ale je, že OpenAI nabízí tyto své modely k využití vlastně komukoli. Stačí se registrovat k jejich aplikačnímu rozhraní (API). Firmy i jednotlivci z celého světa tak nyní mohou integrovat generativní umělou inteligenci do svých služeb a aplikací.
Do budoucna plánuje OpenAI vytrénování nového modelu GPT-5. Ale zatím jsme ještě ani zdaleka nevyužili všechny možnosti, které skrývá čtvrtá verze. Lze tedy očekávat, že OpenAI bude svým partnerům nabízet inkrementální (postupně rostoucí a přidávané - pozn. red.) vylepšení. A zároveň bude zlepšovat výsledky a upevňovat tak svou pozici jedničky na trhu.
Microsoft podpořil správné hříbě
Jedním z nejaktivnějších závodníků v zapřažení umělé inteligence je bezesporu firma Microsoft. Vsadila totiž už brzy na OpenAI a stala se jejich výsostnými podporovateli a investory.
Díky tomu mohl Microsoft naskočit na vlnu úspěchu OpenAI a vylepšit svůj celosvětově málo úspěšný vyhledávač Bing o konverzaci právě s modelem GPT-4.
Kecálek Bing Chat je integrovaný do vyhledávače, ale funguje i jako samostatná aplikace. Microsoft měl na začátku trochu problémy, protože „osobnost“ tohoto kecálka byla velmi paličatá a lidé si stěžovali na to, že se s nimi hádá nebo je třeba přemlouvá, aby opustili manželku… Microsoft ale tyto „dětské bolístky“ jak vystřižené z dystopického filmu postupně odstranil. Současný nástroj celkem dobře kombinuje možnosti GPT-4 s přístupem na web (přefiltrovaným přes vyhledávač Bing).
Jeho schopnosti jsou podobné, jako schopnosti ChatGPT. A zatímco ChatGPT od OpenAI má pluginy a interpreter kódu, Bing Chat dostal možnost nahrát obrázek, generovat obrázek nebo otázky diktovat. Co se týče generování textu, lze vybrat mezi Kreativním, Vyváženým a Přesným režimem, což odpovídá nastavené „divokosti“ jazykového modelu, na kterém nástroj stojí.
Microsoft integroval Bing Chat také do svého operačního systému Windows 11. A postupně plánuje do každého svého nástroje a produktu integrovat možnosti generativní umělé inteligence. Tam je velká příležitost k výdělku například v oblasti kancelářských programů. Představte si, že umělá inteligence nabízí odpovědi na vaše e-maily, analyzuje excelové tabulky a převádí je na prezentace, to vše na základě vašeho krátkého zadání. Tak si to aspoň maluje Microsoft. Za tohoto „kopilota“ si údajně plánuje nechat pořádně zaplatit, funkce by pro firmy měla stát 30 dolarů na osobu a měsíc.
Microsoft, alespoň co je veřejně známo, nevyvíjí vlastní modely, ale staví na osvědčeném GPT-4 a dalších modelech od AI. Firmám zřejmě nabídne možnost trénovat vlastní modely nad vlastními daty nebo běh modelů tak, aby byla zachována integrita proprietárních (privátních, uzavřených - pozn. red.) dat.
Vydělávat tak Microsoft plánuje jak na službách nabízejících generativní umělou inteligenci, tak na jejím provozu. Firmám totiž nabízí cloudové služby, které tvoří nejvýznamnější (a nejrychleji rostoucí) část příjmů firmy.
Google to přece umí už dávno
Před sedmi lety společnost Google změnila šéfa. Sundar Pichai označil za prioritu společnosti umělou inteligenci, a firma měla ne jeden, ale hned dva týmy zaměřené na její vývoj (DeepMind a Google Brain). Proto bylo pro mnohé překvapení, že do současné vlny generativních nástrojů naskočil Google až s několikaměsíčním zpožděním. Interně totiž podobné chatboty testoval už dlouho.
Každopádně na květnové konferenci Google I/O firma otevřela stavidla a ukázala desítky nových nástrojů, které využívají velkých jazykových modelů.
Pro koncové uživatele je určen především Bard, konverzační nástroj podobný ChatGPT, který je nově k dispozici i v Evropě. Také umí vést diskuze na různá témata, generovat texty, počítačový kód nebo odpovídat na otázky. Oproti konkurenci je o něco rychlejší. Google se snaží, aby Bard negeneroval moc nesmyslů, což někdy znamená, že odmítne odpovědět i na otázku, se kterou by si měl poradit.
Bard si bohužel i tak občas vymýšlí. Třeba když mu necháte shrnout nějaký článek, ochotně vám vyhoví. Řídí se ale textem v adrese článku, nikoli článkem samotným.
Ostatně Google zdůrazňuje, že Bard není vyhledávač, nýbrž experiment. Kromě toho ale Google pracuje i na integraci generativní AI do svého vyhledávače. Tam je ale v ošemetné pozici. Zatímco málo používaný vyhledávač Bing v podstatě nemá co ztratit, Google by coby celosvětová jednička mohl narazit. Buď by generované výsledky nebyly dobré, a Google by přišel o důvěru lidí. Nebo by byly dobré, funkce by byla oblíbená a prodražil by se provoz vyhledávače. Generování textů pomocí LLM je totiž řekněme tisíckrát dražší než současný provoz populárního vyhledávače.
Kromě toho má Google podobné plány jako Microsoft. Hodlá integrovat generativní AI do svého kancelářského balíku Workspace. Jednoduchým pokynem byste tak třeba z e-mailu mohli udělat dokument nebo vytvořit prezentaci na libovolné téma s použitím vašich fotek uložených na vašem cloudu.
Když už mluvíme o cloudu, právě v cloudových službách může Google zabodovat, pokud se mu podaří nabídnout vývojářům zajímavé funkce. O to se snaží balík Vertex AI, ve kterém si vývojáři mohou „naklikat“, co od AI potřebují.
Firma se nestydí připomenout, že velká část objevů vedoucích k současné AI vlně, vznikla právě v Google. Ať už jde o první vlaštovku v textové analýze, word2vec českého vývojáře Tomáše Mikolova, nebo přelomovou studii „Potřebujete jen pozornost“, která ukázala cestu tzv. transformátorům. Ano, to je to písmeno T v ChatGPT.
Google samozřejmě nezůstává na místě. Spojil své dva týmy do jednoho. Google Brain a DeepMind jsou nyní Google DeepMind, a firma si slibuje robustní spolupráci, která ponese plody napříč obory.
Jejich příští velký jazykový model – nazvaný Gemini – má být navíc tou nejlepší odpovědí na dosavadní úspěch GPT-4. Demis Hassabis, který novému týmu Google DeepMind velí, označuje Gemini za kombinaci síly neuronových sítí DeepMind a jazykových schopností generativních modelů.
„Pokud se to povede, bude AI pro lidstvo ta nejpřínosnější technologie vůbec,“ říká Hassabis. „Musíme se do těchto věcí pouštět s odvahou.“
O důležitosti nového modelu Gemini vypovídá i to, že podle informací Wall Street Journal s jeho vývojem osobně pomáhá i Sergey Brin, jeden ze zakladatelů Google.
A protože je Google i provozovatelem cloudových služeb, čím více budou lidé používat strojové učení a umělou inteligenci, tím lépe i pro Google.
Meta dělá věci po svém
Do souboje o nejlepší jazykový model zasahuje poněkud neobvyklým způsobem firma Meta, která je provozovatelem sociálních sítí Facebook, Instagram, Threads a komunikační platformy WhatsApp.
Svůj velký jazykový model LLaMA 2 totiž firma Marka Zuckerbergera uvolnila k využití prakticky komukoli. A zdarma. „Když je software otevřený, více lidí jej může prostudovat a najít jeho případné nedostatky,“ řekl zakladatel a šéf Meta.
„Jsme přesvědčeni, že otevřený přístup je pro vývoj dnešních modelů umělé inteligence, zejména těch v generativní oblasti, kde se technologie rychle vyvíjí, ten správný,“ napsala firma na svém blogu. Firma označuje zveřejnění za „uvolnění do open-source“, i když podle některých se o klasický open-source nejedná. Každopádně si ale může model kdokoli stáhnout, postavit na něm svou aplikaci nebo model dále trénovat či upravit.
Firma Meta něco podobného neudělala poprvé. Naopak, má ve zvyku celkem často zveřejňovat různé AI nástroje, která mají široké využití mezi vývojáři. Už předchozí model LLaMA byl volně ke stažení, což konkurence kritizovala jako nezodpovědné, protože může dojít ke zneužití například pro generování podvodných a falešných zpráv.
Naopak Yann Lecun, šéf oddělení pro výzkumu AI ve firmě Meta, se domnívá, že chybou by bylo tyto modely k dispozici nedat: „Zvítězí ta platforma, která bude otevřená,“ domnívá se. Je podle něj velkou chybou, že ostatní firmy pěstují kolem AI vývoje takové tajnůstkářství: „Opravdu chcete, aby měly všechny AI systémy pod kontrolou pár mocných amerických společností?“
Model LLaMA 2 si můžete vyzkoušet třeba na platformě Replicate. Jak vidíte, čeština mu příliš nejde, odpovídá anglicky i na česky položené dotazy. Kdokoli ale může model „dotrénovat“.
Vlastně ne kdokoli. Pokud má vaše firma více než 700 milionů aktivních uživatelů měsíčně, musíte se s firmou Meta domluvit na speciální licenci. Meta se tak zjevně brání tomu, aby svým modelem nepomáhala největším konkurentům. Menší hráči ale po modelu rychle skočili: „Vývojáři a podnikatelé jsou velmi vynalézaví a zjistí, co všechno mohou z Llamy 2 vymáčknout,“ myslí si investor Jon Turow. Přestože je tedy LLaMA 2 pro většinu lidí nepoužitelná, pro vývojáře může jít z pohledu generativní AI o událost roku.
Anthropic překonává konkurenci v kontextu
Nejmenší firmou v našem přehledu je Anthropic, kterou v roce 2021 založili Daniela a Dario Amodei, dva bývalí zaměstnanci OpenAI. Údajně se jim nelíbil vstup Microsoftu coby investora. Založili firmu, kterou pro změnu finančně podpořil Google.
Anthropic nedávno ukázal svého nového chatbota Claude 2, který se oproti konkurenci může pochlubit zdaleka největším „kontextovým oknem“. Obvykle totiž nástroje založené na velkých jazykových modelech brzy „ztratí nit“ a zapomenou, o čem jste se s nimi bavili ve stejné konverzaci před půl hodinou.
Ale Claude 2 zvládá až 100 tisíc tokenů (elektronický klíč - pozn. red.), což je o řád více, než nyní dostupná verze GPT-4. To znamená, že můžete chatbotovi předhodit třeba knihu v PDF a on se v ní zorientuje a bude umět zodpovědět vaše dotazy.
Narozdíl od konkurenčních chatbotů, které jsou do svého chování „vytrénované“ pomocí zpětné vazby od lidských kontrolorů (tzv. RLHF - Reinforcement Learning from Human Feedback), zvolil Anthropic jinou filozofii. Jejich Claude 2 se řídí „ústavou“, a sám se tak snaží pochopit principy, které odlišují dobré odpovědi od špatných a užitečné od triviálních. Jedním z takových principů je třeba „etika bez moralizování“.
Navíc má Claude 2 novější informace než ostatní dosud jmenované vytrénované modely. Učil se i na textech z roku 2023, zatímco GPT-4 má hranici na podzim 2021. Ale než se nadchnete, že jsme konečně našli jasného vítěze, je potřeba jedním dechem dodat, že i Claude 2 má tendenci si vymýšlet, halucinovat, zkrátka kecat. Jako všechny současné jazykové modely.
Jazykový model totiž ve skutečnosti hraje takovou jednoduchou statistickou hru. Podívá se na text, který je již napsaný, a pokusí se v něm pokračovat. Slovo po slovu tak skládá věty a celé odstavce. Je svým způsobem nepochopitelné, že výsledek této „aplikované statistiky“ dává smysl a je lidem užitečný.
Vědci to nazývají emergentními vlastnostmi. Z aplikace statistických pravidel, která vznikla natrénováním na velkém množství dat, se najednou může vyklubat něco, co lze s trochou pragmatismu nazvat kreativitou nebo dokonce přemýšlením. Není to přemýšlení lidské, ale výsledky jsou často tak dobré, že je od lidských nerozeznáte.
Častá nedorozumění ohledně generativní AI
Ale vždyť počítače jen opakují to, co už někdo napsal, jen ta slova jinak uspořádají na základě kontextu a zadání!
Ano, ale totéž bychom mohli říci o lidech. Takto zkrátka komunikace pomocí jazyka funguje: skládáme za sebe slova a tím vytváříme nové věty, které nesou nové významy v daném kontextu. Uvědomte si, co všechno dokáží lidé dosáhnout jen prostřednictvím psaného slova. To vše se teď otevírá i počítačovým systémům, které jsou schopné tvořit smysluplné věty.
Říkáte tedy, že počítače mají vůli, motivaci nebo dokonce duši?
Ne, podle mého ale není inteligence nutně podmíněná žádným z těchto atributů. Jak říká Richard Sutton: „Inteligence je výpočetní část schopnosti dosahovat cílů. Systém pro dosahování cílů je užitečnější chápat z hlediska výsledků než z pohledu mechanismu jeho fungování.“
Ale vždyť je uvnitř té umělé neuronové sítě pořád jen počítačová statistika!
Ano, je to v zásadě „jen jednoduchá matematika“, která probíhá ve velmi komplexním systému. Stejně jako to, co se děje uvnitř našeho mozku, je „jen jednoduchá chemie“ uvnitř nesmírně složitého orgánu. Fungování lidského mozku zdaleka nerozumíme do detailů, ale na základě vnějších projevů přijímáme, že je člověk schopen inteligence.
Více v komentáři o tom, jak pragmaticky vnímat AI: