Článek
Analýzu si také můžete poslechnout v audioverzi.
Nejsložitější lidské schopnosti jsou ty, které děláme automaticky, napsal v 80. letech minulého století expert na robotiku Hans Moravec. Tento vizionář (který, navzdory svému jménu, neměl kořeny na Moravě ani v Česku, ale v Rakousku) poukázal na zvláštní nepoměr.
Tehdejší počítače excelovaly v matematice, logice nebo hraní šachů – tedy v úlohách, které lidem připadají náročné. Zároveň ale zoufale selhávaly v tom, co zvládne malé dítě: rozpoznat psa na fotce, zvednout ze země hrnek nebo pochopit ironii v běžné konverzaci.
Tento takzvaný Moravcův paradox ale v posledních letech jako by přestával platit. Obří jazykové modely nejenže bezpečně poznají psa (většinou), ale zvládají i komplexní ústní a písemný projev. Skládají náročné právnické zkoušky, řeší logické úlohy a svými schopnostmi často překvapují i vlastní tvůrce. Pravda, základní orientace ve fyzickém světě nebo robustní „selský rozum“ jim stále činí obtíže, ale i tady dochází k pokroku a například v robotice příchod AI zřejmě může znamenat poměrně významný posun.
Přitom nikdo netvrdí, že AI je stejná jako člověk. Zjevně pracuje zcela jinak a pro nás bohužel zatím nepříliš srozumitelně.
Jak tedy objektivně otestovat a posoudit, do jaké míry? Je zjevné, že stará měřítka přestávají stačit a nová se hledají jen obtížně.
Zkoušky pro stroje
Aby dnes výzkumníci mohli pokrok alespoň nějak uchopit a porovnávat jednotlivé modely mezi sebou, vytvářejí různé specializované „benchmarky“. Představte si je jako standardizované sady úloh, jakési digitální překážkové dráhy nebo vědomostní soutěže navržené speciálně pro umělou inteligenci. Mají ověřit konkrétní schopnosti modelů v kontrolovaném prostředí.
Zkoušky mají různé zaměření a kladou na stroje různé úkoly. Některé jsou více zaměřené na matematiku, jiné psaní počítačového kódu, další na všeobecný přehled či aplikaci poznatků při řešení nových problémů.
V podstatě všechny (například HumanEval pro hodnocení schopnosti psát kód nebo HELM snažící se o komplexnější pohled zahrnující i férovost či robustnost modelu) ukazují, že schopnosti AI modelů nepochybně rostou. Jenže spoléhat se pouze na výsledky těchto standardizovaných testů je ošidné. Mají totiž své zásadní limity, které mohou vést k mylným představám o skutečných schopnostech dnešních modelů.
Jedním je skutečnost, že testy přestávají někdy stačit (tzv. saturace benchmarků). Jakmile modely dosáhnou nebo překonají lidskou úroveň v daném testu (jako se to stalo u staršího benchmarku GLUE a hrozí u MMLU), test přestává být užitečný pro rozlišování mezi špičkovými systémy. Je to, jako byste chtěli měřit schopnosti olympijských sprinterů pomocí všeobecného testu zdatnosti dětí – všichni by měli plný počet bodů a vy byste nezjistili, kdo je skutečně nejlepší.
Jak srovnáváme „chytrost“ chatbotů
Trénování jazykových modelů je časově, datově i finančně náročné. Obvykle tedy laboratoře nesázejí vše na jeden model, ale trénují několik variant souběžně. Aby vývojáři mohli porovnat, zda se model trénuje směrem k „užitečné chytrosti“, musí tyto modely podrobit testům. Každý tým má své testy a tyto ovlivní, co bude výsledný velký jazykový model umět.
Některé „standardizované testy“ (tzv. benchmarky) se ujaly coby průmyslové standardy a používají se i k poměřování jazykových modelů mezi sebou navzájem.
- MMLU (Massive Multitask Language Understanding) je test zaměřený na testování faktických znalostí a všeobecnou vzdělanost. Nejlepší modely zde dosahují úspěšnosti přes 90 %, což je přibližně na úrovni lidí (expertů v jednom daném oboru).
- GPQA (Graduate-Level Google-Proof Q&A Benchmark) obsahuje otázky na úrovni vysokoškolských znalostí, které jsou sestavené tak, aby nebylo možné odpovědi vyhledat pomocí vyhledávače. Experti v daném oboru dosahují v průměru 65% úspěšnosti. Nejlepší LLM dosahují 87 %.
- HumanEval testuje, zda umí LLM vyřešit praktické úlohy, které lidé oceňují, a to prostřednictvím psaní užitečného a funkčního zdrojového kódu.
- GSM8K obsahuje slovní úlohy na úrovni základní školy a testuje především logické uvažování.
Dalším úskalím je riziko, že modely se na testy „šprtají“, místo aby skutečně chápaly podstatu problémů. Mohou si zapamatovat specifické vzorce nebo formulace otázek z trénovacích dat, zvláště pokud části benchmarku neúmyslně pronikly do obrovských datasetů, na kterých se AI trénuje (tomu se říká kontaminace dat). Pak sice model v testu zazáří, ale selže u podobné úlohy formulované jen trochu jinak. Je to jako student, který se naučí zpaměti odpovědi na konkrétní otázky, ale nerozumí látce.
A možná nejzávažnější je propast mezi výkonem v testech a v reálném světě. Benchmarky často měří izolované dovednosti v umělém prostředí a vysoké skóre nezaručuje, že si model poradí s nečekanými příklady nebo že bude bezpečný a etický (nebude generovat škodlivý obsah, dezinformace atp.). Jak poznamenala průkopnice AI Fei-Fei Li, dnešní AI může být jako systém, který zahraje dokonalý šachový tah, zatímco místnost kolem něj hoří – může být tedy sice technicky brilantní, ale vlastně nechápe, co se kolem ní děje.
Přitažlivost pokroku
Kromě limitů samotných testů komplikuje měření i samotná rychlost pokroku AI. Ten totiž často neprobíhá lineárně, krůček po krůčku, ale spíše po exponenciální křivce. Dlouho se zdá, že se nic moc neděje, model působí „hloupě“, ale pak najednou, během relativně krátké doby, jeho schopnosti dramaticky vzrostou a dosáhnou nebo překonají lidskou úroveň v dané oblasti.
Viděli jsme to na konkrétních číslech. Starší model GPT-3 dosáhl v testu MMLU úspěšnosti 43,9 %, zatímco nový model GPT-4.1 už má skóre přes 90 %. V řešení matematických slovních úloh (benchmark GSM8K) poskočila během pouhých dvou let úspěšnost špičkových modelů ze zhruba 20 % na více než 90 %.
Statické benchmarky tak rychle zastarávají. Jakmile AI zvládne „maturitu“ v podobě jednoho testu, musíme rychle hledat „vysokou školu“ – novou, těžší výzvu. Ale co když AI „vystuduje“ i tu? Jak pak měřit další pokrok? Skutečnost, že cílová páska se pořád posunuje, ztěžuje dlouhodobé sledování a spolehlivé předpovědi.
Právě kvůli limitům benchmarků a oslnivé rychlosti pokroku se pozornost výzkumníků i veřejnosti stále více obrací od abstraktních testů k reálným, praktickým schopnostem AI. Otázky už neznějí jen „Jaké má AI skóre v testu X?“, ale spíše třeba otázky typu: Dokáže AI samostatně naprogramovat jednoduchou hru podle zadání? Dokáže vytvořit užitečný a přesný souhrn z dlouhé obchodní zprávy? Pomůže vědcům analyzovat data nebo navrhnout experiment?
Jinými slovy, přestáváme se na AI dívat jen jako na akademický experiment a začínáme ji vnímat jako potenciálně užitečný nástroj. Hodnotí se její schopnost řešit konkrétní problémy, asistovat lidem v práci, tvořit hodnotu. Tento posun k „aplikovaným benchmarkům“ a sledování reálného využití je logický – ale vyžaduje od uživatele ochotu trochu „kutit“ a hodně experimentovat.
Reálné úkoly jsou často komplexní, špatně definované a vyžadují přizpůsobení kontextu. To se v jednom „čísle“ těžko zachycuje, navíc je to obtížně přenosné od jednoho úkolu k druhému. Ano, AI vám možná zvládne připravit prezentaci, ale při vyhledávání na internetu stále „halucinují“ občas i pokročilé modely se specializovanými funkcemi.
Ale dokud si to sami nevyzkoušíme, nezískáme příliš dobrou představu, kde její hranice jsou. Nemluvě o tom, že někdy neúspěchy nejsou důsledkem neschopnosti AI, ale problém je mezi židlí a klávesnicí – prostě jí my uživatelé nedokážeme dát dobré zadání.
A co třeba METR?
To, že hledání vhodného způsobu měření výkonu je obtížné, neznamená, že nemá smysl. Právě proto, že tradiční benchmarky narážejí na své limity a posouzení praktických schopností je složité, stále se hledají nové.
Dovolíme si vám představit jeden zajímavý a relativně inovativní přístup, se kterým přišla nezisková organizace METR z kalifornského Berkeley. Jejich metrika se nesoustředí na úspěšnost AI v takových či onakých úlohách, ale snaží se zachytit, jak komplexní a časově náročné úkoly z reálného světa dokáže software zvládnout.
Autoři ji nazvali s typickým smyslem ajťáků pro srozumitelnost a chytlavost „časový horizont dokončení úkolů“ (task-completion time horizon). My bychom řekli, že měří, jak dlouho trvá, než se AI ve své práci ztratí.

Vertikální osa je logaritmická. Zatímco v roce 2022 zvládala AI maximálně minutové úkoly, teď už si troufne i na komplikovanější věci, které by lidem zabraly hodinu.
Funguje to následovně: Nejprve experti (například programátoři, kyberbezpečnostní analytici) změří, jak dlouho jim jako lidem obvykle trvá splnit sadu reálných pracovních úkolů (těch úkolů vytvořil METR téměř 170). Poté se změří, které z těchto úkolů dokáže AI model splnit s určitou (například 50%) úspěšností.
Ale to není ještě výsledek – tím je čas. „Časový horizont“ daného AI modelu je totiž definován jako typická doba, kterou člověk potřebuje na splnění nejtěžších úkolů, které daný model zvládne s 50% úspěšností. To znamená, že výsledkem měření je, jak časově náročné úkoly umělá inteligence (ne)zvládá – zda spolehlivě dokáže udělat totéž, co člověk zvládne za pár minut, nebo za pár hodin.
Výsledky jsou fascinující. Zatímco raný model GPT-2 z roku 2019 selhal u všech úkolů, které expertům trvaly déle než minutu, jeden ze současných modelů (Claude 3.7 Sonnet od Anthropic, únor 2025) už zvládl s 50% úspěšností úkoly, které by člověku zabraly téměř hodinu (59 minut). A „uvažující“ model o1 v novém updatu testu zvládl s poloviční úspěšností stejné úkoly, jako experti za téměř dvě hodiny práce.
Celkově se podle METR tento časový horizont špičkových modelů od roku 2019 zdvojnásobuje zhruba každých sedm měsíců, přičemž v roce 2024 se toto tempo ještě zrychlilo na zdvojnásobení každé tři měsíce.
Výsledky METR také nabízejí možnou odpověď na otázku, proč se zdá, že navzdory schopnostem AI je její ekonomický dopad zatím relativně malý. Metrika dobře ilustruje jedno možné vysvětlení: za hodinu člověk stihne jen omezené množství skutečně hodnotné práce. Většina projektů, které vytvářejí významnou ekonomickou hodnotu (založení firmy, vědecký objev, vývoj složitého softwaru), vyžaduje dny, týdny nebo měsíce soustředěné práce.
Samozřejmě, ani METR není dokonalé měřítko. Protahovat současný trend do budoucna je ošemetné: nelze zaručit, že tempo růstu vydrží. Vývojáři mohou narazit na limity ve výpočetním výkonu nebo kvalitě dat. Ekonomický dopad navíc ovlivňuje mnoho dalších faktorů, například ochota firem investovat do potřebných změn a experimentovat s novými technologiemi. Přesto METR – podobně jako jiné zajímavé metriky – umožňuje lépe pochopit, kde se dnes ohledně vývoje AI nacházíme.
Vlastním metrem je to nejlepší
Je tedy možné získat co nejvěrnější obraz o schopnostech AI? Jedno univerzální číslo, jakési „AI IQ“, zjevně neexistuje a asi ani existovat nemůže. Smysluplné hodnocení musí sledovat šíři dovedností – co všechno model umí. Musí zkoumat hloubku porozumění i ověřovat schopnost přizpůsobit se situaci a poradit si s novými situacemi. A zapomínat nesmíme ani na efektivitu a náklady – sebelepší model je k ničemu, pokud je jeho použití příliš drahé nebo pomalé.
V praxi to znamená, že odborníci se nemohou spoléhat na jednu metodu, ale skládat mozaiku z různých přístupů. Standardizované benchmarky mají stále své místo, pokud si jsme vědomi jejich limitů. Klíčové je ověřování na reálných, praktických úlohách, ať už přes metriky jako METR nebo vlastním experimentováním. Pomoci může i zpětná vazba od jiných lidí, například přes platformy jako Chatbot Arena, kde uživatelé hodnotí kvalitu odpovědí.
A právě to zmíněné vlastní experimentování je dnes možná tou vůbec nejdůležitější radou. Protože vám nikdo nedokáže zcela přesně a univerzálně říci, co všechno současná AI (ne)umí a jak dobře vám může posloužit pro vaše konkrétní potřeby, nejlepší cestou je: vyzkoušejte si ji sami.
Hrajte si s ní, zkoušejte různé úkoly, nebojte se ji trochu potrápit neobvyklými dotazy. Zjistěte, kde vám pomáhá a kde naopak selhává nebo „halucinuje“. Udělejte si zkrátka vlastní obrázek – lepší vám v tuto chvíli nikdo nenabídne a žádný test ho nenahradí.
Generativní AI na vzestupu
Od listopadu 2022, kdy firma OpenAI představila nástroj ChatGPT, lidé po celém světě experimentují s tím, jak jim generativní umělá inteligence může pomoci.
O tom, co nové nástroje umí nebo neumí, se diskutuje z mnoha pohledů. Jedná se o skutečnou inteligenci a kreativitu? Výsledky jsou totiž nejen ohromující, ale také bizarní. Věnujeme se jim v podcastu Mozaika nebo v seriálu Hrajeme si s AI.