Článek
Článek si také můžete poslechnout v audioverzi.
Firma OpenAI – výrobce známého chatbotu ChatGPT – po měsících spekulací konečně ukázala veřejnosti svůj nový model. Původní kódové označení Qstar nebo Strawberry (jahoda) se proměnilo v lakonickou zkratku o1 (ó jedna).
Od předchozích velkých jazykových modelů (GPT-4o, GPT-4, GPT-3.5 atd.) se novinka odlišuje tím, že si umí rozmyslet postup a naplánovat strategii, ještě než se pustí do psaní odpovědi.
„Tyto modely jsme vycvičili tak, aby předtím, než začnou reagovat, strávily více času přemýšlením o problémech, podobně jako člověk,“ píše OpenAI ve svém oznámení. „Díky tréninku se naučily zdokonalovat svůj proces myšlení, zkoušet různé strategie a rozpoznávat své chyby.
Jako ukázku nových možností OpenAI prezentuje třeba programování. Na základě instrukcí dokáže sestavit plán a ten pak uskutečnit. „Je to vzrušující, ten model je chytrý. Jak vidíte, ten model se opravdu snaží zvážit všechny instrukce, které jsem mu dal,“ popisuje Hongyu Ren, výzkumník OpenAI.
Dodejme, že ChatGPT o1 zdaleka není jediný model, který pomáhá programátorům psát zdrojový kód. Na začátku léta v této oblasti zabodoval konkurenční Claude Sonnet 3.5, který navíc umožní uživateli jednoduchý kód rovnou spustit.
Rozdíl by ale měl být v „uvážlivosti“ nového modelu. OpenAI to dokládá na výsledcích: „V kvalifikační zkoušce na Mezinárodní matematickou olympiádu (IMO) GPT-4o správně vyřešil pouze 13 % úloh, zatímco nový model s uvažováním dosáhl 83% úspěšnosti,“ popisuje na blogu.
Rozdíl je vidět i na srovnání v otázkách na úrovni doktorandů vědeckých oborů. Už původní GPT4o si zde vedl dobře, ale lidské experty nepřekonal. Nový model o1 ovšem v této pokročilé zkoušce dosahuje lepších výsledků než lidé.
Proč je plánování důležité?
Připomeňme, že dosud chatboty založené na velkých jazykových modelech postupovaly slovo po slovu, respektive token po tokenu (token je slovotvorná jednotka, se kterou neuronové sítě na pozadí pracují – pozn. red.) . To často vedlo k rychlým výsledkům, které působily věrohodně, ale jednalo se o nesmysly, halucinace, kecy.
Proč umělá inteligence „kecá“
Nástroje jako ChatGPT, Gemini nebo Copilot jsou založené na neuronových sítích a využívají tzv. velké jazykové modely (large language models, LLM). Tyto modely jsou natrénované na velkém množství textu a umí za sebe skládat slova a části slov tak, aby výsledek působil důvěryhodně. To ale neznamená, že jsou výsledky pravdivé.
Těmto nepravdám se obvykle říká „halucinace“ a jde o jednu z hlavních nevýhod, které brání nasazení velkých jazykových modelů do obchodní praxe.
Výzkumníci i uživatelé postupně přišli s celou řadou triků (tzv. prompt engineering), jak se těmto nesmyslům vyhnout a jak chatbota přemluvit, aby dával lepší výsledky. Jednou ze strategií je právě tzv. Chain-of-thought, tedy řetězec myšlenek. Uživatel postupně vedl umělou inteligenci k tomu, aby zvážila různé aspekty, ověřovala své hypotézy a poté vybrala nejlepší závěr.
Zdá se, že právě to nyní na pozadí dělá nový model. Podle OpenAI jde ale o něco víc než jen o instrukce navíc. Model byl zřejmě vytrénován na postupech, které vedou ke správnému řešení, čímž získal „instinkty“ podobné těm, které získá expert během budování své expertizy.
Jak o1 píše česky?
Následující text je ukázkou toho, jak ChatGPT pomocí modelu o1-preview popisuje novinku o1. Dostal k dispozici text oznámení OpenAI, náš předchozí článek a jasnou instrukci: buď kritický, možná to není zas až taková novinka.
Model nad odpovědí uvažoval devět sekund, pak se teprve pustil do psaní:
Společnost OpenAI nedávno oznámila novou řadu modelů s názvem OpenAI o1, které mají být schopny „více přemýšlet“ před tím, než odpoví. Podle jejich tvrzení by tyto modely měly řešit složité problémy ve vědě, programování a matematice lépe než kdy předtím. Ale je to skutečně tak revoluční, jak to na první pohled vypadá?
OpenAI uvádí, že v testech jejich nový model dosáhl 83% úspěšnosti v kvalifikační zkoušce na Mezinárodní matematickou olympiádu, zatímco předchozí GPT-4o zvládl pouze 13 %. Podobně vysokých výsledků dosáhl i v programátorských soutěžích, kde se umístil v 89. percentilu na Codeforces. Na první pohled to zní impozantně, ale je třeba si položit otázku: Nemohou podobných výsledků dosáhnout i současné modely, pokud jsou správně vedeny?
Modely o1-preview a menší o1-preview-mini jsou nyní dostupné uživatelům placené služby ChatGPT Plus. Také někteří vývojáři už mají k modelu přístup pomocí API. Konkrétně ti, kteří v posledním měsíci za dotazy pro modely OpenAI utratili více než tisíc dolarů.
Prozatím je možnost zkoušet ó jedničku dosti omezená. Týdně může platící uživatel poslat 30 dotazů na silnější o1-preview a 50 dotazů na rychlejší o1-mini. To naznačuje, že provoz těchto modelů je na pozadí energeticky náročný. Do budoucna by ale ChatGPT mohl sám vybrat, který z modelů pro řešení dané otázky zvolí. Uživatel by tak nemusel řešit, koho si vybere. Jen by položil otázku, a dostupné modely už by se mezi sebou „dohodly“, kdo se jí ujme.