Hlavní obsah

TechMIX: AI zjednodušuje datovou analýzu, vědci ale musí být opatrní

Foto: Shutterstock.com

Když se cesta k datové analýze usnadní, naroste počet lidí, kteří se budou ohánět sofistikovaně vypadající analýzou dat.

V létě bych byl nejradši, kdyby se přísun novinek na chvíli zastavil. Jenže okurková sezona možná funguje v oblasti politiky nebo společenského života, ale v našich oborech bývá léto na novinky stejně bohaté jako zbytek roku.

Článek

Čtete ukázku z newsletteru TechMIX, ve kterém Pavel Kasík a Matouš Lázňovský každou středu přinášejí hned několik komentářů a postřehů ze světa vědy a nových technologií. Pokud vás TechMIX zaujme, přihlaste se k jeho odběru!

Jako pravidelní čtenáři TechMIXu víte, že se poslední přibližně rok intenzivně věnujeme generativní umělé inteligenci. Pokud chcete mít přehled o tom, co je v této oblasti nového, určitě ale nespoléhejte jen na náš newsletter. Nestíháme psát ani zdaleka o všem, co se v tomto stále rozmanitějším sektoru děje. Nejlepší asi je udržovat si povědomí skrze experimentování s různými nástroji.

Pokud máte předplacený ten nejpopulárnější – ChatGPT ve verzi Plus – přistála vám v něm nyní nová, dlouho očekávaná funkce: Code Interpreter. Zapnete jej v nastavení v sekci Beta Features. A pak už jej můžete aktivovat v nové konverzaci pod možnostmi modelu GPT-4.

Foto: Pavel Kasík, Seznam Zprávy

Nová beta funkce v ChatGPT Plus.

Od všech ostatních funkcí ChatGPT se liší zásadním tlačítkem „upload“, které vám umožní nahrát do cloudu své vlastní soubory a požádat GPT-4, aby se do nich pustil a pomohl vám s jejich analýzou. Není to ale tak, že by si je přečetl a pak si tu analýzu slovo po slovu vymyslel skrze jazykový model. To by byla velmi primitivní a problematická funkce, protože namísto statistik byste dostali jen důvěryhodně znějící dojmologii.

Výhoda Code Interpreteru spočívá v tom, že jazykový model GPT-4 v tomto případě data neanalyzuje přímo, ale píše na míru vašim datům skripty, které se pak o analýzu postarají.

Foto: Pavel Kasík, Seznam Zprávy

Nová beta funkce v ChatGPT Plus.

Zatím jsem to zkoušel jen na několika excelovských souborech a výsledky byly velmi dobré a rychlé. Code Interpreter se ve vašich souborech dobře zorientuje a vždy vám vysvětlí, co přesně s nimi dělá. Můžete jej požádat o konkrétní analýzu, nebo nechat na něm, jaké věci „vymyslí“.

„Dá se říct, že to objektivně docela dobře funguje,“ řekl pro New York Times Ethan Mollick z University of Pennsylvania, který měl možnost si s nástrojem hrát už dva měsíce před jeho uvolněním pro platící zákazníky.

Výsledky si můžete nechat zobrazit přímo v ChatGPT prostřednictvím základních vizualizací anebo si nechat vygenerovat třeba CSV či JSON soubor se zpracovanými daty. Právě možnost vygenerování souborů se bude hodně lidem hodit nejvíce. Profesionálové zase ocení, že si mohou veškerou práci, kterou za ně ChatGPT udělal, podrobně zkontrolovat a každý skript si rozkliknout.

Foto: Pavel Kasík, Seznam Zprávy

Nová beta funkce v ChatGPT Plus.

Mimochodem, v současnosti si program ChatGPT bude v rámci dané konverzace nahrané soubory „pamatovat“ jen dvě hodiny. Těžko říct, zda jde o snahu ušetřit místo, nebo o nějaký trik, jak uživatele povzbudit k intenzivnějšímu testování, což povede k rychlejšímu vychytání chyb.

Po nějaké době se každopádně o ChatGPT opět začalo více mluvit. Přestože bychom na Code Interpreter mohli nahlížet jen jako na jeden z mnoha pluginů, jeho význam je podle mého větší. Je to nástroj přímo od OpenAI a jeho běh je tak rychlejší i spolehlivější než u externích pluginů. Navíc je to nástroj neuvěřitelně verzatilní.

Foto: Ethan Mollick

Takhle pěkně mohou vypadat pokročilé datové vizualizace v Code Interpreteru.

V oblasti analýzy „posílené generativní AI“ je Code Interpreter určitě jednou z nejlepších služeb, kterou jsem zatím zkoušel. Otevře cestu k datové analýze lidem, pro které byla zatím nedostupná.

Což, jak někteří vědci připomínají, nemusí být automaticky jen dobře. „Mnohem větší problém než aplikovat analytické metody je přijít na to, kdy kterou metodu použít,“ zdůrazňuje biochemik Jan Trnka. „Data nikdy nemluví sama za sebe, kontext je klíčový.“

Proto rozumím obavě z toho, že když se cesta k datové analýze usnadní, naroste počet lidí, kteří se budou ohánět sofistikovaně vypadající analýzou dat. A vy nebudete moci snadno rozlišit, zda zrovna tato datová analýza brala v potaz kontext, nebo zda jen ChatGPT dostal zadání vyplivnout grafy tak, aby podpořily něčí tezi. „Opravdová datová analýza vyžaduje hodně kritického myšlení,“ připomíná Arvind Narayanan z Princeton University.

Už jen proto, že data byla nasbírána nějakým způsobem, a je klidně možné, že skutečná odpověď se skrývá v tom, jaká data do vzorku zahrnuta nebyla. A přestože Code Interpreter každou chvíli zdůrazňuje, že „je jen jazykový model“ a „je potřeba ověřit vztah mezi daty a skutečností z dalších zdrojů“, jsem si jist, že řada lidí zkrátka zkopíruje hezky vypadající výsledky automatizované analýzy a nebudou si nějakými kritickými úvahami komplikovat práci…

Jaký bude celkový dopad? Zvýší to počet špatných analýz? Určitě. Zvýší to počet dobrých analýz? Myslím, že ano. Stoupne relativní počet špatných analýz? Nevím. Každopádně bude těžší na první pohled odlišit promyšlenou analýzu od nepromyšlené.

V plné verzi newsletteru TechMIX toho najdete ještě mnohem víc. Přihlaste se k odběru a budete ho dostávat každou středu přímo do své e-mailové schránky.

Doporučované