Hlavní obsah

Mluvící chatboti budou všude. Proč si jinak kupovat novou troubu?

Foto: koláž: Pavel Kasík, Seznam Zprávy, AI vizualizace

Hlasoví asistenti jsou schopni vést dialog na prakticky jakékoli téma. Chcete je v kuchyni?

Hlasové ovládání auta a diktování do mobilu už nikoho nepřekvapí. V následujících měsících ale očekávám, že chatboti a asistenti vtrhnou do všech progamů, služeb a zařízení. Prostě proto, že budou levní. Ale budou užiteční?

Článek

Díváte se rádi na sci-fi? Je to jeden z mých oblíbených žánrů a na gymnáziu jsem si dokonce myslel, že mě psaní sci-fi povídek bude živit. A když se koukám na články, které posledních pár let píšu, není to tak daleko od pravdy.

Čtete ukázku z newsletteru TechMIX, ve kterém Pavel Kasík a Matouš Lázňovský každou středu přinášejí hned několik komentářů a postřehů ze světa vědy a nových technologií. Pokud vás TechMIX zaujme, přihlaste se k jeho odběru!

Novinové titulky poslední dobou čím dál víc připomínají kulisy klasického sci-fi filmu. Hlavní postava si dá ranní kávu a na futuristickém displeji nepozorně listuje hromadou článků: „GigaCorp představí nového robota, umí číst lidské emoce“, nebo „Napojení umělé inteligence na lidský mozek proběhlo úspěšně, firmě UltraBrain se hlásí tisíce dobrovolníků“.

Jména firem jsou pochopitelně smyšlená. Ale i těmi jmény už jako kdyby se současné skutečné firmy chtěly se sci-fi žánrem svázat a odkázat na něj. Dokonce i jejich loga vypadají, jako kdyby vypadla z libovolného sci-fi filmu. Dává to smysl. Populární sci-fi totiž významným způsobem utváří naši představu o budoucnosti.

Povídání s počítačem jsme nejprve také znali ze sci-fi filmů a seriálů. „Počítači, najdi optimální kurz ke galaxii XC7a, vezmi v potaz porouchané warpové motory a vyhni se asteroidům,“ takové věci říkal třeba kapitán hvězdné lodi USS Enterprise.

Je vhodné si uvědomit, že jsme ve filmech viděli představy o budoucnosti zkreslené velmi specifickým způsobem. Zatímco v knize mohou autoři popsat cokoli, co je napadne, scénáristé se musí držet toho, co snese jejich rozpočet. A jaké měli možnosti?

Nějaké očividně futuristické holografické rozhraní pro ovládání vesmírné lodi by bylo nesmírně nákladné, v 70. letech prakticky nemožné. A tak scenáristé Star Treku a řady dalších legendárních sci-fi přistoupili k jednoduchému a elegantnímu řešení. Hrdinové si budou s počítačem povídat. Na obrazovce to působí futuristicky a náklady na takové řešení jsou zanedbatelné. Najmete jednoho dabéra, který bude mluvit do plechovky, a je hotovo.

Příjemný strojový hlas se stal synonymem pro futuristickou komunikaci s počítačem. Vývojáři ChatGPT se ani netajili tím, že se těmito filmy nechávají inspirovat (někdy až příliš) a navazují tak na masově sdílenou představu o tom, jak taková komunikace s počítačem má vypadat.

Cena umělé inteligence rapidně klesá

Rozdíl mezi sci-fi a realitou často bývá jen v ceně. Solární panely bývaly tak neuvěřitelně drahé, že se skoro nikde nevyplatily. V posledních deseti letech jejich cena klesla asi desetkrát (a od 70. let dokonce 400krát). Najednou se solární panely vyplatí i tam, kde by předtím nedávaly smysl.

Ještě větší boom daný i rychle klesající cenou nyní sledujeme v oblasti umělé inteligence. To, co si ještě před rokem mohly dovolit jen velké firmy, nyní může udělat doslova kdokoli za pár dolarů (nyní spíše centů).

Konverzační umělá inteligence – nebo aspoň její náznak – byla ještě před deseti lety neuvěřitelné drahá a nespolehlivá záležitost. V roce 2019 se ve firmě Amazon asi deset tisíc zaměstanců věnovalo rozvoji, provozu a údržbě jejich konverzační umělé inteligence zvané Alexa. V Česku se tento hlasový asistent moc neujal a na americkém trhu také moc ne.

Chytrý reproduktor byl sice v milionech domácností, ale po počátečním nadšení většina lidí (a tady vycházím z anekdot, nikoli tvrdých dat) nechala na Alexu doslova padat prach. Z „umělé inteligence“ se stal v lepším případě sofistikovanější budík nebo alternativní způsob, jak přeskočit na další písničku. Můj nejčastější příkaz (konkurenčnímu) domácímu asistentovi je „Hey Google, stop“. Do nějakých dialogů nebo složitějších příkazů se většina uživatelů moc nepouštěla.

Asistenti Alexa a Google uvázli v minulosti. Jak připomíná jeden z otců strojového učení Richard Sutton: „Je zřejmé, že z dlouhodobého hlediska jsou úspěšné ty postupy, které jsou vyvíjeny s vědomím toho, že se počítače vyvíjejí. Vyhrají ti, již vyrábějí programy pro počítače, které tu budou za deset let.“

Kecálci budou všude

Stačilo pět let a jsme úplně jinde. Hlasoví asistenti – pohánění nikoli předem připravenými scénáři, ale velkými jazykovými modely a generativní umělou inteligencí – jsou schopni vést dialog na prakticky jakékoli téma. Hlasová komunikace ChatGPT nebo Gemini už je velmi plynulá a v mnoha ohledech se blíží tomu, co jsme si představovali.

Rostou i náklady, které jsou megafirmy schopné utratit za trénování nových modelů. Cena za generovaný dialog – tedy za inferenci, tedy provoz těchto modelů – ale naopak rychle klesá, nepochybně i kvůli narůstající konkurenci. Generování smysluplného textu bývala dost drahá záležitost. Na konci roku 2022 jste za generování tisíce tokenů (asi 700 anglických slov) zaplatili asi pět korun. A tehdejší kvalita (byť to tehdy byl velký pokrok) z dnešního pohledu opravdu za moc nestála. Nyní je situace zásadně odlišná.

Foto: OpenAI

Ceny za rychlé generování textu v červenci 2024 významně klesly.

OpenAI nedávno srazila ceny za provoz svého menšího modelu GPT-4o mini na opravdu směšné částky. Pomocí modelu GPT-4o mini můžete vygenerovat tisíc tokenů za šest desetin haléře. Tedy přibližně tisícinásobná sleva. Kvalita šla navíc významně nahoru.

Pořád rozhodně nemůžete věřit všemu, co vám jazykový model nakecá. Má tendenci pomáhat i tam, kde pomoci neumí, a výsledkem jsou tzv. halucinace. Ale za tu cenu…

Prakticky nic teď – alespoň po technické stránce – nebrání jakékoli firmě, aby zabudovala chatbota do svých programů, webových stránek a zařízení. Amazon na to před pěti lety věnoval miliardy. Vy teď něco podobného můžete s novými nástroji sesmolit za odpoledne.

Jsem si prakticky jistý, že chatboty brzy uvidíme všude: v hodinkách, mikrovlnkách, sluchátkách, autech, programech, fotoaparátech, vysavačích… „Jak se ti šlape?“ zašeptá vám nový rotoped zničehonic do sluchátek, a vy budete rychle hledat, kde tu funkci vypnout.

„Budoucnost už je tady“

Zdaleka ne všichni chatboti totiž budou užiteční. Dokonce si troufám tvrdit, že většina bude spíše otravných. Ale díky tomu, jak levná funkce to teď je, bych se divil, kdybychom v následujících měsících nezažili masivní nástup „konverzačního ovládání“.

Bude to totiž způsob, jak dát lidem důvod koupit si novou verzi starého – a plně fungujícího – zařízení. Z dětství si pamatuji podobný trend: V 80. a 90. letech začaly firmy opravdu do všeho cpát digitální hodinky: do deštníků, do kompasu, do trouby, do propisek, hraček i do nábytku. Bylo to užitečné? Většinou vůbec. Ale byl to způsob, jak ukázat, že jde o „moderní výrobek“. Digitální displeje jsou přece budoucnost.

Určitě už jste slyšeli nějakou variantu téhle věty: „Budoucnost je už tady, ale někoho se týká víc než jiného,“ glosoval někdy v 90. letech slavný kanadský sci-fi spisovatel William Gibson, jeden ze zakladatelů žánru cyberpunk. (V anglickém originále: „The future has arrived — it’s just not evenly distributed yet.“)

Tento citát je oblíbený mezi technooptimisty i technopesimisty. Ti první v něm vidí výzvu: „Vidíte, že to jde! Teď tu budoucnost jen musíme nacpat všude, a bude hotovo.“ Je to myšlenka, která pohání americké Silicon Valley. Máme tady budoucnost a teď ji musíme dopravit do celého světa. Optimisté vnímají Gibsonův citát jako povzbuzení. Technologie udělají svět lepším, jen je musíme rozšířit ke všem lidem.

Ti druzí varují, že technologie není neutrální, a že posedlost technologií nás může zaslepit: „Technologická nadvláda je stav mysli,“ upozorňuje americký mediální kritik a filozof Neil Postman. „Když si technologii zbožštíme, stane se technologie cílem, nikoli prostředkem. Kultura bude hledat své potvrzení i upevnění v technologii, a začne se technologii podřizovat,“ varuje ve své skvělé knize Technopoly.

V posledních měsících a letech jsem vyzkoušel „ovládání skrze konverzaci“ snad u všech myslitelných nástrojů: u televize, při programování, při psaní, při datové analýze, čtení vědeckých prací, vyhledávání informací na webu, učení cizího jazyka, při editaci videa, tvorbě grafiky nebo při řízení auta. A musím říct, že někde to opravdu dává smysl, baví mě to a doslova mi to „uvolnilo ruce“.

Jinde cítím, že je to užitečné asi jako ty digitální hodinky zabudované do deštníku. Nevadí mi, že tam jsou, ale pragmaticky vzato jsou mi úplně k ničemu. A jestli jsem kvůli tomu zaplatil byť jen o korunu víc, nemám z toho radost. Baterky těm hodinkám nikdy nevyměním a nechám je odejít do křemíkového nebe.

No a pak jsou tu případy, kde přehnané zapojení konverzačního ovládání škodí. Třeba když mě „kecálek“ svede na scestí a já se pak musím vracet, nebo když mi ochotně předělá celý dokument, ale já po něm nic takového nechtěl. Nebo když mi hodinky nabídnou odpověď na textovou zprávu. Sice to není přesně to, co jsem chtěl říct, ale je to rychlejší než psát zprávu vlastní, a tak to pošlu. To samé možná udělá i člověk na druhé straně. Je to ještě dialog dvou lidí?

Přesto se myslím chatboti dostanou do všech možných zařízení. Proč? Protože pak si za tato zařízení budou moci jejich výrobci účtovat předplatné. Měsíčně to bude jen pár desítek korun, nic, co by vaše peněženka nesnesla. A čím méně budete kecálka používat, tím více se bude firmám vyplácet.

Pamatuji si, jak jsem v roce 2018 sledoval demonstraci nejmenované firmy, během které nějaký známý šéfkuchař ukazoval hlasové ovládání kuchyňských spotřebičů. Na plánovacím setkání to určitě znělo dobře: zručný odborník snadno ukáže, jak užitečné nové funkce jsou. Zatímco bude něco krájet, na dálku zapne troubu nebo zastaví hnětač, jako kdyby měl při ruce partu pomocníků.

Realita byla poněkud odlišná. Snad za to mohla akustika otevřené kuchyně, snad hluk v hale, kde byly stovky lidí. Každopádně automatičtí hlasoví asistenti, zabudovaní do trouby, myčky, sporáku, mixéru a kdovíčeho ještě, měli velký problém porozumět příkazům. Trouba se zapla na 20 stupňů místo 220 stupňů, sporák se ne a ne vypnout, časovače byly jako splašené. Úplně mne bolelo sledovat toho experta, jak zápasí s kuchyní budoucnosti. A co myslíte, přestali to nabízet? Letos, o šest let později, ta firma představila prakticky to samé. Řada dalších velkých výrobců se k nim přidala. Hlasové ovládání je prostě budoucnost.

V plné verzi newsletteru TechMIX toho najdete ještě mnohem víc. Přihlaste se k odběru a budete ho dostávat každou středu přímo do své e-mailové schránky.

Doporučované