Hlavní obsah

TechMIX: Umělou inteligenci přimíchají do všeho. Šmejdi naklonují váš hlas

Foto: koláž: Pavel Kasík, Seznam Zprávy (s využitím generátoru Midjourney)

Začíná zlatá horečka generativní umělé inteligence. On-line podvodníci už našli způsob, jak nástroje efektivně zneužít (ilustrační foto).

Pokud vám přijde, že se teď o umělé inteligenci moc mluví, tak mám špatné zprávy: V následujících měsících očekávám, že o zkratce AI budeme číst na každém kroku.

Článek

Čtete ukázku z newsletteru TechMIX, ve kterém Pavel Kasík a Matouš Lázňovský každou středu přinášejí hned několik komentářů a postřehů ze světa vědy a nových technologií. Pokud vás TechMIX zaujme, přihlaste se k jeho odběru!

Souvisí to s tím, co jsem psal na začátku roku 2023: Letos se budou všechny firmy – velké i malé – snažit neuronové sítě smysluplně zavést do praxe.

Minulý týden společnost OpenAI otevřela svůj nástroj ChatGPT k využití skrze rozhraní API. Znamená to, že kdokoli – opravdu kdokoli, včetně vás nebo vašeho zaměstnavatele – může okamžitě zkusit naroubovat funkce „nachytřeného kecálka“ do svých produktů.

Praktické tipy pro využití generativního AI:

Vyzkoušel jsem si to a je to opravdu relativně jednoduché. V následujících týdnech proto očekávejme marketingové e-maily, které nám na míru napsala AI, různé upovídané funkce v aplikacích nebo postupný přechod velkých firem na poloautomatizovaný systém technické podpory.

„Oznámení společnosti OpenAI by mohlo zahájit novou zlatou horečku umělé inteligence,“ spekuluje Chris Stokel-Walker z redakce Wired. „To, co bylo dříve odvětvím amatérů pohybujících se v šedé zóně licencí, se nyní může proměnit v plnohodnotný byznys.“

Microsoft už dříve avizoval, že hodlá generativní nástroje typu ChatGPT vložit do programů Office nebo Outlook. Jak řekl šéf firmy Satya Nadella: „Každý produkt Microsoftu dostane některé schopnosti umělé inteligence, které daný produkt zcela promění.“

Představme si powerpointovou prezentaci, kterou vám kompletně vygeneruje neuronová síť a vy si ji pak jen upravíte a doplníte podle svých potřeb.

Foto: Pavel Kasík, Seznam Zprávy

Text pro tento slide napsal od začátku do konce ChatGPT.

Je zřejmé, že Microsoft do toho teď bude šlapat a skoro každý týden od něj můžeme čekat nějakou AI novinku: Bing Chat, Microsoft Designer, byznysové nástroje, automatické zápisky ze setkání v Teamsech

Mattel umožňuje dětem navrhnout si vlastní potisk autíčka vygenerovaný nástrojem DALL-E. Instacart (to je americký ekvivalent služeb jako Rohlík nebo Košík) pak integroval ChatGPT jako poradce ohledně nabízeného sortimentu. Můžete si tak nechat poradit, co s načatým vínem nebo večerem.

Firma Salesforce mezitím integrovala kecálka ChatGPT do svého nástroje Slack. Jmenuje se Einstein a může vám pomoci napsat odpověď na zprávu nebo řešit problémy v kontextu konverzace s kolegy. Salesforce také umožní firmám snadnou integraci nástrojů od OpenAI do komunikace se zákazníky. Připravte se na oblíbenou hru „bavím se s člověkem, nebo s robotem“, budeme ji hrát prakticky denně.

Šedá a nejistá rovina AI

V každém článku o neuronových sítích se snažím zdůraznit rizika a nejistoty, které se k těmto novým nástrojům vážou. U ChatGPT je to především jeho vztah k realitě, který je velmi volný a v podstatě volitelný. ChatGPT totiž, slovo po slově, generuje text důvěryhodně zapadající do daného kontextu.

Hlas zněl dostatečně věrně, a tak rodiče uvěřili, že mluví se mnou.
Benjamin Perkins, syn podvedených pro Washington Post

Ale to neznamená, že jde o výsledky odpovídající realitě. ChatGPT si vymýšlí, fabuluje a sebejistě vám bude tvrdit naprosté nesmysly. Vyplývá to z principu, na kterém služba funguje. Nepřemýšlí, není zodpovědný, čísla si v případě potřeby cucá z prstu. Improvizuje. Prostě kecá.

ChatGPT si vymýšlí a kecá

Nástroj ChatGPT je založený na velkém jazykovém modelu (LLM). Je vytrénovaný na velkém množství textů z internetu. Umí tak, slovo po slově, generovat důvěryhodně vypadající text.

Ale to neznamená, že jde o výsledky odpovídající realitě. ChatGPT si vymýšlí, fabuluje a sebejistě vám bude tvrdit naprosté nesmysly. Není to „chyba“, vyplývá to z principu, na kterém služba funguje.

Na to je třeba pamatovat, když uvažujete o použití k něčemu jinému než pro vlastní pobavení. Veškerý výstup z nástrojů založených na LLM berte vždy maximálně jako nápad či návrh, nikoli jako bernou minci. Vygenerovaná fakta ověřujte, než je někde použijete.

„Někdy tomuto problému říkáme halucinace. Ta se projeví tak, že stroj poskytne přesvědčivou, ale zcela vymyšlenou odpověď,“ řekl Prabhakar Raghavan ze společnosti Google.

Implementovat výsledky generátorů do jakéhokoli seriózního kontextu je tedy dost riskantní. Výplody mohou být nepravdivé, nebezpečné, urážlivé nebo rovnou nelegální. Programátor Matthew Butterick žaluje Microsoft, GitHub a OpenAI za to, že jejich generátory „porušují zákonná práva milionů programátorů, kteří strávili roky psaním původního kódu“.

Podobná legální nejistota se týká i generátorů obrázků. Američtí výzkumníci v (zatím nerecenzované) studii ukázali, že za jistých okolností lze z generátoru dostat obrázky velmi podobné těm, na kterých se neuronové sítě trénovaly.

Foto: arxiv.org

Stable Diffusion je schopna reprodukovat tréninková data.

Fotobanka Getty žaluje společnost Stable Diffusion za to, že svou neuronovou síť bez souhlasu natrénovala na milionech obrázků právě z jejich webu. Stable Diffusion se brání, že jejich síť se na těchto obrázcích učila, tedy že se „inspirovala“ podobně, jako se inspiruje malíř u ostatních malířů, aniž by se u toho dopouštěl plagiátu. Tato argumentace mi dříve přišla logická. Při pohledu na evidentní podobnost obrázků výše ale nezávidím soudům, které to budou muset rozseknout.

„Pro firmy, které působí v kreativním průmyslu, je stále otevřenou otázkou, jak mohou zajistit ochranu autorských práv u těchto modelů,“ uvedla právnička Anna Gresselová z advokátní kanceláře Debevoise & Plimpton, která firmám radí, jak využívat umělou inteligenci. Zatím doporučuje, aby lidé výsledky používali spíše ke generování nápadů.

Jak je vidět, implementace je riskantní. Zároveň ale firmy tuší, že transformace bude velká a že si nemohou dovolit do rozjetého vlaku nenaskočit. „Všichni jsou neklidní,“ řekl Erik Brynjolfsson, ekonom ze Stanfordského institutu pro umělou inteligenci zaměřenou na člověka. „Je tu velká šance získat nebo ztratit spoustu peněz.“

Temná stránka AI

Důležitým aspektem nástrojů strojového učení je jejich rychle klesající cena. Nový ChatGPT je přibližně desetkrát levnější (a také řádově rychlejší) než původní OpenAI API. Facebook mezitím zveřejnil svůj velký jazykový model LLaMA, který údajně nabízí srovnatelné výsledky s výrazně nižší výpočetní náročností.

Pokročilé a mocné modely LLaMA zatím měly zůstat zavřené v ohradě a přístup k nim měli mít jen vybraní a ověření výzkumníci. Netrvalo to ale ani týden a jeden z modelů unikl na torrenty, odkud si jej může kdokoli stáhnout a spustit na svém počítači.

Tím se dostáváme k té temné stránce strojového učení: generování škodlivého obsahu. Firmy se mohou ohánět různými pravidly a opatřeními, ale od začátku bylo jasné, že dříve či později se podobné nástroje dostanou do rukou padouchů a zločinců.

Zločinci si nedělají hlavu s tím, zda jsou generované obrázky „okopírované“ nebo jestli je vygenerovaný text „elektronickou halucinací“. Mají jednoznačnou ekonomickou motivaci a naprosto pragmatický přístup. Dlouho před zapojením strojového učení varovali odborníci, zatímco zločinci si skoro vše dělali hezky postaru ručně, protože to pro ně bylo mnohem levnější.

Letos se ale zřejmě karta obrací. Generativní nástroje začínají být dostatečně přesvědčivé a dostupné k tomu, aby je šlo použít k různým typům podvodu. Washington Post popisuje narůstající počet telefonátů, které využívají naklonovaný hlas.

Rodiče devětatřicetiletého Benjamina Perkinse tak třeba poslali tisíce dolarů právníkovi, který jim zavolal s tím, že jejich syna zastupuje u soudu a potřebuje peníze co nejrychleji. Dal jejich synovi telefon a „on“ jim popsal, co se děje. „Hlas zněl dostatečně věrně, a tak rodiče uvěřili, že se mnou mluví,“ řekl Perkins. V panice se rozběhli do několika bank pro hotovost a „právníkovi“ následně poslali peníze přes bitcoinový automat.

K přesvědčivému naklonování hlasu přitom stačí jen vzorek o délce pár desítek sekund. Microsoft dokonce testuje nástroj, kterému stačí jen třísekundová ukázka. Pokud jste někdy nahráli video na sociální sítě nebo telefonovali s callcentrem, někdo už dnes disponuje dostatkem dat k tomu, aby takto podvedl i vaše příbuzné.

Po telefonu navíc není potřeba použít kdovíjakou kvalitu: „Oběti uvádějí, že reagovaly s niterným zděšením, když slyšely, že jsou jejich blízcí v nebezpečí,“ uvádí Washington Post. Americké úřady evidují tisíce podobných případů a přiznávají, že moc nevědí, jak s novou variantou starého známého podvodu bojovat.

Něco podobného už jsme zaznamenali i v Česku: Klient Fio banky dostal falešné video, které bylo vytvořeno zjevně pomocí syntézy řeči a nástroje imitujícího lidské pohyby. Lze předpokládat, že podobných pokusů bude přibývat s tím, jak se generování realistických videomontáží zjednodušuje a zlevňuje.

V plné verzi newsletteru TechMIX toho najdete ještě mnohem víc. Přihlaste se k odběru a budete ho dostávat každou středu přímo do své e-mailové schránky.

Doporučované