Hlavní obsah

Komentář: Čína a mír v Jihočínském moři aneb když AI šíří propagandu

Adam Hanka
Datový ředitel Creative Dock
Foto: Getty Images

Ilustrační snímek.

Umělá inteligence vzniklá v totalitní zemi do svého „chování“ zákonitě promítá prvky totality. Tedy i cenzuru. Pokud lže v jednom, jak jí můžeme věřit v jiných otázkách, ptá se v komentáři datový ředitel Creative Dock Adam Hanka.

Článek

Komentář si také můžete poslechnout v audioverzi.

V posledních dnech se svět seznamuje s novým modelem umělé inteligence. Jeho jméno je DeepSeek, zemí původu je Čína a jeho výkon a kvalita odpovědí si nezadá s dosavadními obry jako ChatGPT a Gemini. Ve svém rodném listě má vepsané nízké náklady na trénink, údajně jen 6 milionů amerických dolarů, což je zlomek oproti 100 milionům USD, na které podle zakladatele OpenAI Sama Altmana vyšel trénink modelu GPT-4.

Nízká cena však není jediná pozoruhodnost, která model DeepSeek provází. Je tu totiž ještě taková “drobnost”: při chatování v jeho webovém okně narážejí uživatelé na zcela nepokrytou cenzuru některých odpovědí nebo na stoprocentně čistou čínskou propagandu.

Je to poprvé, co se u nějakého velkého jazykového modelu s takto přiznanou cenzurou odpovědí setkáváme. Model dostane otázku, která se nelíbí čínskému režimu, odpoví na ni a následně ji schová. Uživateli se omluví s tím, že odpověď na tuto otázku je mimo jeho současné možnosti a navrhne konverzaci o něčem jiném. Mimochodem, tuto odpověď napíše v angličtině.

Foto: Seznam Zprávy

Odpověď AI

Cenzura už fungovala i lépe. DeepSeek dokáže vysvětlit, co je to Tchaj-wanská otázka, ale nedovolí zobrazení odpovědi na dotaz, co je to Tchaj-wan.

DeepSeek odmítá zobrazit odpovědi například na dotazy ohledně náměstí Nebeského klidu, Tchaj-wanu, nepřátel Číny nebo napětí v okolí Číny.

V případě některých otázek model přepne do podezřele defenzivní roviny. Na dotaz, jak probíhá čínská expanze a militarizace v Jihočínském moři, DeepSeek dokonce přejde do první osoby a začne vysvětlovat, že „naše aktivity v této oblasti jsou v souladu s mezinárodním právem“. Zajímavé, ale i podezřelé.

Foto: Seznam Zprávy

Komunikace s DeepSeek.

Fixlovat můžete dvěma způsoby: upravíte vstup nebo výstup

Abychom dokázali toto chování vysvětlit, je třeba se nejprve alespoň trochu ponořit do toho, jak velké jazykové modely vznikají. Oproti jiným systémům mají totiž jedno velké specifikum: učí se z ohromného množství různých textů. Lidský jazyk však není pouze nástrojem na zprostředkování jedné informace, takže modely se spolu s informacemi učí i lidský způsob přemýšlení, a tím i morální, hodnotový a kulturní kontext. Díky tomuto komplexnímu způsobu učení umí propojovat informace překvapivým způsobem, což je velmi užitečné. Na druhou stranu zůstává nejasnost ohledně toho, jak přesně jsou v modelu lidské hodnoty reprezentovány.

I přes nejasnosti ohledně této reprezentace hodnot je při tréninku umíme ovlivnit. Modely totiž v průběhu svého vzniku dostávají něco jako svou vlastní osobnost, což se děje pomocí systému RLHF (reinforcement learning from human feedback), což je metoda učení založená na lidské zpětné vazbě. Lidé hodnotí nebo opravují výstupy modelu a tím jej vedou k žádoucím formám chování.

Jak tedy vypadá cenzura v případě modelu DeepSeek? Jinak, než by se na základě předchozích informací mohlo zdát. Většinově totiž není implementována v modelu samotném, ale až po tom, co model vygeneruje odpověď. Pokud je webovým rozhraním vyhodnocena jako nevhodná, rozhraní ji skryje a navrhne konverzaci na jiné téma. Je z toho cítit typicky startupový přístup - cenzura udělaná narychlo tak, aby fungovala. Její implementace přímo v modelu samotném by totiž byla mnohem nákladnější.

Existuje ještě další možnost, jak ovlivnit chování modelu, ale i ta je nákladná a vzhledem k nízké ceně vytvoření modelu ji společnost DeepSeek zatím také příliš nevyužila. Jedná se totiž o pečlivý předvýběr trénovacích dat, pomocí kterých je model vytvořen, což je velmi nákladná operace.

V čem je tedy vlastně problém? V propagandistických odpovědích i v samotné ochotě cenzurovat informace. I přes současnou nízkonákladovou implementaci je to jasný signál. Je-li neutralita modelu porušena v očividných případech, nemáme garanci, že je tomu jinak i v oblastech méně evidentních. Pandořina skříňka byla otevřena a v dalších verzích modelů se můžeme dočkat mnohem sofistikovanějšího a subtilnějšího přístupu, který ale bude o to nebezpečnější.

U velkých jazykových modelů platí, že ten, kdo modely vlastní a kdo platí jejich vznik, také rozhoduje o tom, jak se budou chovat. Hodnoty, které modelu vštípíme, se budou skrze jeho odpovědi odrážet při každém jednotlivém využití – ať už půjde o plánování dovolené, sestavování jídelníčku nebo třeba v případě, že bude studentům pomáhat při psaní seminární práce.

Proto bychom měli nad umělou inteligencí začít přemýšlet nejen jako nad segmentem budoucí ekonomické prosperity, ale také jako nad výsostným zájmem naší (české nebo evropské) suverenity. Jen tak dokážeme zajistit, že budeme žít ve světě, kde velké jazykové modely respektují naše evropské hodnoty. Investice v EU zatím takovou strategickou důležitost nereflektují a případ modelu DeepSeek ukazuje, že je nejvyšší čas to změnit. A ukazuje ještě jednu důležitou věc: není radno věřit umělé inteligenci z diktátorských a nepřátelských režimů.

V rubrice Komentáře z byznysu přinášíme názorové texty zástupců firem i veřejných institucí k ekonomickým tématům.

Doporučované