Hlavní obsah

Varování z Wikipedie: Pozor na AI břečku

Foto: foto: Wikimedia, koláž: Pavel Kasík, Seznam Zprávy

Selena Deckelmannová, technická ředitelka nadace Wikimedia, která provozuje Wikipedii.

Jako jedna z prvních odhadla, jak velký vliv bude mít na internet generativní umělá inteligence. Selena Deckelmannová varuje před neudržitelnou AI břečkou, zároveň ale hledá způsoby, jak nové nástroje zapojit smysluplně.

Článek

Článek si také můžete poslechnout v audioverzi.

Na Wikipedii může kdokoli napsat cokoli. To v roce 2001 nevypadalo jako recept na výrobu věrohodného zdroje informací. Přesto je dnes Wikipedia.org jednou z nejnavštěvovanějších stránek na světě (dvě miliardy unikátních zařízení měsíčně) a postupně si vybudovala reputaci důvěryhodného zdroje, a to i mezi akademiky.

Jde zároveň o nejnavštěvovanější webovou stránku, která je provozována neziskovou organizací. Zatímco obsah je zcela dílem neplacených dobrovolníků, platformu na pozadí technicky zabezpečuje a rozvíjí tým profesionálů. Právě ty má od roku 2022 na starosti Selena Deckelmannová, technická a produktová šéfka Wikipedia Foundation. Rozhovor jsme pořídili na konferenci TED AI ve Vídni.

Jakým kouzlem se Wikipedii povedlo ukočírovat tu anarchii a proměnit ji v globální a důvěryhodný zdroj informací?

Nemyslím si, že je to jen jedna věc. Spoluzakladatel Jimmy Wales a jeho kolegové měli tehdy utopické představy: prostě dáme všem možnost se zapojit. To byla první důležitá přísada. Další důležitou věcí bylo oddělení obsahu stránky od diskuze o stránce. Lidé předtím přidávali svoje komentáře přímo do textu. Tím, že se to oddělilo, se stránky hodně vyčistily a diskuze se přesunula mimo hlavní text. Diskuze o tématech nejsou dokonalé, ale editoři je vnímají jako velmi cennou příležitost.

A pak jsou tu ty hlavní zásady, pět pilířů, na kterých je Wikipedie postavená. Jsou to pravidla týkající se toho, jak spolu mohou lidé komunikovat v dobré víře. Lidé se v komunikaci na tato základní pravidla často odkazují.

Pět hlavních zásad při tvorbě Wikipedie

  1. Wikipedie je encyklopedie: Wikipedie není názorovou platformou ani archivem, usiluje o věrohodný, ověřený obsah.
  2. Wikipedie je psána z neutrálního úhlu pohledu: Wikipedie prezentuje fakta a různé názory nestranně, ověřuje je spolehlivými zdroji a vyhýbá se prosazování konkrétních pohledů.
  3. Wikipedie nabízí svobodný obsah: Veškerý obsah je k dispozici pod svobodnou licencí, každý může přispívat a texty lze volně kopírovat, upravovat a šířit při dodržení autorských práv.
  4. Wikipedisté předpokládají dobrou vůli: Při spolupráci se očekává slušnost, respekt, dobrá vůle a snaha o dosažení konsenzu.
  5. Wikipedie nemá pevná pravidla: Ačkoli existují zásady a doporučení, nejsou neporušitelná. Důležité je zachovat ducha Wikipedie a nebát se dělat výjimky tam, kde to dává smysl.
Foto: Wikipedia.org

Pět principů, na kterých je založena Wikipedie.

Wikipedisté musejí při tvorbě článků odkazovat na důvěryhodné zdroje, jakýkoli „vlastní výzkum“ je nepřípustný, stejně tak prosazování jednoho názoru na úkor jiného. Tyhle všechny věci k tomu přispěly.

Zmiňujete důležitost důvěryhodných zdrojů. Před rokem jste napsala zamyšlení o budoucnosti Wikipedie v éře umělé inteligence. Před čím jste chtěla varovat především?

Chtěla jsem poukázat na to, co je důležité na technologickém zázemí Wikipedie a jak lze podpořit tvůrce v jejich tvorbě. Jedním z důležitých principů je podle mého udržitelnost. S nástupem generativních AI nástrojů vidíme změnu chování. Například když něco nyní hledáte na Google, často uvidíte nad výsledky vyhledávání krátké shrnutí generované umělou inteligencí (tato funkce je dostupná ve sto zemích světa, Česko mezi nimi zatím není, pozn. red.).

Když si lidé čtou toto shrnutí, místo aby se podívali na stránky, ze kterých souhrn čerpá, tak webům klesá sledovanost. To má následky. Jsme připraveni tyto následky nést?

Některé dopady budou pro uživatele jistě pozitivní. Rozhodně nechci říct, že to bude mít jen negativní následky. Podle mého to ale hodně ovlivní současný systém.

Co navrhujete, abychom se vyhnuli negativním dopadům?

Jsem zvyklá na open source komunitu, pracovala jsem v Mozilla Foundation nebo na vývoji PostgreSQL (otevřený objektově-relační databázový systém, pozn. red.). V této komunitě razíme radikální transparentnost. Skoro až nepohodlnou otevřenost. O každé chybě a jejím řešení se bavíme velmi otevřeně.

Ne každému je to příjemné. Tato radikální otevřenost však vede k tomu, že lidé mají v tyto systémy důvěru. Vědí, že nic neskrýváme. A v případě vývoje generativní umělé inteligence je hodně tajnůstkářství. Na čem se model trénoval, jak jsou nastavené váhy. Tyhle tajnosti narušují důvěru.

Proč věřit lidem?

Když člověk položí ChatGPT nějakou otázku, dostane dva tři odstavce textu, které se přesně vztahují k tomu, na co se ptal. Je těžké lidem vysvětlit, v čem je problém. Vždyť dostali přesně to, co chtěli…

Máte pravdu, je těžké vysvětlit to srozumitelně a jednoduše. Hodně se snažím přemýšlet o věcech na systémové úrovni. První věc, která mne k tomu napadá, je riziko. Když dostanete text, který ještě nikdy nikdo nečetl, pokud je v něm chyba, je pro vás těžké to odhalit. Lidé by se měli ptát, jestli jim to za to stojí.

Proč umělá inteligence „kecá“

Nástroje jako ChatGPT, Gemini nebo Copilot jsou založené na neuronových sítích a využívají tzv. velké jazykové modely (large language models, LLM). Tyto modely jsou natrénované na velkém množství textů a umí za sebe skládat slova a části slov tak, aby výsledek působil důvěryhodně. To ale neznamená, že jsou výsledky pravdivé.

Těmto nepravdám se obvykle říká „halucinace“ a jde o jednu z hlavních nevýhod, které brání nasazení velkých jazykových modelů do obchodní praxe.

Zeptat se chatbota je ale velmi pohodlné.

To ale neznamená, že je chatbot tím pravým nástrojem v dané chvíli. Tím neříkám, že Wikipedie je vždycky ten nejlepší nástroj v dané chvíli. Známé pořekadlo platí i zde: Když máte v ruce kladivo, všechno začne vypadat trochu jako hřebík.

Foto: Pavel Kasík, Seznam Zprávy

Selena Deckelmannová přednášela ve Vídni na akci TED AI 2024.

Dokonce bych to otočila a řekla bych, že je na tvůrci toho nástroje, aby přemýšlel, jak bude tento nástroj lidmi využíván. Aby si neřekl jen – je to nástroj a není na mně, co se bude dít dál. Myslím, že tvůrci by měli vnímat zodpovědnost za to, jaké jsou důsledky vypuštění nástroje do světa.

Jak se k tomu stavíte vy, jako tvůrce nástrojů pro wikipedisty?

Editoři Wikipedie došli k důležitému závěru: znalosti jsou lidské. Proces lidského uvažování, který je propojený s procesem získávání znalostí, je důležitý pro naši integritu, kvalitu a spolehlivost.

Není to jediný možný pohled na znalosti, ale je to pohled, který zaujala Wikipedie. Obsah Wikipedie vznikl v průběhu více než dvaceti let, a vznikl prostřednictvím toho, jak spolu lidé debatovali.

Když spolu lidé diskutují, vzniká porozumění. To se nedá říci o interakci robotů. Pokud chceme společnost, která se umí učit, pokud chceme, aby se lidé uměli učit, potřebujeme společnost, ve které se lidé baví s ostatními lidmi.

Jistě, je možné se něco naučit jen tím, že se budete bavit s chatbotem. Ale chatbot nemá skutečné znalosti o světě. Zvláště to platí o nových věcech, které nebyly součástí trénovacích dat.

Jak se bránit záplavě AI břečky?

Zmínila jste wikipedistické pravidlo Předpokládej dobrý úmysl. To je ukázka něčeho, co u AI úplně chybí. Umělá inteligence nemá žádný úmysl, zato má ale nekonečnou trpělivost a texty generuje rychleji než lidé. Jak lze zabránit tomu, aby se Wikipedie neproměnila ve web vytvořený umělou inteligencí?

Z pohledu editorů je v pořádku, pokud někdo používá nástroje umělé inteligence k tomu, aby vylepšil stylistiku svého textu. Obzvláště pokud někdo píše jiným jazykem než svým mateřským. Vede-li to k lepší čitelnosti, pak to vede k lepšímu výslednému článku.

Stejně tak lze přijmout některé ilustrace, které lidé vytvoří pomocí AI nástrojů. Pokud není jiná možnost, jak ilustraci získat, je to lepší než nic. Někdy jsou ty výsledky divné, to je pak na zvážení editorů. Ale neříkáme, že AI obrázky na Wikipedii vůbec nesmí.

Foto: Wikipedia.org

Ukázky obrázků vygenerovaných pomocí AI nástrojů. Editoři u každého obrázku debatují, zda je vhodné jej použít. Například ilustrační obrázek mimozemšťana byl odstraněn, zatímco ilustrační obrázek pro článek o konspiračních teoriích zůstal, neboť jde o příklad této konspirační teorie.

Máme také projekt Úklid po AI . Editoři hledají způsoby, jak Wikipedii ochránit před tím, čemu říkám AI břečka (v originále AI slop, pozn. red.). S tím pojmem jsem tedy nepřišla já, to vymyslel někdo jiný.

Určitě to vymyslel člověk?

Řekla bych, že ano. Ale kdo ví, třeba s tím přišel sám ChatGPT. (Termín AI Slop má své vlastní heslo na Wikipedii, zdá se, že jde skutečně o lidský výmysl, pozn.red.)

Každopádně je to příklad toho, kdy nás, technické správce, požádali editoři o pomoc. Je důležité, aby autoři technických řešení přemýšleli o tom, jaký vliv budou mít nástroje na výslednou tvorbu. Mohou třeba hledat možnosti, jak označit výtvory umělé inteligence způsobem, který nebude snadno odstranitelný. Nevím, jestli to má jednoduché řešení, ale je potřeba to řešit.

Během dnešní debaty zaznělo, že Wikipedie je skvělým zdrojem informací. Opravila jste je, že Wikipedie není zdrojem informací, ale zdrojem zdrojů. Tedy že články odkazují své zdroje. Proč je to důležité?

Jde o porozumění mediální vzdělanosti. Myslím, že je důležité, že si kdokoli může přečíst na Wikipedii relevantní informace a hned si může ověřit, odkud pocházejí. Pokud má zájem, může jít do původních zdrojů a ponořit se do tématu hlouběji. Porozumět světu a tomu, jak funguje. Wikipedie je skvělý způsob, jak najít dobré zdroje.

Problém je, že ChatGPT také uvede zdroj. Může ale jít o zdroje vymyšlené, neexistující.

To je pravda, někdy je to jako hra na zdrojování. Jenže si musíte uvědomit, že oni to zlepší. Doplní tam RAG (Retrieval Augmented Generation, generování vylepšené o dohledaný text, pozn.red.) a tohle nakonec vyřeší.

Nemůžeme se nechat ukolébat současným stavem technologií. Stále opakuji: ptejme se vždycky, zda používáme ten nejlepší nástroj pro to, co zrovna děláme.

Pro budoucnost poznání je důležité, aby lidé nezapomněli, jak psát a tvořit. Proto také chci, aby články na Wikipedii psali lidé. Ale samozřejmě chci, aby lidé tvořili spoustu dalších věcí. Ostatně si všímám, že se toto děje. Vidím lidi, kteří začínají znovu psát dlouhé texty namísto krátkých tweetů, nebo jak se tomu teď říká.

Řada mladých lidí si na obsah generovaný AI vypěstovala instinktivní alergii. Ale znovu, ty generátory budou lepší a lepší. Ale bude tu i protiproud, lidé budou chtít zůstat v kontaktu s ostatními lidmi.

Když jsem poprvé dostal e-mail, u kterého bylo zjevné, že to někdo vygeneroval přes chatbota, nebylo to příjemné.

Přesně, člověk si říká, to jsem ti nestála za tu chvilku psaní?

Takže problémy AI textů jsme probrali. Jsou tu ale i nějaké způsoby, jak může Wikipedie využít generátory užitečným, smysluplným způsobem? Wikipedie má ostatně řadu problémů. Ne všechny oblasti jsou tak vyšperkované, ne ve všech jazycích má dobré pokrytí témat, ne každá skupina lidí je na Wikipedii proporcionálně zastoupena…

Ano, máme řadu problémů. Ne každý se cítí pozván k tomu, aby psal na Wikipedii. Máme řadu projektů, které lidem asistují, aniž by AI psala za lidi. Hledáme způsoby, jak může systém dávat lidem smysluplné návrhy, jak text strukturovat nebo vylepšit, a to přímo během editace.

Foto: Wikipedia.org

Editační rozhraní Wikipedie musí brát v potaz mimo jiné ohromné množství různých jazyků a klávesnic.

Hodně těchto nástrojů je zaměřeno na nováčky, abychom je povzbudili a pomohli v jejich první editaci. Máme také vlastní modely, vytrénované k tomu, aby odhalily změny, u kterých hrozí, že je brzy někdo zase „revertuje“, tedy vrátí článek do stavu před editací (například kvůli vandalismu nebo smazání klíčové části článku, pozn. red.). Pokud takovou podezřelou změnu najde, upozorní na ni dohlížejícího editora a zvýrazní tu klíčovou část.

A konečně používáme umělou inteligenci pro asistenci při překladech textů. Vyvinuli jsme na to vlastní nástroj – MinT. Není úplně jednoduché jej najít

Foto: Pavel Kasík, Seznam Zprávy

Překladač MinT od Wikimedia.

Tento překladač je zaměřený hlavně na jazyky, které nejsou dostupné skrze nástroje od velkých firem jako Google nebo Meta. Naši editoři samozřejmě používají i tyto další služby. Některé jazyky tam ale zkrátka nejsou pokryté, a tak je skvělé, že můžeme třeba do čerokézštiny překládat tímto vlastním nástrojem. Náš model je menší, trénujeme jej na tom, co máme k dispozici.

Řekněme, že někdo na podporu svého argumentu ukáže screenshot z Wikipedie a někdo jiný bude oponovat screenshotem něčeho, co mu vyrobil ChatGPT. Jak byste zdůvodnila, že je lepší použít screenshot Wikipedie?

Asi bych se ptala, proč sdílejí screenshot a ne odkaz. Obecně bych řekla, že lidé by se měli ptát, odkud informace pochází. Vždycky se snažím lidem – pokud jsou otevření se něco naučit – vnuknout, aby se ptali, kdo za tím je, odkud to je.

Nebo zda to byla odpověď lidem na míru?

To myslím moc lidí neřeší. Nebo to nepovažuje za problém. Nejdůležitější je ptát se na zdroj informací. Jako Wikipedia chceme mít reputaci důvěryhodné značky. Ale ani tak by nám lidé neměli automaticky věřit, měli by si to zkontrolovat u zdroje. Wikipedie není dokonalá, ChatGPT není dokonalý. Musíme zapracovat na vyšší gramotnosti lidí a chtít po novinářích, aby dělali svou práci dobře…

Vy víte, jak zakončit rozhovor!

No vidíte.

Poznámka: Náklady na cestu redaktora na konferenci hradila Austrian Business Agency.

Doporučované