Článek
Čtete ukázku z newsletteru TechMIX, ve kterém Pavel Kasík a Matouš Lázňovský každou středu přinášejí hned několik komentářů a postřehů ze světa vědy a nových technologií. Pokud vás TechMIX zaujme, přihlaste se k jeho odběru!
„Zvětšování“, či správně škálování, se ukázalo při zlepšování velkých jazykových modelů, které jsou jádrem současných umělých inteligencí, překvapivě účinné. A to jak při tom, co mají tyto modely v popisu práce – tedy schopnosti vládnout jazykem – tak i v rozvoji dalších vlastností.
Zároveň se ale při pohledu na dosavadní vývoj zdá, že se blížíme k hranicím možného škálování. Částečně je to kvůli prudce rostoucím energetickým nárokům na výpočetní výkon. Ale také proto, že vývojářům jazykových modelů docházejí data používaná k trénování.
Situaci před časem vyčíslila studie skupiny Epoch AI. Autoři v ní předpověděli, že kolem roku 2028 bude průměrná velikost datové sady používané k trénování AI modelů stejná, jako je celkový objem veřejně dostupného online textu. Jinými slovy umělé inteligenci podle tohoto odhadu pravděpodobně dojdou v dohledné době data, která velká část dnešních modelů používala.
Nedostatek údajů by se mohl začít projevovat poměrně brzy. „Mám silné podezření, že se to už děje,“ řekl nedávno pro časopis Nature Shayne Longpre, výzkumník AI na Massachusetts Institute of Technology, který vede Data Provenance Initiative, organizaci provádějící audity datových sad AI.
I když je možné, že nedostatek dat by mohl zpomalit vývoj AI systémů, situace se zatím nezdá být pro obor zásadním problémem. Velké firmy pochopitelně o AI a jejích budoucích schopnostech mluví v superlativech. Dvě nejprominentnější firmy v oboru, OpenAI a Anthropic, možnost nedostatku tréninkových dat uznaly. Zároveň ovšem naznačily, že mají plány, jak ho obejít, včetně generování nových dat a hledání nekonvenčních datových zdrojů.
Minimálně někteří nezávislí pozorovatelé se domnívají, že pro firmy skutečně nejde o zásadní problém: „Nemyslím si, že by ve velkých AI společnostech někdo panikařil. Nebo pokud panikaří, tak mi aspoň nepíší e-maily,“ komentoval situaci Pablo Villalobos, výzkumník z Epoch AI a hlavní autor studie předpovídající datový krach v roce 2028. To ale neznamená, že by „datová nouze“ nehrála vůbec žádnou roli v dalším vývoji generativní AI.
Slova, slova, slova
Vývoj LLM v uplynulém desetiletí ukázal jejich nenasytnou chuť po datech. Přestože většina vývojářů nezveřejňuje specifikace svých nejnovějších modelů, odhaduje se, že počet tokenů neboli částí slov používaných k trénování LLM se od roku 2020 zvýšil zhruba o dva řády, ze stovek miliard na desítky bilionů.
To by mohlo představovat značnou část dostupného obsahu internetu, i když celkový objem je tak obrovský, že je těžké jej přesně určit. Villalobos odhadl celkový objem textových dat na internetu na 3100 bilionů tokenů. Tréninkové sady vznikají díky automatickému sběru obsahu a jeho následnému „čištění“ – eliminaci duplicit a odstranění nežádoucího obsahu, například pornografie. Ve výsledku pak datové sady (jako RedPajama) mohou obsahovat desítky bilionů slov.
Některé společnosti nebo akademici si sběr a čištění dat provádějí sami, aby vytvořili datové sady na míru pro své účely. Značný význam má kvalitní obsah, jako jsou knihy nebo média, kde se tvorbě textu věnuje poměrně velká pozornost. S nástupem nových modelů ale velkou roli hrají i specializovanější znalosti, jako třeba úspěšně vyřešené programovací či jiné úlohy.
Rychlost, s jakou roste množství použitelného internetového obsahu, je v posledních letech překvapivě nízká. Studie Epoch AI odhaduje, že jeho objem roste o méně než 10 % ročně. Velikost datových sad používaných pro trénování AI se přitom podle studie ročně více než zdvojnásobuje. Prodloužením obou trendových linií vznikl odhad, že roku 2028 dojdou data.
Majitelé obsahu ale zároveň nečekají s rukama v klíně. Stále častěji technicky nebo legislativně brání své texty či jiná data, aby zabránili jejich automatickému sběru pro trénování umělé inteligence.
Zmíněný Shayne Longpre s kolegy zveřejnil v loňském roce práci, která ukazuje prudký nárůst v tom, kolik poskytovatelů dat blokuje přístup specifických crawlerů (tj. softwaru na automatický sběr dat) ke svým webovým stránkám. V případě toho nejkvalitnějšího, nejčastěji používaného webového obsahu v tréninkových datových sadách se podíl tokenů, ke kterým crawlery nemají přístup, zvýšil z méně než 3 % v roce 2023 na 20-33 % v roce 2024.
V současnosti navíc probíhá několik velkých soudních sporů o využívání obsahu pro trénink. V prosinci 2023 žalovaly The New York Times společnost OpenAI a jejího partnera Microsoft za porušení autorských práv; v dubnu letošního roku podalo podobnou žalobu osm novin vlastněných společností Alden Global Capital v New Yorku.
Protiargumentem je, že AI by mělo být umožněno číst a učit se z online obsahu stejným způsobem jako člověku, a že jde tedy o zákonem připouštěné využití materiálu. Společnost OpenAI veřejně prohlásila, že považuje žalobu The New York Times za neopodstatněnou.
Ať to dopadne jakkoliv, najdou se poražení. Pokud soudy potvrdí, že poskytovatelé obsahu si zaslouží finanční kompenzaci, největší problém to nejspíše nebude pro velké AI společnosti s rozsáhlými finančními zdroji, ale akademiky a nezávislé výzkumníky, kteří si nemohou dovolit za obsah platit.
Kde brát?
Nedostatek dat představuje největší problém pro další „zvětšování“, tedy škálování AI. Určité možnosti ovšem existují.
Jednou by mohl být sběr neveřejných dat, jako jsou zprávy na WhatsApp nebo přepisy videí na YouTube. Otázka zákonnosti takového postupu zatím není přesně vyřešena a bude určitě sporná. K datům mají rozhodně přístup vlastníci těchto platforem a několik z nich je v určité míře využívá.
Například Meta pro trénink svých modelů používá zvuk a video shromážděné jejím headsetem pro virtuální realitu Meta Quest. Situace je ovšem nepřehledná – různí provozovatelé se chovají různě a roli hraje i legislativa v dané zemi.
I kdyby se takový obsah podařilo plně využít, podle odhadu Epoch AI povede k odkladu „datového hladu“ jen o jeden až dva roky. Je to dáno i tím, že velká část obsahu ze sociálních sítí je nekvalitní nebo jde o obsah duplicitní.
Další možností je rozšířit si pohled na to, co jsou vhodná tréninková data. Známá výzkumnice v oboru Fei-Fei Li na technologickém summitu Bloomberg v květnu 2024 uvedla, že vyčerpání tréninkových dat je problém, jen pokud si neuvědomíte, kolik vhodných dat je v oborech jako zdravotnictví či vzdělávání – a ve hře je také možnost používat například přečtenou DNA nebo strukturovaná astronomická data. Otevřenou otázkou je, jak efektivní trénink na takových údajích bude; zatím jde o nápad čistě teoretický.
Co už víme je, že některé modely jsou do určité míry schopny trénovat na neoznačených videích nebo obrázcích. Rozšíření a zlepšení těchto schopností by mohlo otevřít nové možností.
Jiný známý hlas z oboru, Yann LeCun, který je jeden z vedoucích vývoje AI v Meta, to ve svých vystoupeních ilustruje na příkladu malých dětí. Zhruba 1013 tokenů, které se používají pro trénink dnešních modelů, je na přečtení opravdu hodně: Podle jeho odhadu by tolik textu mohl člověk přečíst za 170 tisíc let. Ovšem čtyřleté dítě absorbuje za jeden den 50krát větší objem dat jen koukáním kolem sebe.
Nejde o novou myšlenku. Řada výzkumníků a vědců v posledních letech uvažovala, že roboti s umělou inteligencí by se mohli učit ze svých vlastních smyslových zkušeností, případně dokonce virtuálních smyslových zkušeností. Možnosti AI by to mohlo ještě rozšířit, protože už nebude trénovat jen na „slovech“.
Syntetika
Data se také dají vyrobit. Některé AI společnosti platí lidem za generování obsahu pro trénování AI (třeba zmíněné řešení programátorských problémů). Jiné používají pro trénink AI umělá data vytvořená jinou AI. To je pochopitelně potenciálně obrovský zdroj.
Začátkem roku 2024 šéf OpenAI Sam Altman uvedl, že jeho firma generuje 100 miliard slov denně – to je více než 36 bilionů slov ročně, což je zhruba stejná velikost jako současné datové sady pro trénování AI. A tato produkce rychle roste.
Odborníci se dnes víceméně shodují, že syntetická data nejspíš mohou fungovat pro režimy, ve kterých existují pevná, identifikovatelná pravidla, jako je šach, matematika nebo programování. AI nástroj AlphaGeometry se podařilo úspěšně vytrénovat k řešení geometrických úloh pomocí 100 milionů čistě „syntetických“ příkladů.
Syntetická data se také již používají v oblastech, kde je reálných málo nebo je jejich využití problematické. Týká se to například medicíny: Syntetická data nepředstavují problém z hlediska ochrany osobních údajů. V případě „výcviku“ softwaru pro samořídicí automobily zase hraje roli skutečnost, že během virtuálních dopravních nehod se nikomu nic nestane.
Problémem syntetických dat je, že mohou obsahovat neodhalené chyby, které mohou svést model na scestí. Jedna studie z roku 2023 pro tento problém zavedla termín s chytlavou anglickou zkratkou MAD („Model Autophagy Disorder“) aby popsala, jak se AI model může tímto způsobem „zbláznit“. Například model v důsledku těžko odhalitelných zkreslení v umělých tréninkových datech začal rychle tvořit z lidského hlediska bizarní obličeje.
Stačí méně
Další možností je jednoduše zlepšit trénink. V polovině loňského roku zveřejněný preprint vypočítává, že výpočetní výkon nutný k vycvičení modelu dané kvality se každých osm měsíců sníží na polovinu. Společně se zlepšováním hardwaru se tak nabízí možnost nechat model trénovat na stejném souboru dat opakovaně – tedy nechat ho přečíst stejnou „učebnici“ několikrát.
AI systémy fungují statisticky a jejich výsledky se proto opakováním tréninku na stejných datech zlepšují. Už v roce 2023 ukázal mezinárodní tým, že když si model přečte danou datovou sadu čtyřikrát, je to podobné, jako kdyby si přečetl čtyřikrát více unikátních dat. Při dalších opakováních už přínos zdaleka nebyl takový a výhoda se rychle ztrácela.
Nové „přemýšlivé“ modely jako ty od OpenAI či DeepSeek už zjevně mají trochu jiný typ tréninku než ty starší. Zásadní roli u nich hraje posilovací učení, tedy proces, při kterém je model odměňován za správnost odpovědí (odborníci snad odpustí hrubé zjednodušení). Tento způsob posunuje důraz od „předtrénování“ na masivních datových sadách směrem k delšímu „uvažování“ nad menší sadou dat. Což pochopitelně vyžaduje výpočetní výkon, ale už ne záplavu nových dat.
Je docela dobře možné, že dnešní modely už nemusí číst o mnoho více, aby se staly ještě schopnějšími. Vývoj posledních několika měsíců, včetně nástupu „čínské velryby“ DeepSeek a další generace „přemýšlivých“ modelů od OpenAI, poměrně přesvědčivě naznačuje, že by ty to tak mohlo být.
V plné verzi newsletteru TechMIX toho najdete ještě mnohem víc. Přihlaste se k odběru a budete ho dostávat každou středu přímo do své e-mailové schránky.