Článek
Analýzu si také můžete poslechnout v audioverzi.
Software AlphaFold 3 je poslední generací už roky vyvíjené „umělé inteligence“, která pomáhá určovat tvar bílkovin – nebo proteinů, pokud máte rádi cizí slova. Ale tak či onak, pozemský život je kompletně postaven na téhle skupině látek – a z nich.
To, co která bílkovina v buňce – a tedy i v těle – dělá, neurčuje jenom jejich chemické složení, ale také tvar. Bez znalosti tvaru je těžké zjistit, jak to dělá, a tento účinek napodobit (například pro léčebné účely).
Tvar je přitom určený chemickým složením bílkoviny. Bohužel ta souvislost je neskutečně složitá, a pro náš mozek těžko pochopitelná. Je to, jako kdyby se člověk snažil předem přesně odhadnout, jakým způsobem se do sebe zašmodrchá natažená řada různě zatočených gumiček a pružinek. V principu to není nic nepochopitelného, ale…
Řešení lze v určitých případech jednoduše najít „silou“ – velkým výpočetním výkonem. Ale to je výjimka. U složitých bílkovin mohou být počty možných konfigurací mnohonásobně vyšší, než je počet všech atomů ve vesmíru.
Těch je cca 1080 (plus minus nějaký ten řád), u bílkoviny může být počet možných variant minimálně o stovky řádů vyšší. Například hojně citovaná práce z roku 1969 uvádí příklad hypotetické bílkoviny ze 150 aminokyselin, u které by počet možných konfigurací byl až 10300. V průměru přitom bílkoviny v lidském těle má tvořit zhruba 300 aminokyselin.
To musíme mít!
Ale i když jde o úkol tak obtížný, odměna za jeho vyřešení je prostě příliš lákavá, než aby jí vědci odolali. Kdybychom dokázali předpovědět tvar všech sloučenin, které život používá, získali bychom tím přístup k jeho „programovacímu jazyku“. Najednou by se před námi otevřela celá řada vzrušujících možností, jak ovlivňovat, co (nejen) naše buňky dělají, včetně třeba příčin nemocí, vývoje možných léků nebo třeba nových látek pro využití v našich chemických reakcích.
Už několik desetiletí pracuje mnoho týmů na vývoji různých algoritmů, které by otázku dokázaly elegantně zjednodušit do té míry, aby se dala podoba bílkovin dobře předpovídat. V polovině 90. let dokonce vznikla vědecká soutěž nazvaná CASP, kde proti sobě soupeřily různé týmy (letos je 16. ročník, protože soutěž se koná jednou za dva roky).
Klonování hlasu pomocí AI
Napodobení hlasu pomocí různých nástrojů využívající umělou inteligenci je čím dál jednodušší. Tady si můžete poslechnout naše pokusy:
Naše experimenty samozřejmě probíhaly se svolením všech zúčastněných. Podvodníci ale mohou klonované hlasy využít k novému typu útoků. Pokud tedy uslyšíte v telefonu hlas osoby, kterou znáte, raději si ověřte, že je to skutečně ona. Zvláště pokud bude chtít, abyste něco potvrdili nebo poslali peníze.
Přelomový byl ročník 2018. V něm zvítězil tým, který na rozdíl od všech ostatních vlastně nebyl přímo z oboru: skupina ze společnosti DeepMind, kterou v roce 2014 koupil Google. Jeho software AlphaFold 2 vyhrál „světovým rekordem“, který znamenal zásadní posun v oboru.
V roce 2022 tak díky němu mohl DeepMind ve spolupráci s Evropským bioinformatickým institutem zveřejnit databázi tvarů všech známých 200 milionů bílkovin. To byl do té doby nepředstavitelný výkon, který se staršími metodami nedal reálně uskutečnit.
„Odhalit strukturu nějaké bílkoviny na vlastní pěst bývala totiž otázka měsíců, nebo dokonce let. „A nyní máme program, který to zvládne v řádu minut, a s dostatečnou přesností – takovou, že na tom lze založit další výzkum,“ řekl tehdy Seznam Zprávám Karel Berka z Katedry fyzikální chemie Univerzity Palackého a infrastruktury ELIXIR CZ.
Předpovědi rozhodně nejsou ve všech případech přesné, software ani náhodou není neomylný, obor však i tak zásadně změnil. „Asi největší pokrok je v navrhování nových bílkovin takříkajíc na míru,“ říká Berka a vysvětluje: „Třeba verze nějaké bílkoviny, která bude rozpustnější ve vodě, bere v potaz mutaci u nějakého konkrétního pacienta, nebo která prostě má mít konkrétní tvar.“
Vědci pro demonstraci udělali bílkoviny, které mají tvar písmen abecedy nebo smajlíku. Což pochopitelně nemá žádný význam léčebný, ale dobře to ilustruje, jaké mají náhle možnosti.
Úspěšnost návrhu takových zbrusu nových bílkovin stoupla podle Berkova odhadu řádově z jednoho z tisíců pokusů na jeden ze tří.
Další skok
Na začátku května letošního roku pak DeepMind přišel s další verzí programu, AlphaFold 3. Článek popisující jeho výsledky se objevil v časopise Nature. Samotný model je pak dostupný jen přes webové stránky společnosti DeepMind.
Nejde o úplnou revoluci, ale další znatelný pokrok, shodují se zatím vesměs reakce odborníků. Je efektivnější a rychlejší, především však zvládne složitější situace.
Starší verze si poměrně dobře věděly poradit s jednotlivým bílkovinami, v praxi však bývá situace složitější: „Bílkoviny nepracují často samy, ale dohromady v celcích složených z několika bílkovin, případně nukleových kyselin – ovšem takové případy AlphaFold 2 neuměl modelovat,“ vysvětluje jednoduše Karel Berka. Není třeba zacházet do detailů, ale právě tohle byl i důvod, proč AlphaFold 2 neměl velké úspěchy při vývoji léků, v jejichž případě právě obvykle probíhají složité „interakce“.
Třetí verze této „umělé inteligence“ už si s takovými problémy dokáže alespoň v některých případech poradit. Znovu rozhodně není bezchybná, s některými problémy si zjevně pořád neví rady, ale repertoár AI se výrazně rozšířil.
AlphaFold 3 má také jednu zásadní výhodu: jednoduché webové rozhraní, které nevyžaduje od uživatele žádné kódování. Umožňuje každému, kdo má Google účet, zadat sekvenci proteinu nebo nukleové kyseliny a vytvořit předpovědi struktur komplexů, které mohou tvořit s jinými molekulami.
Umělá inteligence a zašmodrchané proteiny
Firma DeepMind (nyní Google DeepMind) v roce 2022 otevřela obří databázi se strukturou prakticky všech známých proteinů:
Otevřete ho!
Uživatelská přívětivost ovšem nepřebila v očích řady vědců jiný problém: DeepMind nebyl tak otevřený, jak si představovali.
„Současné možnosti použití jsou dosti omezující“, shrnuje to Berka. Vědci například nemají kontrolu nad tím, zda se nástroj v pozadí nemění – a jinak řečeno, jestli zítra bude dávat stejné výsledky jako dnes.
Zároveň existoval limit, kolik předpovědí bylo možné si za den nechat udělat (nejprve 10, po kritice 20). Ve veřejné verzi také je jen omezené spektrum molekul.
Podmínky pro nekomerční uživatele obsahují nová omezení, včetně například zákazu využití nástroje pro vývoj léků. DeepMind se přitom spojil při vývoji se společností Isomorphic Labs, která také patří do stejného holdingu, a která má právě vyvíjet léky metodami „výpočetní biologie“, tedy s pomocí předpovědí podobných nástrojů.
Notnou část kritiky sklidil i slavný časopis Nature, kde práce s popisem modelu vyšla. Jeho redakce trvá obvykle na tom, že pokud je součástí článku nějaký kód či software, tak musí být dostupný ke stažení spolu s článkem. Především proto, aby se dalo ověřit, že skutečně dělá to, co se tvrdí v textu (existují výjimky, například v případě potenciálně zneužitelného obsahu atp.).
Publikace v takovém časopise není pro každého. Pokud vyvíjíte produkt, na kterém chcete vydělat, Nature a další velké vědecké časopisy nejsou vhodné místo na zveřejnění jeho popisu, protože pak je nutné ukázat více, než byste jako autor asi chtěli. Alespoň tedy obvykle (mimo jiné i v případě verze AlpahFold 2). V případě publikace článku o AlphaFold 3 redakce zjevně ze svého standardu slevila.
Na to rychle zareagovala skupina vědců otevřeným dopisem, který rychle získal velkou pozornost a podporu. Časopis se pokusil vysvětlit své rozhodnutí mimo jiné tím, že chce „podpořit výměnu vědomostí“ se soukromým sektorem, ovšem těžko říci, zda někoho přesvědčil.
Kritiku do jisté míry otupilo, když společnost DeepMind několik dní po vydání článku (a také otevřeného dopisu) oznámila, že do konce roku AlphaFold poskytne v otevřené verzi, stejně jako to udělala v případě AlphaFold 2.
Postavíme vlastní
Zatím se ovšem zdá, že epizoda jen oživila zájem o napodobení výsledku AlphaFold 3 ryze akademickou alternativou. Otevřené modely jako OpenFold vznikaly i na základě starších verzí společnosti DeepMind, nyní bude ale motivace vědců asi zřejmě větší.
„Bylo by špatné, kdyby nástroje, které jsou tak zásadní pro naši schopnost objevovat léky a další věci důležité pro lidské zdraví, skončily nepřístupné,“ řekl pro Nature Mohammed AlQuraishi z Kolumbijské univerzity v New Yorku. Oceňuje přínos DeepMind, ale jeho tým - a také několik dalších - už se snaží vystavit otevřenou verzi AlphaFold 3, kterou by akademici mohli využívat bez omezení.
Umělá inteligence mění lidskou práci
Podívejte se, jak nástroj ChatGPT už dnes zasahuje do pracovních pozic. Některým lidem pomáhá s kreativní prací, jiným šetří čas generováním kódu. A některé pozice může dokonce z velké části nahradit.
Nebude to jednoduché i z čistě technického hlediska. Nejde totiž jen o samotný program. U „umělé inteligence“ jsou ještě důležitější údaje, na kterých se trénuje. Těch musí být k dispozici velké množství a software se na nich musí učit dlouho, aby dosáhl dobrých výsledků.
Náklady na trénování velkých modelů, jako jsou ChatGPT 4 a podobné, se pohybují zřejmě v miliardách korun. V případě AlphaFold 3, který řeší užší okruh problémů, to bude patrně výrazně méně, snad desítky milionů korun (alespoň podle Nature citovaného odhadu Sergeje Ovchinnikova z MIT). Je nutné nejen sehnat a připravit dostatek dat, ale také dát nechat software znovu a znovu záplavu údajů procházet a krok po krůčku se na ní učit. A to vše se odehrává pochopitelně ve velkých výpočetních centrech, která nejsou zadarmo.
V případě DeepMind i jiných typů „umělé inteligence“ jde do velké míry o data, která autoři modelů nevytvořili. Ať už jsou to v jednom případě básně, romány, obrazy, nebo naše banální internetové „plky“. V případě biologie jde o vědomosti nasbírané nejen díky práci řady vědců, ale také zaplacené z peněz daňových poplatníků.
Zdánlivě odtažitý obor skládání bílkovin čili „strukturální biologie“ si tak dnes klade otázky, které možná budeme muset řešit v mnohem větším měřítku: může být revoluční nástroj neprůhledný? Můžeme věřit výsledkům – v tomto případě lékům nebo vakcínám – bez otevřenosti?