Článek
Na červenec 2021 bude zřejmě řada biologů z celého světa vzpomínat v dobrém. Dostali totiž konečně do rukou nástroj, o kterém desetiletí mohli pouze snít. Hned dva týmy totiž zveřejnily v polovině července podrobné informace o svých nástrojích na určování tvaru bílkovin. Pouze z jejich chemického složení predikují s vysokou úspěšností výsledný tvar, který má pro biology klíčový význam.
Jeden software vyvinula firma DeepMind (popis vyšel v časopise Nature), která patří do holdingu Alphabet, tedy do skupiny firem kolem Googlu. Druhý pak skupina vědců z amerického Washingtonu (v časopise Science). Ty inspirovala nedávná těžká porážka právě od softwaru společnosti DeepMind.
A proč je zajímavé vědět, jaký tvar má která bílkovina? Protože to je vlastnost extrémně důležitá – určuje, co přesně látky v našem těle dělají. Tvar určí, zda vás protilátka ochrání či neochrání proti viru, tvar jiné bílkoviny, kterou naše tělo vyrábí, rozhodne, zda nás postihne či nepostihne Alzheimerova nemoc.
Těžké hledání správného tvaru
Biologové jsou proto tvarem „posedlí“. Jedna z nejslavnějších Nobelových cen padla v roce 1962 za určení tvaru DNA. Tvar byl proto tak důležitý, že díky němu pak začalo být mnohem jasnější, jak a proč vlastně funguje dědičnost, jak přecházejí vlastnosti z jedné generace na druhou a také proč některé naopak nepřecházejí.
Hádanku tvaru DNA nakonec vyřešil experiment – rentgenový snímek. Rentgen či elektronový mikroskop ostatně zůstávají klíčovou pomůckou všech odborníků, kteří po tvaru bílkovin pátrají. Bohužel to není nástroj nijak rychlý. Dostat jednu konkrétní bílkovinu „před objektiv“ je složitá práce, která zabere v nejlepším případě týdny, často měsíce, někdy celé roky. A někdy se to nepodaří vůbec (třeba u bílkovin, jež jsou pevně uhnízděné v buněčné stěně). Bílkovin je přitom v přírodě nepřeberné množství. Jen v lidském těle se jich vyskytuje zhruba 20 tisíc, dohromady víme zhruba o 180 milionech.
Biologové se tak již desetiletí pokoušeli tvar spočítat. Ale problém je tak komplikovaný (viz box Jak se skládá bílkovina), že pokrok byl poměrně pomalý. Určování tvaru bílkovin je „úzké hrdlo, které zpomaluje a omezuje poznání života vůbec“, řekl na konci roku 2020 pro Technet.cz biolog Jan Černý z Přírodovědecké fakulty Univerzity Karlovy.
Nyní ovšem přišla chvíle na „veliký skok pro lidstvo“.
Jak se skládá bílkovina
Tvar bílkovin určuje jejich chemické složení, které lze zjistit velmi jednoduše. Není také příliš složité, protože v bílkovinách se vyskytuje jen omezená sada stavebních dílů (aminokyselin).
Když tyto jednoduché „cihly“ začnete skládat k sobě, situace se začne rychle komplikovat. Jednotlivé atomy se začnou navzájem ovlivňovat (odpuzovat, přitahovat atp.), a tak se bílkovina poskládá do polohy, ve které je jí „nejpohodlněji“, ve které je její vnitřní pnutí nejmenší.
Analogií bychom mohli říci, že jde o svazek mnoha gumiček různých tvarů a tloušťky. Když ho natáhnete a pak pustíte, samovolně se „zašmodrchá“.
Dokážeme si asi představit, že předpovědět konečný tvar takové „šmodrchanice“ je možné, kdybychom přesně věděli, kolik a jakých gumiček v útvaru je, jakou silou se natahují atd. Je vám asi také jasné, že to není nic jednoduchého – a u bílkovin je to ještě podstatně těžší.
Často se dnes cituje odhad, že u složitých bílkovin mohou být počty možných konfigurací mnohonásobně vyšší, než je počet všech atomů ve vesmíru. Těch je podle dnešních odhadů zhruba cca 1080. Hojně citovaná práce z roku 1969 uvádí příklad hypotetické bílkoviny ze 150 aminokyselin, u které by počet možných konfigurací byl až 10 300. Bílkovina ze 150 aminokyselin přitom není žádný rekordman.
Je jasné, že hrubou silou řešení takového problému najít nelze. Dokud softwaroví inženýři v 21. století nezískali praktické zkušenosti s jinými programovacími postupy (které teoretici vytvořili ve století dvacátém, dodejme), pokrok v této oblasti byl pomalý.
Přišel, spočítal, zvítězil
Signálem možné změny se stal minulý a zřejmě poslední ročník nenápadné soutěže CASP, ve které se pravidelně utkávají programy na určování tvaru bílkovin. Soutěž vznikla v 90. letech a jejím cílem bylo umožnit výměnu zkušeností a nápadů, které by posunuly obor kupředu.
Výsledky výpočtu se ovšem lepšily pomalu. Teprve v posledních letech začala být údajně cítit změna, stále více týmů totiž začalo používat software s prvky „hlubokého strojového učení“, který se dnes často zjednodušeně označuje jako „umělá inteligence (AI)“. Jde o software, jenž se učí na známých příkladech (tj. již popsaných bílkovinách) předpovídat tvary bílkovin pro něj neznámých.
Jak funguje strojové učení
Umělá inteligence, jak se často strojové učení označuje, funguje na principu analýzy velkého množství dat. Počítačové programy jsou sadou instrukcí a podle těchto instrukcí zpracovávají dodaná data. Strojové učení je nový přístup k řešení problémů. Než aby programátor počítači napsal veškeré instrukce jednotlivě, tak naprogramuje způsob, kterým se počítač sám učí na dodaných „trénovacích“ datech. Napodobuje tak funkci lidského mozku, odkud ostatně pojem „neuronová síť“ pochází.
V případě predikce struktury proteinů se neuronová síť trénuje na skutečných molekulách, jejichž struktura je už známá. Učí se, jaký vliv mají různé kombinace na výsledný tvar. Algoritmus hledá, co mají různé proteiny společného a čím se naopak liší. Díky zpětné vazbě postupně zpřesňuje své odhady.
Nejlépe dokázal tento princip využít naprostý nováček v soutěži.
Společnost DeepMind, patřící do koncernu Alphabet, se do soutěže přihlásila se svým softwarem AlphaFold poprvé v roce 2018 a vedla si již první rok obstojně. Skutečný poprask ale způsobila v roce 2020. Zbylé soutěžící zanechala ve většině disciplín (ne ve všech) daleko za sebou.
Podle některých odborníků se dostala zhruba na úroveň výsledků, které dnes poskytuje měření stejných bílkovin „pod mikroskopem“. Jiní jsou skeptičtější, ale o vítězi bylo jasno.
Softwaroví inženýři z DeepMind překonali biology o pěkných pár délek a porážka byla možná ještě o něco jasnější, než když jiná AI DeepMind poprvé porazila lidského velmistra ve hře go, která byla dlouho považována za příliš náročnou pro dnešní počítače.
Pro ilustraci: výsledky se v CASP hodnotí od 0 do 100 podle toho, jak moc se předpověď trefí do podoby dané bílkoviny (kterou porota zná díky experimentálním datům). V roce 2016 dosáhly nejlepší týmy skóre kolem 40. V roce 2018, kdy se AlphaFold účastnil soutěže poprvé, se jeho průměrné skóre pohybovalo kolem 70. V roce 2020 dosáhl 92,4.
DeepMind
- Společnost DeepMind byla založena v roce 2010, o čtyři roky ji později koupila společnost Google, údajně za 600 milionů dolarů.
- Její hlavní náplní práce je výzkum a vývoj. Kromě vytvoření softwaru AlphaFold je známá především tím, že vytvořila software umělé inteligence, který dokázal porazit nejlepší lidské hráče na světě ve hře go.
Co bude dál?
Byť nadšení v oboru bylo patrné, řada odborníků se poněkud obávala, co bude dál. DeepMind představil vědcům svou technologii na půlhodinové prezentaci v rámci soutěže CASP, ale to samozřejmě k ukojení jejich zvědavosti nestačilo. Společnost slíbila, že systém představí v práci pro vybraný vědecký časopis, do poloviny letošního roku se ovšem viditelně nic nedělo (byť DeepMind práci připravil a odeslal).
Události ovšem nabraly rychlý spád díky „šťouchu“ od konkurence, konkrétně od týmu, který v soutěži CASP v roce 2020 skončil na druhém místě. V jeho čele stojí dlouholetý veterán a velký inovátor v oboru David Baker z Washingtonské univerzity v Seattlu. Jeho tým se z porážky rozhodl poučit a pustil se do vylepšování vlastního softwaru, a to do značné míry na základě zmíněné prezentace.
V polovině června Baker a spol. vyvěsili práci popisující jejich systém serveru bioRxiv. V reakci pak bylo prakticky okamžitě oznámeno urychlení vydání práce DeepMind. V polovině července pak oba texty vyšly prakticky současně. Oba týmy také zveřejnily i použitý kód (DeepMind zde, Bakerova skupina zde).
Exploze
Výsledky jsou na pohled dosti povzbudivé, protože pokrok se stále nezastavil. Biologové z Washingtonské univerzity společnost DeepMind téměř dohonili v přesnosti modelování, a dokonce mají náskok v modelování „složených“ bílkovin (tzv. komplexů). A DeepMind ukázal, co to znamená, když se „umělá inteligence“ něco naučí.
Týden po vydání práce s popisem softwaru a kódu tým totiž zpřístupnil ještě něco: velkou databázi modelů bílkovin vytvořených jeho softwarem. Je jich na 350 tisíc a pokrývají prakticky všechny lidské bílkoviny a bílkoviny dalších 19 pro člověka z různých důvodů zajímavých druhů. Například parazita zimničky, který způsobuje malárii. (Všechny namodelované bílkoviny jsou dostupné online v databázi).
Společnost DeepMind rovněž uvedla, že hodlá do nové databáze nadále přidávat další a další předpovědi. A to až do chvíle, než bude mít vytvořené předpovědi pro 130 milionů dnes dobře popsaných úseků genetického kódu, jež slouží jako návod pro výrobu nějaké bílkoviny. To už se samozřejmě netýká jen člověka či nějakých dalších vybraných druhů organismů, ale celé rostlinné, živočišné a bakteriální říše. (Ne všechny organismy máme ovšem geneticky „zmapované“.)
Nemělo by přitom jít o běh na příliš dlouhou trať. Proti loňskému roku se software, a to jak DeepMind, tak Bakerův a jeho kolegů, ve výpočtech výrazně zrychlil. Podle vyjádření týmu pro časopis Nature by vytvoření modelů struktur pro 130 milionů bílkovin mělo být hotové do konce letošního roku (jinde se uvádí během dvou let).
Pokud se to povede, počet takto „namodelovaných“ bílkovin více než 700krát převýší počet bílkovin s popsanou strukturou, které se dají v dnešních vědeckých databázích najít. V tzv. Protein Data Bank, tedy databázi bílkovin, jejichž strukturu někdo zkoumal (obvykle) rentgenem nebo elektronovým mikroskopem, bylo k červenci 2021 něco přes 180 tisíc záznamů.
Na tomto příkladu je vidět přelomová povaha nasazení umělé inteligence pro určitý obor: počítače by během několika měsíců mohly vytvořit sumu znalostí, která v tomto konkrétním oboru výrazně převýší množství znalostí, jež biologové shromáždili za několik posledních desetiletí. (Výše zmíněná Protein Data Banka letos v květnu oslavila 50 let od svého založení.)
Ve chvíli, kdy se práce změní ve výpočetní úlohu, která pro dnešní počítače není příliš náročná, dojde k explozivnímu nárůstu výsledků.
Chybovat je nelidské – a poučné
Nutno podotknout, že velká část vytvořených předpovědí bude nepochybně špatná. Autoři AlphaFold uvedli, že v případě předpovědí tvaru lidských bílkovin jich 58 procent považují za „spolehlivé“. A ještě menší část z nich, zhruba 36 procent z celku, by mělo být údajně dostatečně přesných na to, aby se daly použít prakticky například k návrhu nových léků. Jak jsme říkali, RoseTTAFold měl podobnou přesnost.
Těžko tedy lze říci, že software vyřešil problém dokonale a není už na čem pracovat. Softwarem vytvářené modely mají k dokonalosti daleko a teoretici i experimentátoři v oboru si nemusí dělat starosti, že by přišli o práci. Jejich práce se ovšem nepochybně změní. Některé dříve běžné úkoly lidé dělat přestanou, protože počítačům prostě nemohou konkurovat. Cena počítačové práce je nesrovnatelně nižší.
Dnes lze těžko odhadovat, jakým směrem se vývoj bude ubírat. Hlavně proto, že není žádný důvod pro to, aby se umělá inteligence v této konkrétní úloze nadále nezlepšovala. Čím více udělá předpovědí, tím více jich vědci budou moci ověřit – a tím více možností bude mít umělá inteligence k tomu, aby se na základě odhalených chyb naučila předpovídat ještě lépe. Současné principy vývoje umělé inteligence mají své limity, v tuto chvíli ovšem nelze přesně říci, kde leží.
Náročná AI
Nebude to zadarmo. DeepMind ročně prodělává stovky milionů dolarů. Náklady pokrývá její mateřská společnost Alphabet, která je zároveň mateřskou firmou celého holdingu, tedy i společnosti Google.
Výměnou za to DeepMind dodává společnosti Google důležité objevy v oblasti strojového učení, jež jsou začleněny do produktů společnosti Google, včetně digitálního asistenta Google a operačního systému Android.
Jak si všimla média, podle finančních záznamů veřejně dostupných v britském obchodním rejstříku Companies House nepokrývají platby Googlu za tyto inovace provozní náklady DeepMind. Časopis Fortune se šéfa DeepMind Demise Hassabise nedávno zeptal, co je pravdy na spekulacích, že DeepMind je pod rostoucím tlakem Alphabetu, aby zlepšil hospodářskou bilanci. Podle Hassabise na zvěstech nic pravdivého není.
Byť je tedy špičkový výzkum v této oblasti evidentně drahý, příklad skládání proteinů také naznačuje, že umělou inteligenci lze alespoň zatím vyvinout i poměrně levně a jednoduše. Tým z univerzity ve Washingtonu dokázal výsledky AlphaFold napodobit relativně rychle a dobře. Jejich program není tak dokonalý, jak sami spekulují, možná proto, že nemají k dispozici odborníky na vývoj tohoto typu softwaru.
Zatím se tedy nezdá, že by se výkonná AI musela nutně rodit pouze a jen ve vývojářských centrech několika vybraných korporací nebo států.