Článek
Článek si také můžete poslechnout v audioverzi.
Pod „proteinem“ si zřejmě řada lidí představí část stravy, kterou naše tělo využívá pro růst svalů. Ale pro vědce, kteří studují živou hmotu, má slovo protein až neuvěřitelně široký význam a zásadní důležitost. Proteiny jsou totiž komplexní miniaturní řetězce, které v podstatě skrývají klíč k výzkumu veškerého života na Zemi.
Během posledních padesáti let vědci identifikovali asi dvě stě milionů různých proteinů. Od jednoduchých bakterií nebo virů až po nesmírně složité makromolekuly, které obsahují stovky podsložek.
Zašmodrchané tajemství
Co proteiny dělají? Funkce proteinu se odvíjejí od jeho tvaru, a tady nastává hlavní komplikace. Protože se jedná o strukturu na úrovni atomárních celků, svázaných k sobě různě silnými vazbami, výsledkem je složitá změť, jejíž tvar je velmi těžko předvídatelný.
Vědci nyní mohou prozkoumat celou tuto databázi a hledat různé evoluční souvislosti, které byly dosud skryté.
Vědci už několik desetiletí nemají problém zjistit sekvenci „písmenek“ základních aminokyselin, ze kterých se proteiny skládají. Díky sekvenování dokonce znají jejich přesné pořadí. Ale odvodit z pořadí písmenek přesný výsledný tvar bylo prakticky nemožné i u poměrně jednoduchých sekvencí. Jako kdyby se člověk snažil odhadnout, jakým způsobem se do sebe zašmodrchá natažená řada různě zatočených gumiček a pružinek.
Ještě nedávno by získání takové struktury vyžadovalo měsíce nebo roky experimentálních měření. Minulý týden se ale situace radikálně změnila. Britská firma DeepMind – vlastněná americkou společností Alphabet, která je známá především jako vlastník firmy Google – oznámila ohromné rozšíření databáze trojrozměrné struktury více než dvou set milionů známých proteinů.
V databázi lze najít detaily prakticky všech známých proteinů a zobrazit, jakou strukturu u nich neuronová síť AlphaFold spočítala. „Vědci nyní mohou prozkoumat celou tuto databázi a hledat různé souvislosti. Korelace mezi druhy a evoluční vzorce, které dosud nemusely být zřejmé,“ řekl pro The New York Times Demis Hassabis, výkonný ředitel společnosti DeepMind. „Byli jsme ohromeni rychlostí, s jakou se AlphaFold již stal základním nástrojem pro statisíce vědců v laboratořích a na univerzitách po celém světě, kde jim pomáhá v jejich důležité práci,“ napsal na firemním blogu.
Data jsou totiž k dispozici pro akademické i komerční využití a kdokoli si je může stáhnout a dále s nimi pracovat. Kromě toho mohou výzkumníci využít i samotný nástroj AlphaFold k simulaci struktury dalších, dosud nepopsaných proteinů.
Rychlejší vývoj léků, hnojiv i enzymů
Dosud přitom platilo, že pokud výzkumníci chtěli znát proteinovou strukturu – což potřebují kdykoli, kdy jim jde o funkčnost a dynamiku daného proteinu – museli ji zjistit experimentálně. Například pomocí kryoelektronové mikroskopie (cryo-EM), která umožňuje strukturu rychle zmrazit na teplotu kolem -200 °C a následně oskenovat elektronovým mikroskopem. Další možností byla kombinace výpočtů a simulací a vyzkoušení všech možných kombinací k nalezení té fyzikálně nejpravděpodobnější struktury.
Použitelné je to všude, kde potřebujeme znát strukturu proteinů. Vývoj nových léčiv, hnojiv, enzymů. Můžeme testovat, jak a proč věci fungují, a navrhovat proteiny úplně nové.
„Všichni měli nějaké nástroje na práci se strukturami, ale odhalit strukturu na vlastní pěst, to byla otázka měsíců nebo dokonce let,“ popisuje praxi Karel Berka, fyzikální chemik a bioinformatik z Katedry fyzikální chemie Univerzity Palackého. „A nyní máme program, který to zvládne v řádu minut, a s dostatečnou přesností, takovou, že na tom lze založit další výzkum.“
Nástroj AlphaFold je totiž podle Berky schopen dát výzkumníkům data, která jsou někdy dokonce přesnější, než data získaná experimentálně. „Použitelné je to všude, kde potřebujeme znát strukturu proteinu. A na základě té struktury pak můžeme navrhovat třeba léčiva, chytrá hnojiva, enzymy…“ vypočítává Berka v našem rozhovoru. „Můžeme studovat, jak proteiny fungují, jak probíhal jejich vývoj v průběhu evoluce a můžeme navrhovat proteiny nové. Model šetří čas, člověk si může předem vyzkoušet, jak ta látka bude fungovat. Třeba u léku se můžu podívat, kam se léčivo váže. Můžu předem přemýšlet, co má smysl dělat.“
Jak počítač odhaduje strukturu proteinů:
Příkladem je nově vytvořený enzym pro rozkládání PET lahví. Na jeho vývoji pracoval tým biologa Johna McGeehana z Centra pro enzymové inovace v anglickém Pourtsmouthu: „Jeho úkol se podobá úkolu pečlivého zámečníka: najít chemické sloučeniny, které se samy zkroutí a složí do mikroskopického tvaru, jenž dokonale zapadne do molekul plastové láhve a rozdělí je jako klíč otevírající dveře,“ popsal deník The New York Times.
Na konci roku 2021 se McGeehan rozhodl požádat o pomoc laboratoř DeepMind. Koncem jednoho podzimního týdne jim poslal sekvenci sedmi proteinů (enzymů). „Následující pondělí nám poslali 3D tvar všech sedmi,“ doplnil McGeehan. „Tím jsme se posunuli o rok dopředu, ne-li o dva.“
Podobného urychlení se nyní mohou dočkat všechny laboratoře na světě. A ani nemusí psát do londýnské firmy DeepMind žádné e-maily. Výzkumníci si mohou pustit na svém počítači nebo využít některé z dostupných cloudových řešení. „Může vás to posunout v čase. Může to ovlivnit způsob, jakým o problémech přemýšlíte, a pomoci vám je rychleji vyřešit,“ říká Gira Bhabha, která studuje proteinové struktury na katedře buněčné biologie New York University. „Ať už studujete neurovědy nebo imunologii, ať už se zabýváte jakýmkoli oborem biologie, může to pro vás být užitečné.“
Už za první rok využilo databáze AlphaFold přes půl milionu vědců z celého světa a vědecká studie publikovaná před rokem v časopise Nature, popisující fungování AlphaFold, má už tisíce citací.
Ohromný skok díky strojovému učení
„Protože tvar bílkoviny úzce souvisí s její funkcí, znalost struktury bílkoviny umožňuje lépe porozumět tomu, co dělá a jak funguje,“ podotýká Demis Hassabis, šéf britské společnosti DeepMind. „Doufali jsme, že náš převratný nástroj pomůže urychlit vědecký výzkum na celém světě a že další týmy se budou moci poučit a navázat na pokroky, kterých jsme dosáhli s AlphaFold, a vytvořit tak další průlomové objevy.“
Mysleli jsme, že pro modelování struktury proteinů budeme muset simulovat fyziku. Nakonec ale překvapivě stačila neuronová síť.
Firma DeepMind se v roce 2015 proslavila tím, že porazila evropského mistra v japonské „šachové“ hře go s použitím strojového učení. Roku 2016 porazila nová verze nejlépe hodnoceného hráče světa, a v roce 2018 firma úspěch završila tím, že představila novou verzi, která dokázala přesvědčivě porazit nejen jakéhokoli člověka, ale i všechny své předchozí verze.
Hra go byla dlouho považována za příliš složitou na to, aby v ní počítač mohl v brzké době překonat člověka. Neuronová síť – vytrénovaná na předchozích uskutečněných hrách, a později dokonce jen na hrách sama se sebou – si ale dokázala vytvořit „intuici“, která jí umožnila hrát lépe než kdokoli předtím.
Zkušenosti získané v oblasti her pak dokázala firma zužitkovat v oboru o poznání praktičtějším: v roce 2020 DeepMind ukázal nástroj AlphaFold na predikci proteinů, který porazil i ty nejlepší tehdy existující programy: „Mysleli jsme si, že bude třeba přístup, který více používá fyziku,“ popsal nám Augustin Žídek, český programátor, který se na vývoji podílel. „Ale nakonec překvapivě stačila neuronová síť.“
Jak funguje strojové učení
Umělá inteligence, jak se často strojové učení označuje, funguje na principu analýzy velkého množství dat. Počítačové programy jsou sadou instrukcí a podle těchto instrukcí zpracovávají dodaná data. Strojové učení je nový přístup k řešení problémů. Než aby programátor počítači napsal veškeré instrukce jednotlivě, tak naprogramuje způsob, kterým se počítač sám učí na dodaných „trénovacích“ datech. Napodobuje tak funkci lidského mozku, odkud ostatně pojem „neuronová síť“ pochází.
V případě predikce struktury proteinů se neuronová síť trénuje na skutečných molekulách, jejichž struktura je už známá. Učí se, jaký vliv mají různé kombinace na výsledný tvar. Algoritmus hledá, co mají různé proteiny společného a čím se naopak liší. Díky zpětné vazbě postupně zpřesňuje své odhady.
Na svůj úspěch z roku 2020 jejich nástroj AlphaFold navázala firma o rok později tím, že zveřejnila spočítanou strukturu přibližně jednoho milionu proteinů. Dodržela tak příslib, kterému předtím bylo těžké věřit – totiž že výsledky bádání budou k dispozici zdarma. A nyní už tak štědrý „dárek vědecké komunitě“ rozšířila hned dvěstěnásobně, čímž pokryla prakticky všechny lidmi dosud popsané proteiny.
Podle Berky bude mít AlphaFold ohromný vliv na celé odvětví. „Dá se to přirovnat k tomu, jak se zlepšil strojový překlad po nástupu strojového učení,“ využívá dalšího příkladu toho, jak strojové učení v poslední době zasáhlo do zavedeného oboru.
„Rezistence bakterií, vakcíny, výzkum evoluce. Medicína z toho bude těžit ohromně,“ předpokládá Berka. „I když jsme znali sekvence těch proteinů, tak jsme nevěděli, jak to vypadalo. Teprve teď vidíme, co všechno jsme doteď nevěděli. Ukazuje se, že velká část proteinů není celá pevně strukturovaná. Část té struktury prostě není úplně rigidní, může se měnit na základě situace. Teď vidíme, že takových proteinů je více, než jsme si mysleli.“
Zároveň ale dodává, že svým způsobem tento objev může být pouhým začátkem. „Bude zábavné podívat se na to, jak ty proteiny fungují spolu. Databáze totiž ukáže, jak fungují jednotlivé proteiny, ale ne, jak fungují spolu.“
Právě při interakci s dalším proteinem se zmíněná nestrukturovaná část proteinu může změnit nebo stabilizovat. V databázi je nyní přes 200 milionů proteinů. Kombinace a interakce každého proteinu s každým – nemluvě o nových proteinech – tedy představuje další výzvu, které budou vědci čelit.