Článek
Čtete ukázku z newsletteru TechMIX, ve kterém Pavel Kasík a Matouš Lázňovský každou středu přinášejí hned několik komentářů a postřehů ze světa vědy a nových technologií. Pokud vás TechMIX zaujme, přihlaste se k jeho odběru!
Rozlišit mezi tím, co je dobrá práce s daty a co je omyl, nebo dokonce manipulace, je schopnost, kterou se musíme učit celý život.
Baseballový zázrak se stal synonymem analýzy
Nemám rád baseball. Nerozumím mu, neznám pořádně pravidla a obvykle se nedokážu na první pohled zorientovat v tom, co se na hřišti děje. Jedno se ale tomuto podivnému sportu musí nechat: výtečná práce se statistikami.
Každý odpal, každá meta, každý chycený míček se objeví v nějaké vysoce specializované tabulce. A když se najde někdo, kdo tyto statistiky dokáže využít, vypadá to jako superschopnost. Nebo rovnou zázrak.
Před dvaceti lety o tomto zázraku napsal americký novinář Michael Lewis knihu Moneyball: Umění vítězit v neférové hře. Sleduje snažení týmu Oakland Athletics, který má nízký rozpočet a nemůže si dovolit nakoupit ty nejlepší hráče. Místo toho se tedy pod vedením manažera Billyho Beana pustili do datové analýzy.
Celá jejich metodika byla složitá a komplexní, podle mého se ale hlavní nápad dá shrnout do dvou otázek. Které vlastnosti a schopnosti hráčů jsou důležité z hlediska vítězství ve hře? A které vlastnosti a schopnosti hráčů jsou důležité z hlediska jejich ceny na trhu?
Analýzou těchto dvou otázek vznikne pomyslný kvadrant. Vlastnosti, které jsou důležité pro vítězství a zároveň zvyšují cenu hráčů, ty nás až tak nezajímají. O těch všichni vědí. Pak jsou tu vlastnosti, které zvyšují cenu hráčů, ale nepřispívají k vítězství týmu ve hře. Třeba vzhled hráče.
„Statistiky umožnily týmu odhalit nejrůznější předsudky, například nechuť kupovat krátké praváky nebo nedůvěru k hubeným malým klukům, kteří umí dobře běhat na mety. Nebo odpor k tlustým chytačům,“ vyjmenovává Michael Lewis v podcastu Freakonomics.
Tým Oaklandu díky těmto objevům nakoupil relativně levné hráče, kteří měli vysokou přidanou hodnotu. Jinými slovy, data jim pomohla jednat na základě reality, ne na základě dojmů. Jak víte z knihy Moneyball – nebo ze stejnojmenného hvězdně obsazeného filmu –, tento vhled a odhodlání poslouchat data přivedly třetí „nejhůře placený tým“ až na vrcholek hlavní baseballové ligy.
Ze slova „Moneyball“ se od té doby stalo synonymum pro chytré nakládání s daty. Podle Lewise to je často jen pokus říct, že se někdo snaží něco dělat jinak. Ale někdy je to podle něj trefná metafora: „Pokud hledáte kvalitní data, různě je analyzujete a daří se vám najít radikální a užitečné závěry, jak věci dělat jinak než ostatní.“ To je podle něj podstata pojmu Moneyball.
Když tedy víme, že datová analýza funguje, proč ji nepoužíváme častěji? Podle Lewise je to často strach z toho, že budeme vypadat divně, že se nám někdo bude smát, protože jdeme proti tomu, co je považováno za normální. Když děláte věci jinak než ostatní a neuspějete, je to vaše chyba a budete terčem posměchu. Když respektujete „zavedené postupy“ a neuspějete, nikdo se vám smát nebude.
Umýt si ruce? No dovolte?!
Můj oblíbený příběh o důrazu na data pochází z 19. století. Maďarský lékař a porodník Ignác Semmelweis, který působil na první klinice vídeňské nemocnice, ve svých analýzách zjistil, že úmrtnost byla na první klinice výrazně vyšší než na druhé.
Ve svých vzpomínkách uvádí, že mu tento rozdíl doslova nedal spát. Pro představu, na první klinice byl podíl úmrtí mezi osmi a patnácti procenty, na druhé mezi dvěma a osmi procenty. Takže z dnešního pohledu vysoká čísla a rozdíl mezi nimi takřka dvojnásobný.
Postupně Semmelweis vyloučil různé příčiny a zůstal jen jeden faktor. Na první klinice s vysokou úmrtností se učili studenti medicíny, na druhé klinice se učily budoucí porodní asistentky. V roce 1847 Semmelweis navrhl svou odvážnou hypotézu: Studenti medicíny, kteří se na pitevním sále učí operovat, mohou zanést „otravu“ na porodní sál, a tím zvyšují úmrtnost.
Problém byl, že „teorie o infekcích a bakteriích“ nebyla v té době široce uznávanou. A nebyly k dispozici mikroskopy dostatečně silné na to, aby mohl Semmelweis ukázat kolegům infekci na vlastní oči. Místo toho musel sáhnout po datovém experimentu.
„Proto nařídil zdravotnickému personálu, aby si začal čistit ruce a nástroje nejen mýdlem, ale i roztokem chloru,“ popisuje Rebecca Davisová, vědecká novinářka NPR. „Chlor je, jak dnes víme, nejlepší dezinfekční prostředek, jaký existuje. Semmelweis ovšem nevěděl nic o bakteriích. Vybral si chlor, protože si myslel, že to bude nejlepší způsob, jak se zbavit jakéhokoli zápachu, který po těch malých kouscích mrtvých těl zůstává.“
Experiment měl okamžité a jasné výsledky. Úmrtnost výrazně poklesla. Na tento experiment z roku 1847 dnes vzpomínáme jako na přelomový okamžik v dějinách medicíny.
Bohužel ve své době Semmelweisovi slávu nevynesl, naopak. Řada doktorů si na Semmelweise stěžovala. Považovali za skandální, že je někdo nutí mýt si ruce. Semmelweisův příběh nekončí dobře. Byl propuštěn z nemocnice a skončil v ústavu pro duševně choré.
„Semmelweis byl v ústavu pravděpodobně zbit a nakonec zemřel zřejmě na sepsi, smrtelnou komplikaci infekce v krevním řečišti. V podstatě se jedná o podobnou nemoc, proti které tak usilovně bojoval,“ uzavírá Davisová.
Smutné, co? Vidíme, že věřit datům se vyplácí. Ale pokud vás data vedou proti obecně uznávané moudrosti odborníků, ne nutně najdete v okolí pochopení.
V plné verzi newsletteru TechMIX toho najdete ještě mnohem víc. Přihlaste se k odběru a budete ho dostávat každou středu přímo do své e-mailové schránky.