Hlavní obsah

Házení mincí není spravedlivé, ukázal experiment s českou stopou

Foto: Shutterstock.com

Výzkum odhalil, že hozená mince s nepatrně vyšší pravděpodobností zůstane původní stranou vzhůru.

Ceny Ig Nobel poukazují na mnohdy zvláštní a vtipné, ale stále kvalitní a podnětné vědecké práce. Mezi letošními laureáty byl i český vědec František Bartoš, který se svými kolegy zkoumal zdánlivě banální aktivitu – házení mincí.

Článek

Čtete ukázku z newsletteru TechMIX, ve kterém Pavel Kasík a Matouš Lázňovský každou středu přinášejí hned několik komentářů a postřehů ze světa vědy a nových technologií. Pokud vás TechMIX zaujme, přihlaste se k jeho odběru!

František Bartoš vystudoval psychologii na filozofické fakultě v Praze a univerzitě v nizozemském Amsterodamu, kde nyní působí jako postgraduální student a věnuje se především statistice nebo odhalování nepřesností a zkreslení ve výzkumných a publikačních procesech.

Letošní porota „nevážných nobelovek“, tedy Ig Nobelových cen, si všimla jeho práce, pro kterou jsem nenašel lepší slovo než dnes tak nadužívaný termín „epická“. Spolu se spolupracovníky a spoluautory provedl, natočil a statisticky vyhodnotil 350 757 hodů mincí. A ověřil tím, že hod korunou není tak spravedlivý a fér, jak si většina z nás myslí.

V rozhovoru jsme kromě nečekaně složité rozhodovací aktivity probrali i potíže s replikovatelností experimentů a příčiny klesající veřejné důvěry ve vědu.

Předávání Ig Nobelových cen je hodně ztřeštěná událost. Jaký byl ceremoniál? Stálo to za letenky a čas? (Organizátoři nehradí výhercům cestovné ani ubytování, pozn. red.)

Ceremoniál je celkem zvláštní event. Některé části se mi osobně líbily více, některé méně. Například muzikálová vystoupení jsem příliš neocenil, ale představení výzkumů a panelová diskuze, která se uskutečnila v neděli, byly velmi zajímavé.

Asi nejlepším zážitkem bylo, když jsem si ještě v zákulisí nechal podepsat moji maketu mince (kterou jsem použil pro ilustraci) od skutečných nobelistů, kteří nám později předávali Ig Nobelovy ceny.

Jak vás napadlo testovat mince? Byl v tom nějaký konkrétní moment inspirace?

Spolu s vedoucím mého doktorátu učíme bayesovskou statistiku pro magisterské studenty psychologie na univerzitě v Amsterodamu. Hod mincí je typický příklad, který používáme pro ilustraci – jsou pouze dva možné výsledky a všichni mají intuitivní porozumění, o co se jedná.

Před několika lety, když jsem ještě byl magisterským studentem, se můj vedoucí dozvěděl o hypotéze, že mince by mohla mít tendenci padat na stejnou stranu (studie v PDF). Autoři vytvořili fyzikální model lidského hodu mincí a pomocí vysokorychlostní kamery předpověděli, že bude zhruba o procento více pádů na jednu stranu. Nikdy ale teorii pořádně neotestovali praktickým pokusem, protože nepředpokládali, že by byl někdo ochotný hodit mincí více než 250tisíckrát.

Foto: FB František Bartoš

František Bartoš je postgraduálním studentem na univerzitě v Amsterodamu.

Proč by to tak mělo být?

Podle teorie je tento jev důsledkem slabého „kolébání“ mince daného nedokonalostí lidského hodu. Pokud by mince házel stroj, tak by letěla vzhůru a rotovala kolem horizontální osy. Lidský hod ale způsobí lehkou rotaci i kolem vertikální osy a mince se také více „rozklepou“, takže zůstanou během letu delší dobu původní stranou vzhůru.

Byla to pro nás nesmírně zajímavá hypotéza, jelikož jde proti intuici a hod mincí je zároveň obecně známý proces a každý si myslí, že mu rozumí. Od té doby se můj vedoucí pokoušel přesvědčit studenty, aby data nasbírali. Sám jsem se o to chtěl pokusit již pár let zpět, ale nepodařilo se mi přesvědčit dostatek spolužáků, aby se ke sběru dat přidali. To se změnilo pouze dva roky zpět, když jsem vedl bakalářské práce a zároveň se mi podařilo přesvědčit kolegy.

Jak těžké bylo zorganizovat a analyzovat přes 300 tisíc hodů mincí? A jak jste zajistili přesnost při tak velkém objemu dat?

Největší překážkou je asi získat dobrovolníky – a to je i důvod, proč pokus nikdo neuskutečnil dříve. Experiment jsme prováděli ve volném čase, nechtěl jsem na něj využívat veřejné prostředky. Přesvědčování a motivování kolegů a přátel tedy nebyly nejjednodušší.

Nakonec jsme všechny účastníky, kteří buď hodili mincí alespoň 10 tisíc pokusů, nebo se zúčastnili jednoho „házecího maratonu“ (udělali jsme několik takových sešlostí, kde jsme házeli mincí po celý den od devíti do 18 hodin), zahrnuli mezi spoluautory článku. Samozřejmě jsme měli obavy, aby všichni poskytli skutečná data – proto všichni museli natočit hody mincí na video. Později jsme vylosovali několik videí od každého autora a zkontrolovali jsme, zda mincí skutečně hodili a nahlásili správné výsledky.

V čem vy sám vidíte hlavní přínos této konkrétní práce?

Hlavní přínos je utěšení zvědavosti, jestli tato hypotéza byla vskutku pravdivá. Pro veřejnost asi přímý přínos nemá krom toho, že se mohou nad tímto faktem o mincích pobavit a popřípadě získat přibližně jednoprocentní výhodu, pokud použijí hod mincí k rozhodnutí sázky.

Zároveň navrhujeme, aby se ve vážných situacích, které se rozhodují hodem mince, skrývala počáteční strana mince. Jelikož pravděpodobnost dopadu na stejnou stranu je o něco málo větší, vybrání počáteční strany přináší malou, ale nefér výhodu. Pokud počáteční stranu zakryjete a necháte druhého člověka vybrat, tak výhoda zmizí.

Studie také ukázala výrazné rozdíly mezi jednotlivci. Jednoduše řečeno, některým padala jedna strana častěji. Čím je to podle vás dáno?

Nejspíše se liší, jak lidé hází. Pokud má někdo nevědomou tendenci dát minci při hodu trochu více rotace i v jiném směru, tedy když se mu ve vzduchu více „klepe“, tak to pravděpodobně výsledky jeho hodů ovlivní.

Když už jsme nakousli otázku, jak udělat velký pokus takovým způsobem, aby se na výsledky dalo spolehnout, rád bych se zeptal na problém, který poslední dobou řeší psychologie – replikační krizi. Jednoduše bychom ho mohli popsat tak, že se v oboru příliš často objevovaly experimenty, které nikdo nedokázal napodobit, a tedy ověřit. Co by o replikační krizi měl vědět laik? Mělo by to být téma veřejných debat, nebo stačí „vnitrooborová“ diskuze?

Stojí za to dodat, že nejde jen o problém psychologie, ale i ostatních věd jako biologie, medicíny či ekonomie. Je to zajímavá otázka, hlavně vzhledem k často zmiňované tendenci snižující se veřejné důvěry ve vědu (alespoň v USA). Osobně si myslím, že by debata měla být veřejná, jelikož věda se zabývá otázkami, které jsou důležité a přínosné pro celou společnost. A celá společnost také financuje vědecký výzkum z daní, takže má nárok vědět, co za své prostředky dostává.

Takže věda by měla dbát na reputaci…

Schovávání těchto problémů pod pokličkou ve výsledku nikomu nepomůže a oddálí potřebné reformy a řešení. Na druhou stranu je důležité si uvědomit, že přes všechny tyto problémy je právě věda a výzkum to, co nám pomohlo vyřešit hromadu lidských problémů. Díky vědě máme léčiva, počítače a další věci, bez kterých si většina dnešních lidí neumí život představit.

Nejen mě zaujala vaše často citovaná práce z roku 2022, ve které z tohoto pohledu kritizujete jednu relativní novinku, totiž takzvaný „šťouch“ (nudging). Na první pohled je to velmi elegantní a svůdně jednoduchá myšlenka, že leckdy lze jen malou změnou podmínek výrazně změnit lidské chování. Vy ovšem toto jednoduché řešení nabouráváte. I když vám bych to neměl moc vyčítat, protože rozhodně nejste sám…

Na svou „obranu“ musím říct, že jsme článek napsali víceméně náhodou. O replikační krizi jsem se začal zajímat díky přednáškám Marka Vranky na filozofické fakultě, který mě učil statistiku, a díky zájmu o to, jak ve vědě napravovat různá zkreslení.

Jednou během víkendu jsme s kamarádem procházeli Twitter a viděli jsme původní článek. Zaujal nás v něm graf, který byl indikativní pro publikační zkreslení – tak jsme našli přiložená data a použili naše metody pro nápravu odhadů a napsali tento komentář. Jeho hlavní myšlenkou je, že dříve obecně uznávané výsledky „nudging“ studií nejsou tak spolehlivé, jak jsme si dříve mysleli.

Nemůžeme říct, že „šťouchy“ vůbec nefungují; některé prvky jsou spolehlivé, třeba to, že výběr nějaké možnosti lze v řadě případů velmi jednoduše ovlivnit tím, že předem nějakou možnost všem vyberete. Pak se dá odhadnout, že většina lidí nejspíše jinou nezvolí. Ale jinak je dnes literatura o téhle problematice tak plná zkreslených výsledků, že všechny výsledky nelze brát plně seriózně.

Můžeme to vysvětlit na nějakých konkrétnějších příkladech zkreslení?

Známým příkladem je publikační zkreslení. Pozitivní a statisticky „silné“ výsledky se publikují častěji než statisticky nesignifikantní výsledky. Pokud se tedy podíváte na publikovanou literaturu, můžete nabýt dojmu, že daný jev existuje a byl potvrzen v několika studiích. Ve skutečnosti však může existovat mnohem větší množství studií, které ukazují, že nic takového neexistuje – jen je nikdo nevydal. Pokud bychom tyto potlačené studie vzali v potaz, tak bychom mohli dojít k jinému závěru, například že daný jev neexistuje.

Toto zkreslení obecně není důsledkem vědců samotných – jejich cílem je publikovat své studie –, ale vědeckých časopisů a editorů, kteří selektují nové, pozitivní a zajímavé výsledky.

Myslíte, že jsme na správné cestě k vyřešení či alespoň omezení problému s nespolehlivými výsledky?

Posledních deset let přineslo hromadu reforem, které postupně řeší předchozí problémy: Vědci častěji veřejně sdílejí svoje data a kód pro analýzy. Hypotézy jsou předspecifikované a veřejně reportované, což zabrání dodatečnému zkreslení – tedy tomu, aby se autoři jednoduše řečeno zpětně mohli tvářit, že přesně tohle si mysleli od začátku.

Vědci používají robustnější analýzy, které jsou méně náchylné k tomu, aby jim dávaly falešně pozitivní výsledky. Aby to tedy méně často vypadalo, že jim vyšlo, co mělo, i když to tak vlastně při podrobném pohledu není. A některé časopisy přijímají články ke zveřejnění před sběrem dat, což předchází publikačnímu zkreslení. To je další typ kontroly, která snižuje riziko, že někdo bude „mučit“ data tak, aby mu vyšlo, co by si přál, byť třeba podvědomě. Změny se však neprojeví ihned, to nějaký čas potrvá.

Za mě je tedy současná situace dokladem toho, že věda je schopna sama sebe kritizovat a zlepšovat své metody – a to je pravděpodobně nejlepší znamení toho, že funguje tak, jak má.

V plné verzi newsletteru TechMIX toho najdete ještě mnohem víc. Přihlaste se k odběru a budete ho dostávat každou středu přímo do své e-mailové schránky.

Doporučované