Článek
„Ty děláš dataře v Seznamu? Takže koukáš, kolik lidí u vás vyhledává a co?“
Běžná otázka, která obvykle následuje poté, co odpovím na to, čím se živím. Ve skutečnosti jsem takzvaný datový novinář. Náplň mojí práce se dá zjednodušeně popsat jako interpretace více či méně složitých datových sad do článku tak, aby ideálně každý, kdo text čte, statistiku pochopil. Je to paradoxní, když vezmeme v potaz, že i svoje povolání jsem popisoval tak, že jsem to musel vzápětí dovysvětlit.
Na začátek by bylo asi fér přiznat, že známky napříč mými studii opravdu nenasvědčovaly tomu, že bych mohl dělat kombinaci statistiky a češtiny. Jak z matematiky, tak z rodného jazyka jsem totiž měl od základní školy na vysvědčení v lepším případě trojky. Proto jsem ani data neplánoval dělat. Pak jsem ale zjistil jednu skvělou věc. Čísla, pokud se s nimi pracuje poctivě, nelžou. Nemusím tolik řešit, jestli mi někdo věší pověstné bulíky na nos, jestli je výpověď snaha o konkurenční boj nebo jestli na věc nekoukám zkresleně.
Dobře udělaná statistika pomůže mně i čtenářům, abychom minimalizovali pravděpodobnost konfirmačního zkreslení. Celkem běžné chyby, která se pravděpodobně někdy v životě stala každému z nás, někteří lidé ji dělají schválně. Pěkné přirovnání má například server bezfaulu.net.
Konfirmační zkreslení
Zjednodušeně lze toto zkreslení popsat na příkladu, kdy bychom chtěli říct, že na naší pizze jsou olivy, a jako důkaz bychom úmyslně použili jediný kousek, na kterém je jedna oliva. Přestože na zbytku pizzy žádné olivy nejsou.
Data ale možné zkreslení pravděpodobně odhalí a můžeme se bavit o lepším odrazu reality, než bychom měli bez nich.
Ani u datařiny ale není možné fungovat na automatické úrovni. Bylo by skvělé, kdybych mohl říct, že jsem u svých výstupů nikdy neudělal chybu. Jenže by to byla prachsprostá lež. Špatné pochopení trendu, osa Y, která nezačíná od nuly, nebo míchání různých zdrojů do jednoho datasetu. To pak člověk může tak maximálně sklopit uši, posypat si hlavu popelem a chvíli chodit kanály. Samozřejmě to celé až poté, co chybu opraví a celému světu přizná, že ji udělal.
Stejně jsem na čísla nezanevřel. Jsem extrémně zvědavý člověk a stále objevuji nové věci, které mě zajímají. Mám to štěstí, že jsem placený za to, abych to zjistil, a pak to můžu předávat dál. Z nejlepších statistik vzniklé hypotézy pak konzultuji s odborníky.
Jedna věc mne ale nikdy nepřestane překvapovat. I když pracuji s tvrdými daty, na článku strávím vyšší hodiny, klidně i nižší desítky hodin, vždy se najde odborník, co tématu rozumí díky facebooku. Teda on si to myslí. A je mu jedno, že se hádá ne se mnou, ale s lidmi, kteří zasvětili celý svůj život studování dané problematiky.
Ukazuje, že barevnými grafy a statistikami nelze skrýt absenci zdravého rozumu. Pokud mate lokajské zadání rozeštvat skupiny lidí, pak sorry. Vedete si dobře. Vzhledem k úvodní části platí asi za „B“. Jen tak dál, možná budete i povýšen. Míchání hrušek s jablky nevyzní vždy přesvědčivě.
Ostatně není problém rozporovat ani základní matematické principy. Asi třikrát jsem psal o takzvaném Simpsonově paradoxu. Kolegové si na toto téma ze mě už dělají srandu. Ve zkratce – je to poměrně jednoduchá statistika, řeší jen to, že není dobré koukat na absolutní hodnoty, je třeba brát v potaz i velikosti srovnávaných skupin. Reakce? Jsem manipulátor, upravuju si matiku tak, aby dokázala „moji pravdu“. Mimochodem – nikdy přede mnou neříkejte, že někdo má vlastní pravdu. Nic takového neexistuje. Děkuji.
Dobrý den, to, jak jste napsal článek na „Seznam Zprávy “, je jenom hra statistických čísel, která se dají rozporovat. Je mnoho způsobů ve statistice, jak lze čísla zkreslit, a tím ovlivnit i celkový výstup čísel a dat. Pouze záleží, jak se počítají. Takže s tímto článkem absolutně nesouhlasím, ale to je můj názor. Bohužel lidi věří v to, co napíšou novináři.
Na druhou stranu jsou i čtenáři, kteří jsou svoji chybu ochotni uznat. Takové mám nejraději, nikdo nejsme dokonalý. A připustit si, že člověk vycházel z chybných údajů a přijmout nové, je vlastnost, které si extrémně cením.
Vážený pane Jůne, krom toho, že Vám děkuji za bleskovou odpověď, děkuji Vám rovněž za ponaučení, a to beze stopy ironie. Mea culpa, za blbce jsem opravdu jen já sám. To, jak jste mi pojem vysvětlil, má logiku. Navíc jsem se, na stará kolena, stal Vaším intelektuálním dlužníkem. Osvobodil jste mne od útrap, kterými jsem byl zmítán vždy, když jsem „procentní body“ uslyšel. Ani netušíte, jak se mi ulevilo 📷. Pochybnosti o tom, zdali dotyčný pojmu užívá ve správné souvislosti, už řešit nehodlám. Vážený pane Jůne, ještě jednou Vám děkuji.
I pro ty tak každý den s kolegy z oddělení vymýšlíme témata, která by nasytila jejich touhu pochopit co nejvíc ze světa a být otevřený tomu, že realita může být jiná, než předpokládali. A jak tato témata vymýšlíme? O tom zase jindy, ale někdy koukáme i na data, kolik lidí a co hledá na vyhledávači Seznamu.