Hlavní obsah

Předvolební průzkumy zase „selhaly“. Tentokrát je to chyba těch, kdo je četli

Pavel Kasík
vědecký redaktor SZ
Foto: koláž: Pavel Kasík, Seznam Zprávy, AI vizualizace

Průzkumy se letos shodovaly, že půjde o vyrovnané volby, realita však vypadala jinak.

Predikce ani tentokrát nedokázaly podchytit voliče Donalda Trumpa. Navzdory tomu, že šlo o jeho třetí volby, zůstali republikánští voliči v průzkumech mírně podcenění.

Článek

Analýzu si také můžete poslechnout v audioverzi.

Předvolební americké průzkumy předpovídaly tentokrát všechny prakticky to samé: Bude to těsné. Výzkumy predikovaly šanci na vítězství oběma kandidátům těsně kolem 50 %.

Pohled na červenou mapu USA ale vůbec těsně nevypadá. Republikánský kandidát Donald Trump vyhrál prezidenturu, Republikánská strana získala většinu v Senátu a má nakročeno i k ovládnutí Sněmovny. A přestože ještě nejsou spočítané všechny hlasy, zdá se, že znovuzvolený Trump má nakročeno k vítězství i co do celkového počtu hlasů. Proč i tentokrát (již potřetí v řadě) předvolební průzkumy  – minimálně v očích veřejnosti – selhaly?

Nepochopení pravděpodobností

Začneme oklikou a připomeneme si, že americká volba prezidenta funguje poněkud netradičně. Hlasy se nesčítají napříč celými Spojenými státy, namísto toho každý stát sečte hlasy svých obyvatel a pak vysílá „volitele“, kteří teprve hlasují pro prezidenta. Každý stát si může vytvořit vlastní pravidla, ale zdaleka nejčastější je „vítěz bere vše“. Tak je tomu i ve všech klíčových státech, což jsou ty, kde nebylo dopředu „jasné“, kterým směrem budou hlasovat. Výsledkem je paradoxní situace, kdy o výsledcích rozhoduje sedm států z padesáti.

V těchto sedmi státech jsou hlasy tradičně velmi vyrovnané. Kdyby třeba jen půl procenta lidí volilo jinak, celý stát připadne druhému kandidátovi. Protože volitelé se nerozdělují poměrně, malé rozdíly mají ohromně velké důsledky. Proto tedy specializované weby – třeba slavný 538  – pracují se simulacemi. Vezmou zprůměrované předvolební průzkumy a vytvoří tisíce fiktivních scénářů s různými náhodnými odchylkami pro každý stát.

Vyzkoušet si to můžete i v naší zjednodušené interaktivní kalkulačce. Dokládá, jak citlivé jsou odhady vítězství republikánů/demokratů, byť i jen na malé změny v preferencích:

Jen proto, že byla predikce „padesát na padesát“, neznamenalo to, že předpovídá těsné výsledky. Pohled na graf simulací naopak ukazuje, že Trumpovo vítězství o desítky volitelů bylo poměrně pravděpodobné.

Foto: fivethirtyeight.com

Takto vypadala predikce 538 v den voleb 2024. Polovinu simulací vyhrál Trump, polovinu Harris.

Tím narážíme na jeden z nejčastějších omylů týkající se predikcí. Když v roce 2016 simulace předpovídaly 85% šanci na vítězství Hillary Clintonové, neznamenalo to, že predikují, že dostane 85 % hlasů. Letos se to projevilo tím, že lidé po přečtení předpovědí „půl na půl“ předpokládali, že se očekává výsledek někde kolem 270 : 268 volitelů.

To ale nebylo příliš pravděpodobné. Pokud by se průzkumy mýlily systematicky (ať jedním, nebo druhým směrem), bylo předem jasné, že ve hře jsou „drtivé porážky“ obou kandidátů.

Těsná predikce nevěští těsný výsledek

Ohromný rozdíl mezi výsledkem demokratické kandidátky Kamaly Harrisové a republikánského vyzyvatele Donalda Trumpa po přepočítání na volitele je na první pohled překvapivý. Predikce přece mluvila o neuvěřitelně těsném výsledku, dokonce nejtěsnějším možném: 270 proti 268.

Foto: fivethirtyeight.com

Predikce přepočítaná na sbor volitelů (Electoral college).

To je ale opět důsledek toho, jak je informace prezentována. Na obrázku vidíme interval rozptylu, který je u obou kandidátů obrovský. V podstatě má šířku všech volitelů oněch sedmi klíčových států.

Ostatně - komentátoři už předem upozorňovali: „Jen proto, že je predikce těsná, neznamená to, že bude těsný i výsledek.“

Čísla v podstatě umožňovala oběma táborům přimhouřit oči a představovat si drtivé vítězství. Tím či oním směrem.

Parta jednookých vede slepého

To jsme probrali dvě častá nedorozumění ohledně průzkumů. Je čas podívat se na problémy specifické pro letošní rok.

Jedním z těch nejzajímavějších je „stádní chování průzkumů“.

Agregárory jako 538 (a řada dalších, nicméně 538 se proslavil jako první) obvykle nedělají své vlastní průzkumy. Místo toho katalogizují stovky průzkumů, které dělají lokální i národní firmy po celých USA. Těmto průzkumům pak dávají různé váhy nebo korekce podle předchozích výsledků či známých zkreslení.

Foto: fivethirtyeight.com

Jen v posledních dnech před volbami evidovala stránka fivethirtyeight.com přes stovku nových průzkumů. U každého uvádějí metodiku, zdroj i výsledky.

Zprůměrováním více různých pohledů na věc lze získat přesnější celkový obrázek. A zprůměrováním průzkumů vznikne lepší predikce. Je to celkem známý fenomén někdy nazývaný „moudrost davu“.

Jenže tato „moudrost“ se objeví jen tehdy, když jsou na sobě průzkumy nezávislé. To ovšem už dlouho neplatí. Firmy, které průzkumy dělají, totiž také sledují výsledky ostatních. Zvláště u tak prestižní věci, o které se bude zaručeně psát, prestižní výzkumné firmy nechtějí riskovat, že zrovna jejich šetření pak bude někde viset jako ukázka nesmyslných čísel. A tak je mnohem bezpečnější vydat čísla, která více méně odpovídají tomu, co publikují ostatní.

„V naší databázi máme 249 průzkumů z klíčových států,“ napsal krátce před volbami Nate Silver, slavný předvolební analytik. „Víte, kolik z těchto výzkumů ukázalo remízu? Celých 193 z nich. To je mnohem více, než kolik by to mělo být, i kdyby to skutečně byla remíza.“

Autoři průzkumů přitom nemusejí přímo lhát. Stačí, když při přípravě průzkumu „ohnou“ nabrané výsledky.

Jak ovlivnit výsledek průzkumu

Každý průzkum má několik výrobních kroků a v každém kroku musejí výzkumníci dělat rozhodnutí, která mají vliv na celkový výsledek.

  1. Výběr metody – na telefonické šetření odpovídají jiní lidé než na internetový výzkum nebo výzkum na ulici. Kombinací těchto metod lze zpřesnit výsledek. Ale také lze namícháním těchto metod ohnout směr zkreslení.
  2. Odmítnutí – jak započítat lidi, kteří odmítli na průzkum reagovat? Je možné to jen zaznamenat a volat dalším, nebo s touto informací pracovat.
  3. Typ dotazu – jednoduchou otázku „koho budete volit” lze položit desítkami různých způsobů. I taková maličkost má vliv na výsledek. Někdy záleží i na pořadí otázek nebo na tom, zda je výzkum dlouhý či krátký.
  4. Filtrace pravděpodobných voličů – některé průzkumy se ptají na preferenci všech lidí. Jiné jen těch, kteří uvedli, že nejspíš půjdou volit. Opět něco, co může způsobit odchylku v řádu procent.
  5. Váhy a zkreslení – protože se obvykle nepodaří oslovit vzorek přesně odpovídající složení populace, statistika nabízí trik v podobě „dovážení” výsledků. Tady je velký prostor pro intuici, což je vždy trochu nebezpečné. Na základě čeho budeme vážit, co je v tomto případě důležité. Tradičně se sleduje vzdělání, gender, místo bydliště, věk, v USA tradičně i etnický původ nebo náboženské vyznání. Ale jak to přesně namíchat, to je často otázka bez jasné odpovědi.

Pokud od sebe autoři průzkumů skutečně takto opisovali, dostali se přirozeně do pozice uprostřed. A agregátory, které z těchto průzkumů vycházejí, je do středu musely následovat.

Průměrování, které dříve zvyšovalo přesnost, tak paradoxně mohlo vést k celkovému otupení přesnosti všech zúčastněných.

Každý si našel, co potřeboval slyšet

Problém se stádním chováním ale neměli jen průzkumníci. Týkalo se to prakticky všech zúčastněných. Od novinářů přes čtenáře až po samotné politiky. Průzkumy totiž dávno nejsou nějakou neutrální akademickou záležitostí. Každá mapa nebo graf se může stát prostředkem kampaně. Ať už v pozitivním smyslu („Podívejte se, vítězství máme na dosah!“), nebo v negativním („Pozor, válcují nás, musíte přijít a volit za každou cenu!“).

Každý si pak mohl vybrat, jaké průzkumy číst a jak je interpretovat.

Víme, že ve volbách 2016 i 2020 průzkumníci podcenili Trumpovy voliče. Ale co z toho vyvodit pro tyto volby? Mohlo to znamenat, že letos už si dají pozor? Nebo naopak že lze opět očekávat podcenění Trumpových výsledků?

„Není důvod si myslet, že výzkumníci opravili problémy z roku 2020,“ varoval před volbami Nate Cohn, analytik New York Times.

Připomněl třeba slavný průzkum Ann Seltzerové, který předpovídal vítězství Harrisové v tradičně republikánské Iowě. Pro řadu demokratů znamenal tento průzkum – vymykající se ostatním výsledkům z tohoto státu – velkou naději. Rozhodli se interpretovat to tak, že všichni ostatní se mýlí a ohýbají výsledky směrem na střed, jen Seltzerová je dostatečně známá a může si dovolit napsat, jak to je. Další tento lokální výzkum dokonce interpretovali jako ukazatel nějakého většího trendu.

Skutečné volby ale ukázaly, že Iowa je s přehledem Trumpova, získal zde skoro 56 % hlasů.

Pokud někdo na základě průzkumů získal pocit, že předem ví, jak volby dopadnou, může si za následné překvapení sám. Ještě víc než kdy dřív se totiž letos všichni profesionální analytici dušovali: Já neříkám tak ani onak, ale na má slova dojde.

Proto se ostatně k výběru prezidentů nepoužívají průzkumy, ale volby.

Čtěte analýzy Seznam Zpráv

Doporučované