Hlavní obsah

Výsledek voleb oznámili za pár minut. „Věděli jsme, že je náš model přesný“

Foto: Marie Anna Mahdalová, Seznam Zprávy

Datová novinářka Seznam Zpráv Kateřina Mahdalová.

Datová novinářka Kateřina Mahdalová popisuje detaily predikčního modelu, s jehož pomocí s datovým analytikem Michalem Škopem spočítali výsledky 2. kola prezidentské volby už v době sečtení 0,6 % hlasů.

Článek

Řekni upřímně, byla jsi nervózní, jestli se vaše predikce, vyhlášená v okamžiku, kdy bylo sečtených pouhých 0,6 % hlasů, opravdu potvrdí, jestli jste někde neudělali chybu?

Upřímně - nebyla. Věděli jsme s Michalem Škopem, že model, na němž predikce stojí, je opravdu přesný. A vyzkoušeli jsme ho hodně poctivě: Nasimulovali jsme průběhy předchozích voleb z otevřených dat ČSÚ a predikce vycházela naprosto přesně - jak pro prezidentské volby 2018, tak pro sněmovní 2021. Pro zajímavost, kdybychom ji v této podobě nasadili v prezidentské volbě 2018, přesný výsledek duelu Zeman–Drahoš bychom také věděli během pár minut. Výsledek tehdejších kandidátů byl velmi těsný a lišil se jen o necelé tři procentní body, takže by predikce byla jen o pár minut napínavější než letos.

Druhé kolo 2023 bylo relativně snadné, volební zisky se ve finále lišily o 16 procentních bodů a vítěze šlo určit v podstatě od začátku sčítání. Jediné, na čem to mohlo ztroskotat, bylo online načítání dat ze statistického úřadu. Ale i to jsme měli zajištěné ze dvou zdrojů, kdyby jeden vypadl.

Predikce výsledků druhého kola nebyla vaše první. Které byly ty předešlé?

Výpočet předpovědi jsme měli nejpřesnější a nejrychlejší už v prvním kole prezidentské volby. Poprvé jsme ji nasadili při komunálních volbách 2022 - pro patnáct největších českých měst. Model zafungoval naprosto výborně, znali jsme složení městských zastupitelstev o mnoho hodin dřív, než byly sečteny oficiální výsledky. Věděli jsme například o tři hodiny dřív, než to bylo jasné ze sčítání hlasů, že na pražském magistrátu zasednou také tři zastupitelé za uskupení SPD, Trikolora a PES.

Stačí tedy tak malý vzorek ke spočítání spolehlivé predikce i ve volbách, kterých se účastní více než dva subjekty, nebo u nich je potřeba přece jen počkat na větší počet sečtených hlasů? Tedy například parlamentní volby?

Záleží, na co se ptáme. Dá se to ukázat na příkladu minulých voleb, kdy jedna z otázek zněla, jestli koalice Spolu a Piráti plus STAN dají dohromady „stojedničku“ ve Sněmovně. Když jsme model testovali, použili jsme k tomu právě i open data ze sněmovních voleb a změřili, v kolik hodin bychom věděli, kdo bude mít šanci sestavit vládní koalici.

Zhruba půl hodiny po uzavření volebních místností jsme z predikce věděli, že se Piráti oproti průzkumům výrazně propadnou a že voliči naopak výrazně podpořili koalici Spolu. Kolem 15. hodiny (1,25 % sečtených hlasů) jsme věděli, že se do Sněmovny nedostanou komunisté. V 15:30 hodin (sečteno necelých 15 % hlasů) už model spočítal, že se do Sněmovny nedostanou Přísaha a v 15:50 ani ČSSD a že logicky obě koalice budou mít pohodlně přes sto hlasů. O chvíli později predikce zpřesnila, že budou mít kolem výsledných 108 křesel.

Můžeš se pokusit vysvětlit i nám laikům, jak je možné z tak malého počtu hlasů spočítat s konečnou jistotou výsledek? Co všechno k tomu musíte vědět?

Je nutné znát chování voličů v předešlých volbách, ovšem až na úroveň čtrnácti tisíc okrsků. Predikčních modelů je víc, některé pracují s každým jednotlivým okrskem, některé zase okrsky slučují do takzvaných clusterů. Predikce je vypočtena jako vážený průměr již sečtených hlasů a váhy jsou zvoleny tak, aby vyrovnávaly výsledky i za doposud nesečtené okrsky. Jinými slovy výsledky v okrscích, které ještě nejsou sečteny, se modelují podle těch, které už sečteny jsou, a přihlíží se mimo jiné k tomu, jak spolu výsledky v jednotlivých okrscích a obcích korelovaly v předešlých volbách.

Českou republiku čekají další volby nejspíš až za rok a půl. Budete během té doby na vašem systému pracovat, nebo už predikce nelze více zpřesnit nebo zrychlit?

Samozřejmě se učíme pořád, zlepšují se technologie, zrychluje se spojení. Co se týče modelu samotného, ten v principu vychází z výsledků prvních sečtených okrsků. Když jich je velmi málo, musíme počkat na další várku dat, kterou uvolní statistický úřad. V jednom případě se stalo, že první dávka dat obsahovala pouze dva sečtené okrsky, a z toho kvalitní predikci nejde vytvořit. To je ale věc náhody, jak zrovna postupuje sčítání a kolik okrsků se vejde do prvních várek dat.

Po uzavření volebních místností členové a členky volebních komisí otevírají urny s hlasy a začínají sčítat. U prezidentské volby je to relativně snadné: Celá republika je jeden volební obvod, v prvním kole bylo osm kandidátů a ve druhém už logicky pouze dva. Hlasy jsou pak - zvláště v menších okrscích - sečteny rychle. U sněmovních nebo komunálních voleb je to složitější a náročnější na čas. Jenom v posledních komunálních volbách kandidovaly stovky politických subjektů.

Související témata:

Doporučované