Článek
Postavit a spravovat jakýkoliv analytický systém, do kterého jsou pořizována data manuálními vstupy mnoha lidí, není podle Novotného vůbec jednoduchá věc. Budou se podle něj hlavně na začátku jeho zavádění objevovat chyby v datech. „Tak to prostě je a musí se s tím vždy počítat a mít připraveny zdroje a postupy na odstraňování chyb v datech a hlavně o tom konzistentně dávat vědět všem uživatelům výstupů systému. Data se jim bez nějakého varování nesmí měnit pod rukama, aniž by věděli proč,“ říká odborník.
Podle Novotného je jednou z podmínek kvality analytického systému i komunikace s uživateli. Ta musí také rychle reagovat na chyby a spolehlivě vysvětlit, kde se chyba stala a jak byla opravena. „Pokud tohle není, tak uživatelé přestanou okamžitě datům důvěřovat,“ obává se docent.
Změny v datech nákazy koronavirem v České republice byly na konci července provedeny v rámci předem avizovaného auditu. Se zpětnou platností se po přepočtu zvýšil počet vyléčených, který způsobil, že zároveň v čase až do dubna kleslo číslo aktuálně nakažených.
Po auditu proběhla ještě změna v počtu hospitalizovaných, kdy zdravotní statistici změnili způsob, jak nahlížejí na člověka hospitalizovaného s koronavirem. Číslo se tak snížilo zhruba o třetinu. Podle statistiků se při předchozím auditu ukázalo, že desítky z hospitalizovaných jsou nadále vedeni jako nakažení covid-19, přestože už tuto nemoc překonali a v nemocnici zůstávají kvůli jiným chorobám.
Mezi menší změny, které ale probíhaly v datech i po auditu, patří úbytek tří mrtvých 4. srpna, změny v datech, ke kterým byly oběti přiřazeny, a také počet hospitalizovaných je podroben častým revizím s několikadenní zpětnou platností. Když například ubylo hospitalizovaných v těžkém stavu, Ministerstvo zdravotnictví to pro Seznam Zprávy okomentovalo tak, že se stav pacientů zlepšil a nemuseli již být připojení na plicní ventilaci.
Zásahy do vydaných statistik pak nejsou podle Novotného neobvyklé. „Stává se, že až po publikaci se zjistí nějaká anomálie ve vstupních datech, někdo něco špatně vyplní nebo zaúčtuje. Potom je třeba vydat opravenou statistiku s komentářem (ve chvíli, kdy se jedná o zpracované výstupy) nebo opravit datovou sadu (ideálně nějakým korekčním komentovaným záznamem), pokud se jedná o otevřená data,“ říká a dodává, že mu reakce ministerstva přijde alibistická. „Podle mne se prostě chyby na vstupech dat stávají a není problém o nich pohovořit a ukázat, jak byly opraveny. To nakonec i zvýší důvěru v celý systém. V této chvíli už je vidět opravdu malý zárodek na stránce Ministerstva zdravotnictví. Bude to ale samozřejmě chtít ještě dost práce.“
Epidemiologická data i podle symptomů
Ředitel Ústavu zdravotnických informací a statistiky Jaroslav Dušek se před poslanci zdravotního výboru v dubnu vyslovil proti zpřístupnění dat. „Já ta data nikdy v životě nemůžu otevřít,“ řekl statistik.
V zahraničí ale jsou hned na první pohled podstatně komplexnější datové sady veřejnosti k dispozici, například v Hongkongu. Místní statistici uvádí nakažené na mapě až podle ulice. Hongkong má ale také podstatně hustší zalidnění. Se svými 6,3 tisíci lidmi na kilometr čtvereční je jednou z nejhustěji zalidněných oblastí na planetě. Po rozkliknutí jednotlivých případů je možné zjistit pohlaví, věk, datum potvrzení, symptomy, spojení s místním případem nebo nakažení v zahraničí, hospitalizaci a další detaily. Mimo jiné se ve statistikách objevuje i například čekací doba odběrových míst. Podle vyjádření ředitele ÚZIS Duška epidemiologická data na podobné úrovni existují i v ČR, jen nejsou veřejnosti k dispozici.
Docent Novotný vidí situaci jinak. „Osobně nevidím důvod, proč by si měl jakýkoliv úřad brát právo na to schraňovat a interpretovat takto důležitá data veřejnosti a jsem zastáncem jejich publikace v podobě, kterou si kdokoliv může načíst a zpracovávat pro svoje účely. Ta data jsou v principu naše a platíme si je ze svých daní,“ říká vedoucí katedry informačních technologií a zmiňuje i druhou stránku problematiky. „Vzhledem k tomu, že jde také o zdravotní záznamy, které jsou jedny z nejcitlivějších, je potřeba samozřejmě velmi dobře zvážit úroveň detailu, ve kterém budou prezentovány. Podle mého názoru by se dalo jít určitě do větší šíře, než ve které jsou nyní zveřejněné datové sady.“
Úroveň, do jaké data zveřejňuje Hongkong, si ale Novotný v České republice neumí představit. „Předpokládám, že by ale Úřad pro ochranu osobních údajů, který se na chytré karanténě také podílí, mohl tohle celkem rychle a jasně definovat. Potom už by podle mne nic nebránilo publikaci většiny věcí, které se v rámci tohoto projektu sbírají,“ zamýšlí se odborník.
Zpřístupnění rozsáhlé škály epidemiologických dat má ale pochopitelně svá pro i proti. „Benefity jsou v tom, že si kdokoliv může zpracovat statistické výstupy pro svoje účely v podobě, jakou potřebuje. Snížila by se i zátěž spojená s poskytováním informací ze strany relevantních úřadů. To je smysl otevřených dat. Nezávislý a třeba i inovativní pohled na data ‚z jiné strany‘ také může přinést zajímavé podněty na rozvoj chytré karantény jako celku a pomoci ji zlepšovat,“ říká Novotný a dostává se i k negativům, která může zpřístupnění dat přinést. Jako první riziko zmiňuje možnou chybnou interpretaci dat, ať už jde o omyl nebo záměr. „Případně na nich někdo může chtít nějak dále bezpracně vydělávat - na to už máme ale i v ČR zkušenosti z publikace dat z jiných částí veřejné správy a neměl by to být důvod k tomu se do toho nepustit,“ uzavírá.