Mit Unsicherheiten in der Statistik müssen wir umgehen lernen

Wir wünschen uns Sicherheit in unsicheren Zeiten. Die Statistik kann uns diese jedoch nicht immer bieten. Tanja Stadler erklärt anhand der von ihr für die Schweiz berechneten Schätzung des R-Werts, warum wir auch die statistische Unschärfe berücksichtigen müssen.

Tanja Stadler

Steigen die Covid-Infektionszahlen derzeit in der Schweiz exponentiell an oder fallen sie? Und wie schnell verbreiten sich die neuen Virusvarianten im Vergleich zu den alten? Mit statistischen Auswertungen von Daten versuchen wir, diese Fragen zu beantworten. Noch so gerne würden wir Wissenschaftlerinnen und Wissenschaftler sehr klare und eindeutige Antworten liefern. Manchmal ist das möglich, doch längst nicht immer. Denn wenn es um unser Leben in der realen Welt und um Krankheiten geht, läuft praktisch nichts genau getaktet.

Welchen Lebensbereich wir uns auch anschauen, wir haben es stets mit Fluktuationen und Variationen zu tun. Unsere Fahrt zur Arbeit dauert nicht immer genau gleich lang, und trotzdem können wir die Fahrzeit ungefähr veranschlagen. Oder ein 7-jähriger Knabe sollte gemäss Tabelle 1,25 Meter gross sein. Jeder andere Wert zwischen 1,15 und 1,35 Meter liegt aber auch völlig im Rahmen.

«Ein einzelner Schätzer reicht nicht aus, um ein vollständiges Bild der epidemiologischen Situation zu haben.»Tanja Stadler

Die Pandemie ist da keine Ausnahme. Wenn eine mit Sars-CoV-2 infizierte Person im Schnitt eine weitere Person ansteckt, heisst das, das in der Realität einige Infizierte mehrere weitere Personen anstecken, andere aber gar keine. Ein weiteres Beispiel ist die Inkubationszeit – die Zeit, die von der Ansteckung mit dem Virus bis zum Ausbruch der ersten Symptome vergeht. Im Schnitt beträgt diese fünf Tage. In der Realität mögen das bei manchen Patienten drei Tage sein, bei anderen sieben oder acht. Oder die Zahl der Neuansteckungen, welche eine der Hauptgrundlagen unserer Auswertungen sind – auch sie fluktuieren von Tag zu Tag.

Statistische Schätzungen haben immer ein Unsicherheitsintervall. (Bild: ETH Zürich)
Statistische Schätzungen haben immer ein Unsicherheitsintervall. (Bild: ETH Zürich)

Das Unsicherheitsintervall ist zentral

In meiner Gruppe berechnen wir Schätzungen zum R-Wert der Corona-Pandemie1. Ist dieser Wert grösser als 1, verbreitet sich der Erreger in einer Bevölkerung exponentiell. Unsere Schätzungen berücksichtigen die vorher genannten sowie weitere Fluktuationen. Eine Folge davon ist allerdings, dass unsere Schätzungen nie einen präzisen Wert liefen, sondern immer einen Schätzbereich.

Wir können zum Beispiel sagen, dass der geschätzte R-Wert für die Schweiz derzeit zwischen 0,96 und 1,21 liegt. Diese Aussage ist statistisch belastbar. Den entsprechenden Bereich nennen wir das Unsicherheitsintervall.  Zusätzlich kommunizieren wir einen Wert, der in der Mitte dieses Intervalls liegt. Er ist die beste Schätzung für einen Einzelwert – wir nennen das den Punktschätzer. Der Punkschätzer darf aber nicht überinterpretiert werden.

«Gesicherte» Aussage und Trends

Liegt das Unsicherheitsintervall beim R-Wert nicht vollständig unter 1 oder über 1, können wir die Daten zwar interpretieren, wir können über eine Tendenz sprechen. Wir können aber nicht mit statistischer Signifikanz sagen, ob wir uns in einer Phase des exponentiellen Wachstums befinden. Dies bedeutet, dass wir keine «gesicherte» Aussage machen können.

Fluktuationen sind prägnanter, je weniger Daten wir analysieren. Denn bei einer sehr grossen Datenmenge gleichen sich die existierenden Fluktuationen wieder aus. Je weniger Daten wir analysieren können, desto grösser wird daher der Unsicherheitsbereich. Das sehen wir beispielsweise an den Daten aus kleinen Kantonen. In diesen Kantonen kommen zu wenig Daten zusammen, als dass man damit statistisch erhärtete Aussagen treffen könnte. Die Unsicherheitsintervalle bei unseren Analysen für kleinere Kantonen sind sehr gross.

Unsicherheitsintervalle
In kleineren Kantonen (links Nidwalden) ist das Unsicherheitsintervall sehr viel grösser als in grösseren Kantonen (rechts Zürich). (Quelle: https://tb.ethz.ch/plot.html)

Ich halte es deshalb für zielführender, auf die sieben Wirtschaftsräume (Grossregionen) zu fokussieren. Die Menschen bewegen sich stark innerhalb dieser Regionen. Wenn wir uns diese Regionen anschauen, erkennen wir Trends. Derzeit liegt nämlich der Punktschätzer für R in allen sieben Schweizer Grossregionen über 1. Selbst wenn wir keine abschliessende Aussage zum geschätzten R-Wert machen können, können wir diese Daten dennoch interpretieren. Die Punktschätzer in allen Regionen liefern einen starken Hinweis darauf, dass wir derzeit – leider – in der Schweiz in einem Bereich exponentiellen Wachstums liegen.

Daten zu Grossregionen
In allen sieben Schweizer Grossregionen liegt die jüngste Punktschätzung (Stern) über 1. (Quelle: https://ibz-​shiny.ethz.ch/covid-​19-re-international/)

Schätzung des R-Werts alleine reicht nicht

Die Schätzung des R-Wertes kann Hinweise darauf geben, in welche Richtung sich die Pandemie entwickeln könnte. Aber wir müssen dafür immer auch den Unsicherheitsbereich berücksichtigen und die Daten vorsichtig interpretieren. Die Schätzung des R-Werts sollten wir zudem immer mit weiteren Kenngrössen der Pandemie abgleichen, denn ein einzelner Schätzer reicht nicht aus, um ein vollständiges Bild der epidemiologischen Situation zu haben.

Wir alle hätten gerne Sicherheit in diesen unsicheren Zeiten. Die Statistik kann uns die jedoch nicht immer bieten. Es gibt keine Möglichkeit, diese Unsicherheit wegzuzaubern. Sie ist eine direkte Folge davon, dass wir es mit Vorgängen in der realen Welt zu tun haben. Wir müssen die Unsicherheit also akzeptieren und als Gesellschaft einen Weg finden damit umzugehen. In unserem Team verfolgen wir das Ziel, basierend auf den verfügbaren Daten Dynamiken zu erkennen, mögliche Szenarien aufzuzeigen und diese mit Wahrscheinlichkeiten zu beziffern. Wie wir gemeinsam darauf reagieren, ist dann ein Entscheid von Politik und Gesellschaft.

Ergänzung vom 15.03.2021: 
Die Schätzung für den R-Wert der Schweiz wird laufend aktualisiert. Zurzeit erstreckt sich der Schätzbereich von 1,00 bis 1,26.

Kommentare

Kommentar schreiben

Kommentar schreiben

Wir freuen uns, wenn Sie an dieser Stelle Artikel aus den ETH-Newskanälen kommentieren, Fragen stellen oder auch auf Kommentare anderer Leserinnen und Leser reagieren. Bitte beachten Sie dabei unsere Kommentarregeln.

10 Kommentare

Es sind zusätzliche Kommentare in der englischen Fassung dieses Beitrags verfügbar. Alle Kommentare anzeigen

  • Christof Chrappek25.03.2021 07:12

    Haben Sie auch Informationen darüber in welchem Verhältnis getestete Personen zu Inzidenzen stehen? Liege ich da falsch in meiner Annahme, dass die Zahlen, die aktuell überall postuliert werden nur in diesem Verhältnis sinnvoll sind statt als absolute Zahl? Ich verstehe es korrekt, dass die absolute Zahl keine Aussagekraft hat, ob heute tatsächlich mehr Fälle positiv vorliegen, weil die Info fehlt, wie viele Personen absolut getestet wurden.

     
       
    • Peter Stauffacher18.03.2021 19:29

      Es wäre begrüssenswert, wenn man die R-Werte auch einmal mit der Anzahl der Angesteckten (Gesamthaft/Intervalle) hinterlegen würde. Auch hier mit den entsprechenden Unschärfen.

       
       
    • Pascale von Planta13.03.2021 14:36

      Danke sehr für die Ausführungen, Frau Stadler. Die statistische "Ungenauigkeit" ist das eine. Seitens BR klar definierte Richtwerte offiziell zu kommunizieren, auf deren Basis Entscheide gefällt werden, das andere.

       
         
      • Markus v Riederberg12.03.2021 22:09

        Bin etwas verwirrt, dass Sie hier den Begriff «Unsicherheitsintervall» verwenden. Für mich ist der Begriff Konfidenzintervall aus dessen Herleitung eigentlich einsichtiger. Erklärung, dass der «echte Wert» mit einer «Konfidenz» von 95 % (meist) innerhalb dieses Bereichs liege, wird eigentlich von Laien meist rasch verstanden.

         
        • Tanja Stadler15.03.2021 20:19

          In der Tat verwenden wir die Begriffe Konfidenzintervall und Unsicherheitsintervall, um das gleiche Konzept zu beschreiben. Allerdings ist in jedem Fall wichtig: Ein 95%-Konfidenzintervall sagt aus, dass bei einer 100-maligen Wiederholung des Experiments dann 95 geschätzte Konfidenzintervalle den wahren Wert enthalten. Für unser Dashboard könnte man sagen: für 95 von 100 Ländern rapportieren wir heute ein Konfidenzintervall welches den wahren Wert enthält. Siehe auch 3. Paragraph in https://de.wikipedia.org/wiki/Konfidenzintervall

           
           
         
      • Max Blatter12.03.2021 10:08

        Ich halte es da zum einen mit Albert Einstein: "Insofern sich die Sätze der Mathematik auf die Wirklichkeit beziehen, sind sie nicht sicher, und insofern sie sicher sind, beziehen sie sich nicht auf die Wirklichkeit." Und zum andern mit Erich Kästner: "... seien wir ehrlich: Leben ist immer lebensgefährlich!" Was wirklich nottäte, v.a. im Hinblick auf künftige Pandemien: Die Entwicklung, Zulassung, Herstellung, Verteilung und Anwendung der Impfstoffe müsste um einen Faktor zwei bis vier beschleunigt werden. Aber das liegt nicht in der Hand der Statistikerinnen und Statistiker.

         
        • Tanja Stadler15.03.2021 20:17

          We used cantonal data until June 2020. Then we switched to FOPH data as the cantonal data was not available any more in a convenient form and the estimated R-values did in fact not vary much between the two data sources. Our code is open source so everyone is invited to apply our method to their preferred datasets. I agree that central reporting around contact tracing needs to improve - however this data would not flow into the R-value estimation method - we use the plain numbers on confirmed cases, tests, hospitalisations, and deaths.

           
           
        • Paul-Olivier Dehaye12.03.2021 19:03

          (Based on data obtained through Öffentlichkeitsgesetz 2021.01.22 from BAG/OFSP and Prof Stadler herself) Prof Stadler seems to be missing one large source of uncertainty in her estimates. The data she uses arrives to her from the canton but through the federal authority FOPH (see her papers). Some cantons have much more accurate data than reflected in what the FOPH collects, which would help reduce the uncertainty. The problem is that the FOPH does not seem to know it might matter. One might argue it is not very important, but I disagree: 1/ her calculations are plainly wrong sometimes because of this 2/ it is a significant but missed opportunity for the federal level to incentivize better contact tracing in the cantons. Feel free to contact me for more information.

           
           
        • Sandra Kunz12.03.2021 13:33

          Man sehnt sich nach einer schnellen Lösung aber auch im Impf-Business gilt: Gut Ding will Weile haben.