Was „statistische Signifikanz“ bedeutet
Mit der Wissenschaft ist es so eine Sache. Wer jemals selbst an Studien beteiligt war oder im naturwissenschaftlichen Bereich Messungen durchgeführt hat, schüttelt verzweifelt den Kopf, wenn die Ergebnisse wissenschaftlicher Untersuchungen wegen der in diesen Studien angesprochenen „Unsicherheiten“ missverstanden oder gar diskreditiert werden.
In diesem Beitrag möchte ich auf einige Grundlagen der Statistik eingehen, die essentiell für das Verständnis von Studien vieler wissenschaftlicher Fachrichtungen sind.
Mathematische und vor allem statistische Methoden fanden in der Mitte des 20. Jahrhunderts Eingang in die meisten wissenschaftlichen Disziplinen . Ein großer Teil wissenschaftlicher Forschung zielt darauf ab, sog. Korrelationen, also Zusammenhänge zwischen Sachverhalten, festzustellen und zu belegen. Eine einfache lineare Korrelation kann über eine „Je-Desto“-Formel ausgedrückt werden und kann positiv oder negativ sein. In der Klimatologie ist eine positive Korrelation bspw. „Je mehr CO2 in der Atmosphäre, desto höher die mittlere Temperatur auf der Erde“; eine negative Korrelation „Je größer die Eisfläche auf der Oberfläche, desto geringer die mittlere Temperatur auf der Erde“ (sog. Albedo-Effekt). Allerdings gibt es sehr viel komplexere Zusammenhänge, die sich teils gegenseitig verstärken (bspw. Auftauen des Permafrosts, dadurch weitere Freisetzung von Treibhausgasen) oder abschwächen (bspw. bindet durch wärmere Temperaturen verstärktes Pflanzenwachstum mehr CO2).
Die wesentlichen Fallstricke sind jedoch andere.
Zum einen bedeutet „Korrelation“, also Zusammenhang, noch nicht „Kausalität“, also Abhängigkeit. Eine hervorragende Korrelation findet sich zwischen dem Rückgang der Storchenpopulation und der Abnahme der Geburtenrate in Deutschland. Dennoch wird niemand ernsthaft behaupten, der Storch brächte die Kinder. Dass beide Phänomene gut zueinander passen, ist hier reiner Zufall. Es ist also offenkundig, dass für eine vermutete kausale Verknüpfung mehr Indizien vorhanden sein sollten als eine gute statistische Übereinstimmung. Das ist in der Klimatologie (anders als die kleine, aber laute Schar der „Kritiker“ behauptet) allerdings der Fall; die physikalischen Zusammenhänge zwischen Treibhausgasen und Temperatur sind seit mehr als hundert Jahren bekannt.
Zum anderen wurden und werden statistische Verfahren in der Regel eingesetzt, um einen Zusammenhang zu beweisen, nicht, um ihn zu widerlegen. Innerhalb der wissenschaftlichen Gemeinschaft hat man sich auf ein sogenanntes Signifikanzniveau von 95 % geeinigt. Das bedeutet, dass man so viele Beobachtungen gemacht haben muss, die den vermuteten Zusammenhang belegen, dass dieser nur zu 5 % auf Zufall beruhen kann. Dieses Vorgehen ist sehr sinnvoll, wenn es beispielsweise darum geht, ob ein Medikament gegen Bluthochdruck wirksam ist. Denn bevor man einen Patienten therapiert, sollte man sich sicher sein, dass der gewünschte Effekt auch eintritt; schließlich hat jedes Medikament auch Nebenwirkungen. Erreicht ein neuer Wirkstoff dieses Signifikanzniveau nicht – nun, dann hat man eine Chance verpasst. Im Falle des menschlichen Einflusses auf eine möglicherweise katastrophal verlaufende globale Klimakrise ist diese Herangehensweise allerdings wenig sinnvoll: hier sollten schon 5 % Signifikanz ausreichen, um zu handeln!
Nun noch kurz zur “Unsicherheit”. Oft wird der Begriff dergestalt missverstanden, dass die dargestellten Ergebnisse auch genausogut falsch sein könnten. In den Naturwissenschaften steht “Messunsicherheit” für die statistischen Schwankungen bei der Bestimmung einer Messgröße. Legt man ein und dasselbe Gewicht mehrmals hintereinander auf eine sehr genaue Waage, werden geringfügig unterschiedliche Massen ermittelt. In einer wissenschaftlichen Studie würde diese Masse daher bspw. mit 123,45678 ± 0,00001 g angegeben; die letzte Stelle nach dem Komma ist also “unsicher”, aber eben nur diese.