„Mittelmaß kann nicht unser Anspruch sein!“ Die damalige Bundesbildungsministerin Anja Karliczek zeigte sich vom Abschneiden Deutschlands in der PISA-Studie 2018 alarmiert. Im Lese-Ranking belegte Deutschland im internationalen Vergleich Platz 15, Estland Platz 1. Ob dieses Ranking allerdings wirklich aussagekräftig ist, wagt Professor Daniel Wilhelm zu bezweifeln. Der Statistiker und Volkswirtschaftler befasst sich mit Ökonometrie, einem Forschungsfeld an der Schnittstelle zwischen der empirisch arbeitenden Volkswirtschaftslehre, der Statistik und den Sozialwissenschaften.
„Estland führte die Rangliste an, aber nur auf Basis der Daten, die für die PISA-Studie zur Verfügung standen. Die verwendeten Stichproben aus den verschiedenen Ländern erlauben es nicht, Ränge mit absoluter Sicherheit zu vergeben“, ist er sich sicher. Die Ergebnisse basierten demnach auf Schätzungen.
Daniel Wilhelm und sein Team entwickelten eine statistische Methode, die sie auf den Score der Lesestudie anwendeten: Mithilfe sogenannter Konfidenzintervalle lässt sich die statistische Unsicherheit in dem Ranking quantifizieren. Diese bestehen aus einer Unter- und Obergrenze, zwischen denen mit 95-prozentiger Wahrscheinlichkeit die wahren Ränge der Länder enthalten sind. Nach dieser Berechnung ergibt sich für Estland die Möglichkeit einer Platzierung zwischen Rang 1 und 5, das Intervall von Deutschland lässt die Plätze zwischen 7 und 20 zu.
„Solche Unsicherheiten einer Studie werden in der Regel in politischen Diskussionen nicht thematisiert“, sagt Wilhelm. Dennoch hatte das Paper, das seine Arbeitsgruppe dazu veröffentlicht hat, Auswirkungen: „Wir sind mit der OECD im Gespräch zur Implementierung unserer Methode in der nächsten PISA-Studie“, freut sich Daniel Wilhelm.
Verfälschte Daten als Entscheidungsgrundlage
Daniel Wilhelm entwickelt im Rahmen seines ERC-Starting-Grant-Projekts MEImpact unter anderem Methoden, die einen möglichen Einfluss von Messfehlern – also Daten, die nicht das messen, was man idealerweise messen wollen würde – auf empirische Ergebnisse und darauf basierende Entscheidungen quantifizieren.
Denn diese Fehler können empirische Ergebnisse verzerren und schlussendlich zu falschen politischen Entscheidungen führen. Beispielsweise ist es schwierig, Fähigkeiten, Motivation oder Intelligenz von Menschen zu messen. Daten aus Umfragen oder von Testergebnissen können diese nur partiell abbilden. Wie erfolgreich eine bildungspolitische Fördermaßnahme war, hängt von solchen Daten ab. Die Evaluierung einer Maßnahme könnte etwa zu einem sehr positiven Ergebnis auf Basis der beobachteten Daten führen, obwohl der wahre Effekt weniger positiv oder gar negativ ist. Die neu entwickelten statistischen Methoden erlauben es herauszufinden, ob Messfehler die empirischen Ergebnisse auf solch eine Art verzerrt haben könnten.
„Das Besondere an unserer Arbeit ist, dass wir mit gesellschaftlichen, mit Daten von Menschen arbeiten, wo sich eine statistische Analyse grundsätzlich anders gestaltet als zum Beispiel in vielen Bereichen der Naturwissenschaften. Dort kann man Messungen gegebenenfalls noch mal unter anderen Umständen wiederholen."
„Wir können nicht noch einmal ein Kind in einer anderen Umgebung aufwachsen lassen, um zu schauen, was in der Lebensgestaltung grundsätzlich anders gelaufen wäre“, sagt Wilhelm, der an der Universität Ulm und der Yale University studiert hat und an der University of Chicago promoviert wurde. Vor seinem Wechsel nach München war er zuletzt Professor of Economics am University College London.
Wilhelm schätzt das gute Forschungsumfeld an der LMU, vor allem die Möglichkeit, die empirische Forschung und die statistische Methodenlehre besser zu verzahnen. „Es gibt sehr gute Forschende in München, die an interessanten Themen arbeiten. Die Vernetzung mit ihnen und Forschenden am ifo Institut oder der Technischen Universität geben mir das Gefühl, dass wir hier eine hervorragende Gruppe aufbauen können.“