Den Daten Struktur geben
05.06.2024
Biostatistiker Michael Schomaker, neu an der LMU, erforscht statistische Methodik für kausale Fragen.
05.06.2024
Biostatistiker Michael Schomaker, neu an der LMU, erforscht statistische Methodik für kausale Fragen.
Soll man Kinder mit HIV sofort behandeln oder erst abwarten? „Gegen eine frühe Behandlung sprachen in der Vergangenheit mögliche Konsequenzen bei unregelmäßiger Medikamenteneinnahme, wie etwa die Bildung von Resistenzen und damit weniger zukünftige Behandlungsmöglichkeiten“, erklärt Statistiker Michael Schomaker, der sich erstmals an der Universität von Kapstadt mit dieser Frage befasste.
„Klassische statistische Vergleiche bringen dabei einen prinzipiellen Fehler mit sich. Wenn ich die Behandelten mit den Nicht-Behandelten vergleiche, erscheint es so, als würde es letzteren tatsächlich besser gehen – dies allerdings nur, weil die Behandlung früher erst bei schlechterem Gesundheitszustand begonnen wurde und ein fairer Vergleich von Behandlungsoptionen dies angemessen berücksichtigen muss“. Dies brachte Schomaker zum Thema Kausalität, der Ableitung von Ursache-Wirkungsbeziehungen aus Beobachtungsdaten. „Dieses Prinzip ist komplex und berücksichtigt neben reinen Daten auch Fragen zur Struktur: Woher kommen die Daten? Was sind die Mechanismen?“
Seit Mai vergangenen Jahres hat Schomaker die Professur für Biostatistik an der Fakultät für Mathematik, Informatik und Statistik der LMU inne. „In der klassischen Statistik befasst man sich meist mit Assoziationen, Korrelationen, reinen Zusammenhängen. Bei der Kausalität aber geht es um kontrafaktisches Denken und um Zusammenhänge, die nicht nur beobachtet werden, sondern wirklich kausal sind.“ Mit moderner biostatistischer Methodik erörtert Schomaker Fragen nicht nur zur Medikation, sondern auch zur Art der Verabreichung und zu ganzen Gesundheitsprogrammen.
Studium und Promotion hatte Schomaker am Institut für Statistik der LMU absolviert und beide Abschlussarbeiten zum Thema „fehlende Daten“ verfasst. Nach kürzeren Forschungsaufenthalten, darunter in Hongkong, ging er 2011 als Senior Lecturer nach Südafrika. „An der Universität Kapstadt arbeitete ich erstmals zu Biostatistik, also der Anwendung von Statistik in den Lebenswissenschaften.“ Seine Forschung im Bereich Epidemiologie war – mit Statistikern, Klinikern und etwa Public-Health-Experten – von Interdisziplinarität geprägt. Speziell befasste er sich mit Infektionskrankheiten wie Tuberkulose, vor allem aber mit HIV. „Während das nationale HIV-Programm in Südafrika damals gerade erst etabliert worden war, war es unser Job, Kohorten von Patienten mit dieser Erkrankung aufzubauen und zu analysieren.“
Nach acht Jahren in Afrika wechselte Schomaker als Assoziierter Professor an die Universität Innsbruck, wo er zwei Jahre lang weiter zu statistischer Methodik für die Anwendung in der Epidemiologie arbeitete. Das Heisenberg-Programm der Deutschen Forschungsgemeinschaft, für das er sich mit einem Antrag im Bereich der Kausalität für komplexe Longitudinaldaten mit Anwendungen in der Pharmakoepidemiologie bewarb, unterstützte schließlich seine Rückkehr als Professor an die LMU. Zurück in München befasst er sich nach wie vor mit Kausalität, aber auch mit „schwierigen statistischen Daten, also solchen mit Lücken oder Messfehlern“.
Weiterhin kooperiert Schomaker mit der Hilfsorganisation Ärzte ohne Grenzen und mit Forschenden in Kapstadt. „Seit der COVID-Pandemie ist die Biostatistik dort gerade in den Bereichen Epidemiologie und Public-Health stärker in den Fokus gerückt – etwa durch das Thema Ko-Infektion mit anderen Lungenkrankheiten wie Tuberkulose.“
An der LMU ergeben sich darüber hinaus zahlreiche neue Gelegenheiten zu fächerübergreifender Zusammenarbeit: Am Center for Advanced Studies forscht er interdisziplinär zur Verarbeitung medizinischer Daten, und in einem weiteren Projekt kooperiert er mit Intensivmedizinern. Mit Kolleginnen und Kollegen des Munich Center for Machine Learning, kurz MCML, forscht er derweil zum Thema Fairness.
Seit der Covid-Pandemie ist die Biostatistik dort gerade in den Bereichen Epidemiologie und Public-Health stärker in den Fokus gerückt – etwa durch das Thema Ko-Infektion mit anderen Lungenkrankheiten wie Tuberkulose.“Professor Michael Schomaker
„Fairness spielt zum Beispiel bei Versicherungstarifen oder Bankkrediten eine Rolle“, so Schomaker. „Mit Machine Learning wird typischerweise eine Vorhersage getroffen – etwa zu der Wahrscheinlichkeit, ob jemand einen Kredit zurückzahlt.“ Wenn ein Gesetzgeber den Schutz bestimmter Attribute wie Geschlecht, Alter, Herkunft vorgebe, dann „drehe“ man die eigentlich erfassten Daten weiter – und arbeite mit den hypothetischen Daten einer „Was-wäre-wenn“-Situation, etwa: „Wäre die Person in der Lage gewesen, den Kredit zurückzuzahlen, wenn sie ein anderes Geschlecht gehabt hätte (was wiederum Konsequenzen auf die Jobsituation, Einkommen, etc. haben würde)?“ Der Grund dafür kann zum Beispiel eine historische Diskriminierung sein, die ohne Korrektur der Daten von dem ML-Modell einfach in die Zukunft fortgeschrieben werden würde. „Aber dazu brauche ich nicht nur Statistik, sondern auch Strukturannahmen“, erklärt Schomaker.
Auch in seinen Lehrveranstaltungen geht es immer wieder um Kausalität. „In einer Vorlesungsstunde ging es zum Beispiel um die Klage einer Patientin gegen ein Pharmaunternehmen“, so Schomaker. „Sie glaubte, wegen eines Medikaments schweren Schaden genommen zu haben. Aber war das Medikament wirklich kausal dafür verantwortlich?“ Für eine logische Argumentationskette vor Gericht brauche man Wissen außerhalb der reinen Daten. „Und bevor man sich mit Letzteren befasst, muss man sich fragen: Lässt sich meine Forschungsfrage überhaupt hundertprozentig beantworten?“ In manchen Fällen, so der Statistiker, seien die Mechanismen dafür einfach zu komplex.