Forschungsprojekt: Kann Künstliche Intelligenz die medizinische Diagnostik verbessern?
16.09.2021
LMU-Forscherinnen und Forscher untersuchen, wie KI-gestützte Systeme aussehen müssen, denen medizinisches Personal vertrauen kann – und will.
16.09.2021
LMU-Forscherinnen und Forscher untersuchen, wie KI-gestützte Systeme aussehen müssen, denen medizinisches Personal vertrauen kann – und will.
Anwendungen, die auf Künstlicher Intelligenz (KI) basieren, haben bereits in vielen Lebensbereichen Einzug gefunden. Auch das Gesundheitswesen befindet sich in einer digitalen Transformation, in der zahlreiche Einsatzgebiete für KI-Systeme mit wachsendem Interesse diskutiert und erforscht werden. Ein vielversprechender Anwendungsbereich für KI-Systeme ist unter anderem die Diagnostik: Algorithmen werden mit großen Datenmengen darauf trainiert, beispielsweise anhand von Röntgenaufnahmen Erkrankungen erkennen zu können.
Bereits jetzt existieren solche KI-Algorithmen für spezifische Anwendungsfälle, etwa in der Radiologie oder Dermatologie. Die Qualität dieser KI-gestützten Diagnostik wurde und wird in wissenschaftlichen Studien validiert.
Bislang kommen solche KI-Algorithmen in der Praxis aber noch wenig zum Einsatz. Daher ist im Moment noch unklar, wie KI-Systeme dabei helfen können, die Diagnosequalität von Medizinerinnen und Medizinern im Alltag zu optimieren. Ob diese KI-Systeme ihnen eine echte Unterstützung sein werden, hängt nicht nur von der Qualität der Algorithmen ab. Auch wie das medizinische Personal mit dem System umgeht und ihm gegenüber eingestellt ist, spielt dabei eine wichtige Rolle.
Bis heute gibt es kaum Untersuchungen dazu, wie Mitarbeiterinnen und Mitarbeiter des Gesundheitswesens mit Empfehlungen von KI-Algorithmen umgehen und inwieweit die potenziellen Vorteile dieser Anwendungen tatsächlich zum Tragen kommen.
Ein internationales und interdisziplinäres Forschungsteam unter der Leitung von Eva Lermer, Privatdozentin am Center for Leadership and People Management an der LMU, erforscht die Interaktion zwischen Mensch und KI-Technologie und untersucht offene Fragen wie: Welche Einstellungen und Erwartungen hat das medizinische Personal gegenüber dem Einsatz von KI-Technologie im Gesundheitswesen? Wie beeinflussen Empfehlungen einer KI die Diagnose-Entscheidungen und -Qualität von Medizinerinnen? Wie muss eine KI-Empfehlung präsentiert werden, um das Personal bei ihren Entscheidungen optimal zu unterstützen?
Das Projekt wird für vier Jahre von der Volkswagen-Stiftung finanziert und vereint Forscherinnen und Forscher aus den Disziplinen Psychologie, Medizin und Computerwissenschaften. Das Kernteam des Projektes bilden Wissenschaftler der LMU, des Massachusetts Institute of Technology (MIT), der University of Toronto und dem Universitätsklinikum Regensburg. Die Erkenntnisse des Projektes sollen dabei helfen, neuartige KI-basierte Systeme (sogenannte Clinical-Decision-Support-Systems) zu entwickeln und so die Interaktion von Mensch und Maschine in der Diagnostik zu verbessern.
In einer Vorläuferstudie untersuchten Mitglieder des Projektteams, ob die Quelle (KI-Algorithmus vs. menschlicher Radiologe) und deren Korrektheit (korrekt vs. inkorrekt) einen Einfluss auf das Verhalten von Medizinern haben. In der Studie, die npj digital medicine, ein Ableger des Fachblattes Nature, publizierte, analysierten die Wissenschaftlerinnen und Wissenschaftler zum einen, ob diese beiden Faktoren einen Einfluss darauf haben, wie die Probanden die Qualität der Empfehlung einschätzen. Zum anderen untersuchten sie, ob sich die Quelle und die Korrektheit der Empfehlung auf die Diagnoseleistung der an der Studie teilnehmenden Mediziner auswirkte.
Mediziner mit hoher Aufgabenexpertise bewerteten die Qualität von KI-Empfehlungen signifikant schlechter als die von Radiologen, unabhängig davon, ob diese korrekt oder inkorrekt waren. Allerdings hatte die Quelle der Empfehlung letztendlich keinen Einfluss auf die Diagnoseleistung. Sie hing dagegen sehr davon ab, ob die Empfehlung korrekt war oder nicht – unabhängig von der Expertise der Medizinerinnen und Mediziner, die an der Studie teilnahmen. Das zeigt, dass sich die Probanden doch sehr stark auf die Empfehlung verließen, ob sie nun korrekt war oder nicht. Diese Ergebnisse deuten darauf hin, dass die Anwendung einer solchen KI-Technologie in der Realität dann zu einer Verbesserung der Diagnosequalität führt, wenn die KI-Algorithmen sehr gut sind und fast keine Fehler machen. Allerdings sind die heutigen KI-Algorithmen nicht fehlerfrei, weshalb Anwenderinnen den Empfehlungen nicht blind vertrauen und sie nur als Ergänzung zum eigenen Urteil nutzen sollten.
Die Mitarbeiter des Projekts möchten untersuchen, wie man die Darstellung einer KI-Empfehlung gestalten muss, um das medizinische Personal bestmöglich zu unterstützen und damit die Diagnosequalität in Krankenhäusern zu optimieren. Dabei ist es wichtig, Akzeptanz für KI-Systeme zu schaffen, ohne dabei blindes Vertrauen zu erzeugen.
„In der ersten Studie wurden die Empfehlungen der KI zusammen mit der Röntgenaufnahme, auf Basis derer die Diagnose zu stellen war, eingeblendet“, erklärt Susanne Gaube, Projektmitarbeiterin an der LMU und Erstautorin der Studie. „Denkbar wäre etwa, die Empfehlung der KI erst einzublenden, nachdem eine Diagnose gestellt wurde – quasi als Kontrollinstanz.“ Neben dem Zeitpunkt der Präsentation soll noch eine ganze Reihe an weiteren Faktoren untersucht werden.
Die Ergebnisse der Experimentalreihe dienen dann als Grundlage, um eine Benutzeroberfläche für eine KI-Anwendung zu entwickeln. Im letzten Schritt wollen die Forscherinnen und Forscher in einer klinischen Studie das optimierte System und die Diagnosequalität überprüfen.
Wir möchten mit unserem Projekt sowohl anwendungsbezogene Forschung als auch Grundlagenforschung betreibenEva Lermer
Der Nutzen des Projektes soll allerdings nicht allein auf medizinische Anwendungen beschränkt sein. KI-Systeme sind schon heute in verschiedenen Kontexten im Einsatz oder werden es in naher Zukunft sein, so beispielsweise auch im Personalwesen. Hier könnten künftig Bewerbungsunterlagen automatisch von Algorithmen überprüft werden, um so potenziell geeignete Mitarbeiterinnen und Mitarbeiter herauszufiltern. Die Algorithmen sind dabei nur so gut wie die Datensätze, mit denen sie trainiert wurden. Verzerrungen, die bereits in den Trainingsdaten zu finden sind, etwa die Bevorzugung eines Geschlechts oder die Benachteiligung von Bewerbern mit Migrationshintergrund werden von den Algorithmen weiter amplifiziert. Auch hier ist es wichtig, dass Anwenderinnen und Anwender von KI-Systemen lernen, worauf die Empfehlung basiert, um auf systematische Probleme und Fehler reagieren zu können.
„Wir möchten mit unserem Projekt sowohl anwendungsbezogene Forschung als auch Grundlagenforschung betreiben. Es ist uns wichtig, allgemeingültige Ansätze zu finden, mit denen wir den Nutzen von KI-Systemen für die Gesellschaft erhöhen können“, erklärt Eva Lermer.