News

Zwischen Kunst und KI: Björn Ommer forscht zu Deep Learning und Computer Vision

29.07.2022

Neuberufen an der LMU, kooperiert der Informatiker Professor Björn Ommer mit Geistes- und Neurowissenschaften – und ist an zwei Fakultäten angesiedelt.

Professor Björn Ommer

Professor Björn Ommer

Maschinen das Sehen zu lehren – das ist eines der Ziele von Professor Björn Ommer. Dabei ist das Sehen nur eine Art Lernbeispiel für eine andere, größere Aufgabe: das selbstständige Verstehen. „Mich interessiert brennend“, so der Informatiker, „wie wir Menschen aus dem, was wir sehen, Sinn machen können.“ Und das soll auch die Maschine lernen.

Seit Herbst 2021 hat Ommer den neu eingerichteten Lehrstuhl für AI for Computer Vision and Digital Humanities / the Arts der LMU inne, der sowohl an ihrer Fakultät für Geschichts- und Kunstwissenschaften als auch der Fakultät für Mathematik, Informatik und Statistik angesiedelt ist. Seine Arbeitsgruppe betreibt Grundlagenforschung im Bereich Computer Vision und Maschinelles Lernen – und untersucht ihre Anwendung insbesondere in den Digitalen Geisteswissenschaften.

„Der Bereich Deep Learning hat in den letzten Jahren einen Riesensatz gemacht“, erklärt Björn Ommer. „Auf einmal fahren Autos tatsächlich autonom herum, in der medizinischen Diagnostik hilft Künstliche Intelligenz (KI) … Vieles, an dem wir jahrelang geforscht haben, taucht jetzt als Prototyp auf und wird für die Öffentlichkeit erfahrbar.“

In der Forschung treiben ihn derweil viele neue Fragestellungen um: „Insbesondere für die Geisteswissenschaften ist der Bereich ‚Retrieval‘ relevant, mit dem in großen, bildbasierten Datenbanken etwas gefunden werden kann wie die berühmte Stecknadel im Heuhaufen“, so Ommer. „In einem Projekt tragen wir ein halbes Jahrtausend an Kunst zusammen – mit derselben Algorithmik, mit der wir auch die Streetart-Kunst von Banksy oder irgendwelche Google-Bilder untersuchen.“ Neben der Kunstgeschichte besteht etwa eine Kooperation mit der Assyriologie. „Mit KI entziffern wir Keilschriftzeichen auf Tontafeln – nicht vollautomatisch, aber unterstützend.“

Den Sonnenaufgang verschieben

Denn Ommers Ziel ist es nicht, andere Wissenschaften zu automatisieren. „Ich sehe den Computer eher als ein Hilfsmittel für uns Menschen – von dem ich mir wünsche, dass es weit besser wird, als es im Moment ist.“ Das Problem insbesondere bei Bildern sei die „semantische Lücke“: „Wenn ich in Photoshop Bilder bearbeiten will, muss ich immer noch einzelne Pixel anfassen. Ich kann sie zwar zu Regionen zusammenfassen, aber der Computer versteht nicht meinen Wunsch: ‚Nimm einen Sonnenaufgang und verschiebe ihn am Himmel‘.“ Einen solchen „natürlicheren Umgang mit der Maschine“ aber, ein „inhaltsbasiertes Erschließen“ etwa von Bildern, strebt Ommer an, „sodass der Computer den Menschen besser versteht“. Dabei könne sich das relativ junge Fach der Informatik sicher „einiges abschauen bei der jahrhundertealten Kunstgeschichte“.

„Meine Herkunft ist die Informatik“, sagt Ommer, der das Fach mit Nebenfach Physik an der Universität Bonn studierte und darin an der Eidgenössischen Technischen Hochschule (ETH) Zürich 2007 mit einer Arbeit über „Learning the Compositional Nature of Objects for Visual Recognition“ promovierte. Als Postdoktorand wirkte er in der „Computer Vision“-Gruppe an der University of California, Berkeley, bevor er 2009 auf eine Professur an der Fakultät für Mathematik und Informatik der Universität Heidelberg berufen wurde und dort bis zu seinem Wechsel an die LMU auch Co-Direktor des Interdisziplinären Zentrums für Wissenschaftliches Rechnen war und zusätzlich mit der philosophischen Fakultät und der Fakultät für Physik affiliiert war.

Ein weiteres großes Ziel seiner Forschung ist das selbstüberwachte, effizientere Lernen. „Bislang gibt man beim Machine Learning noch sehr große Datenmengen ein und erklärt sie dem Computer mit vielen Annotationen." Vergleichbar sei das mit einem Kleinkind, dem man immer wieder „Flugzeug“ sage, wenn eines am Himmel ist. „Wir wollen aber, dass der Computer mit minimaler Überwachung selbstständig Sinn aus den Daten erschließt und so die Bedeutung eines Flugzeugs alleine erkennt.“

Deep Learning, einfach erklärt

Im Bereich der „Visuellen Synthese“, einem weiteren Forschungsgebiet Ommers, wird dieser Prozess sogar umgekehrt. „Ich sage dem Computer nicht mehr: ‚Finde einen Menschen in der Bilddatenbank‘, sondern ‚Stelle einen Menschen dar. Er hat folgendes Alter, Geschlecht, Größe…‘ Diese deutlich schwierigere Fragestellung hilft uns auch zu verstehen, was die Maschine schon verstanden hat – und was nicht.“ Für Anwender bedeute es, mit Bildern nicht mehr im Pixelbereich, sondern „abgebildet im Raum“ zu arbeiten. „Ich gebe ein Bild von einem Menschen ein, enkodiere es und füge Modifikationen wie ‚Verändere das Geschlecht’ hinzu.“ Dies gehe bis dahin, nur noch Text einzugeben, auf dessen Basis die Maschine Bilder synthetisiere.

Bereits jetzt könnten selbst Laien mit einfachen „Text Prompts“ Bilder generieren: „Zum Beispiel: ‚Ein Vogel, wie Picasso ihn gemalt hätte, vor einem Sonnenaufgang‘.“ Die KI-Algorithmen, die solche Forschung und ihre Anwendungen erlaubten, würden jedoch immer komplizierter. „Selbst Experten wissen oft nicht mehr, wie der Computer eigentlich zu seiner Entscheidung kommt“, so Ommer. „Die Performanz der Maschine nimmt zu, unser Verständnis für sie aber ab.“

In der medizinischen Diagnostik oder etwa dem Rechtswesen werde das kritisch. „In einer Kooperation mit Neurowissenschaftlern der ETH Zürich zum Beispiel analysierten wir mit KI die Bewegungen von Patienten mit neurodegenerativen Erkrankungen.“ Aus ihren Bewegungsmustern schloss man darauf, was etwa bei einem Schlaganfall im Cortex abgelaufen sein könnte oder ob eine Therapie angeschlagen hatte – KI als nicht-invasives diagnostisches Werkzeug. „Aber hier schuldet man dem Patienten eine Begründung“, so Ommer. „Krank oder nicht? Lebenserwartung? Im Rechtsbereich: Schuldig oder unschuldig? Diese Haufen von Zahlen, die KI generiert, diese immer komplizierteren Modelle des Deep Learning müssen erklärbar werden, um menschliches Vertrauen in sie zu gewährleisten.“

In diesem weiteren Forschungsziel der „Interpretierbaren KI“ strebt man Modelle an, die ein anderes Modell posthoc – nachdem es bereits fertig trainiert ist – analysieren und seine Entscheidungsfindung erklären können. Kooperationen gibt es dabei etwa mit der deutschen Automobilindustrie. „Wir wollen autonomes Fahren nicht nur höher, schneller, weiter treiben, sondern sicherer machen, indem es nachvollziehbar wird.“

Wendiges Gehirn

Ommers Motivation, mit so unterschiedlichen Bereichen wie Geistes-, Neurowissenschaften und der Automobilindustrie zu kooperieren, sei die Versatilität des menschlichen Gehirns. „Wir benutzen das gleiche Gehirn im Zoom-Meeting, beim Autofahren, bei der Arbeit etwa als Arzt. Und für den Computer schwebt mir eine Algorithmik vor, mit der er auch auf solch unterschiedliche Fragestellungen skaliert.“ Damit die Maschine dem Menschen auf semantischer Ebene etwas näher kommt – und dadurch nicht zuletzt den Umgang mit ihr „etwas weniger frustrierend“ macht.

Wonach suchen Sie?