Schau mir in die Augen

André Wagner ist einer von 22 Doktoranden des neuen Einstein-Zentrums für Mathematik Berlin (ECMath). Der Mathematiker will algebraische Geometrie für das Fachgebiet der Computer Vision nutzbar machen und so dafür sorgen, dass bessere Trainingssimulatoren für angehende Augenärzte möglich werden. 

Für André Wagner ist es eine positive Begleiterscheinung, dass er Freunden erklären kann, worum es in seiner Doktorarbeit geht. Auch wenn kaum jemand die Mathematik dahinter versteht, unter „Computer Vision“ können sich die meisten etwas vorstellen: es ist der Versuch, den Computer sehen zu lassen. „Ich betrachte ein konkretes mathematisches Problem aus der algebraischen Geometrie, um die Simulation von Augen-Operationen zu verbessern“, erklärt Wagner, der an der Technischen Universität München Mathematik studiert hat und für seine Doktorarbeit nun nach Berlin gezogen ist. „Mich reizt sowohl die Schönheit der mathematischen Fragen als auch die Perspektive der konkreten Anwendung in der Computer Vision.“

Die Idee zu Wagners Forschungsthema kam dem Mathematiker und Einstein-Professor Michael Joswig, der die Doktorarbeit an der Technischen Universität Berlin betreut. Vor sechs Jahren hatte Joswig zum ersten Mal Kontakt zu dem Mannheimer Unternehmen VRmagic, das medizinische Simulatoren für Augen-Operationen und Diagnoseverfahren entwickelt. Die Entwickler suchten nach einer mathematischen Lösung, um die virtuelle Realität der Simulatoren zu verbessern. Es ging darum, die Messpunkte mathematisch zu beschreiben, die nötig sind, um virtuelle Bilder an der richtigen Stelle in die Wirklichkeit hineinzurechnen. 

Joswig, der damals noch Professor an der Technischen Universität Darmstadt war, machte einige Vorschläge, wie man die komplexe Situation modellieren könnte, kam aber zu keiner überzeugenden Lösung. „Es fühlte sich einfach nicht richtig an“, sagt er rückblickend. Doch die Frage bewegte ihn weiterhin – und mit ihr die Idee, algebraische Geometrie zu nutzen, um Probleme der Computer Vision zu lösen. „Das wurde in den 90er Jahren bereits versucht, es hat aber nie funktioniert, weil es algorithmisch nicht richtig aufbereitet wurde.“ 

Im Oktober 2013 veranlasste ihn ein Aufsatz im „Canadian Journal of Mathematics“, es noch einmal zu probieren. Die Autoren, darunter der neue Einstein Visiting Fellow Bernd Sturmfels (siehe Albert-Artikel "Überflieger"), beschrieben effektive Methoden zur Nutzung von algebraischer Geometrie für die Computer Vision. Es war das fehlende Bindeglied. Joswig reichte einen Projektantrag beim gerade entstehenden Einstein-Zentrum für Mathematik Berlin (ECMath) ein und fand nach der Zusage in André Wagner einen geeigneten Doktoranden.

„In meiner Masterarbeit habe ich ganz ähnliche Ansätze behandelt, also geometrische Probleme von algebraischer Seite aus betrachtet“, sagt Wagner. Darauf will er nun aufbauen und mit den Daten von VRmagic nach mathematischen Lösungen für das Problem des Unternehmens suchen. „Aber es werden sicher auch Aussagen herauskommen, die in vielen anderen Anwendungsbereichen einen Nutzen haben könnten.“ Etwa bei der automatisierten Fahrzeugerkennung im Straßenverkehr oder bei der visuellen Informationsverarbeitung bei Robotern.
 

Die fühlbare Welt verschmilzt mit der virtuellen

In Mannheim sticht der Physiker Clemens Wagner mit einer Miniaturpinzette in eine Augenattrappe. Es ist eine Metallhalbkugel mit Silikonrand und Einstichlöchern, die in einer silbernen Gesichtsmaske aus Kunststoff liegt – eine Trainingsstation für angehende Augenchirurgen. Wagner schaut durch zwei Okulare. Sie zeigen ihm eine Simulation, die auch auf einem Bildschirm zu sehen ist: Das Auge eines virtuellen Patienten ist mit einer Lidsperre weit geöffnet. 

Die Bewegungen von Wagners Pinzette werden in die simulierte OP-Situation hineingerechnet, während er selbst in der Hand den Widerstand des Silikons spürt – die fühlbare Welt verschmilzt mit der virtuellen. Die Technik, die das ermöglicht, wurde von VRmagic entwickelt: Im Innern der Gesichtsmaske befinden sich vier Kameras, die das mechanisch gelagerte Auge und das Instrument des Operateurs von unten filmen und anhand farbiger Punkte jede Bewegung erfassen – ein optisches Tracking-System im Miniaturformat.  

„Als Krankheitsbild habe ich einen grauen Star eingestellt und kann die Operation jetzt Schritt für Schritt trainieren“, sagt Wagner. Er reißt die virtuelle Linsenkapsel vorsichtig auf, zerschneidet dann mit einem Ultraschallinstrument die kranke, eingetrübte Linse und saugt sie mit dem gleichen Gerät ab. Im letzten Schritt legt er mit einem Injektor eine neue Acryl-Linse hinter den übrig gelassenen Rand der Linsenkapsel. „Jetzt kann der Patient wieder sehen, die Linse ist wieder klar“, sagt Wagner. 

Jede seiner Bewegungen wurde von der Software registriert und kann statistisch ausgewertet werden – bis hin zum Zittern der Hand, der Effizienz einzelner Arbeitsschritte oder der Belastung des Gewebes. „Es ist ein bisschen, wie bei einem Computerspiel, man versucht immer besser zu werden.“ Und wird es auch: Eine unabhängige Studie hat gezeigt, dass Operateure nach intensivem Training am Simulator drei Mal weniger Fehler machen. 

VRmagic entwickelt nicht nur Simulatoren zur Behandlung, sondern auch zur Diagnose von Augenerkrankungen. Der sogenannte Indirect Ophthalmoscope Simulator sieht aus wie ein schwarzer Flachbildschirm, aus dem ein Kunststoffgesicht herauswächst. Mit einem Augmented-Reality-Helm auf dem Kopf hält Clemens Wagner eine Lupe vor das Plastik-Gesicht. Ein Bildschirm überträgt, was er sieht: Eine virtuelle blauäugige Patientin blinzelt ihn an, davor sieht er seine eigene Hand, die in die Simulation hineingerechnet wird. Wagner schaut mit der Lupe durch die Pupille der Patientin hindurch in die Innenseite des Augapfels, wo Merkmale einer Krankheit simuliert werden. „In ihrer Akte steht, dass sie einen Nebel sieht, mit etwas Übung kann ich in der Simulation eine Netzhautablösung diagnostizieren“, sagt Wagner. „Wir können verschiedene Krankheitsbilder laden, nicht nur spezifische Netzhauterkrankungen, auch Diabetes, Bluthochdruck oder bakterielle und virale Infektionen.“ 
 

Ein neuer Erkennungsalgorithmus

Die Technik hinter dem Indirect Ophthalmoscope Simulator ist komplex: Kameras am Augmented-Reality-Helm übertragen die natürliche Umgebung, zusätzliche Infrarotkameras registrieren für das bloße Auge unsichtbare Infrarot-LED-Lampen, die in der schwarzen Fläche neben dem Kunststoffgesicht verteilt sind. Sie dienen als Messpunkte, mit denen die Software sich orientieren kann: Ein Algorithmus ermittelt aus ihrer Verteilung die exakte Position des Helms zum Gesicht – um die virtuelle Realität an der richtigen Stelle auf die Wirklichkeit zu legen. 

„Das klingt zunächst einfach, kann aber sehr schwierig werden, weil man aus verschiedenen Richtungen und Winkeln auf die LED-Lampen schauen kann und häufig nur eine Untermenge sieht, weil einige vom Plastikgesicht verdeckt sind“, sagt Daniel Foethke, der bei VRmagic die Kooperation mit der Technischen Universität Berlin betreut. Die Entwickler von VRmagic würden den Diagnose-Simulator gerne weiterentwickeln und die Messpunkte direkt auf Nase, Kinn, Augen und Wangen des Kunststoffgesichts verteilen – also im dreidimensionalen Raum. Doch für die Weiterentwicklung fehlt ein effektiver Algorithmus. „Für Punktwolken, die auf einer Ebene liegen, haben wir das Problem recht gut im Griff, aber nicht bei einer dreidimensionalen Verteilung.“

Hier kommen Michael Joswig und André Wagner ins Spiel. Die Hoffnung bei VRmagic ist, mit ihrer Hilfe eine Beschreibung zu finden, die schnell rechenbar ist. „Ich habe mal gelernt, dass es für ein kompliziertes Problem immer auch eine mathematische Beschreibung gibt, in die man es übertragen kann, um eine einfache Lösung zu finden“, sagt VRmagic-Geschäftsführer Markus Schill. „Wir hoffen, dass am Ende etwas Brauchbares steht, aber es ist ein Forschungsprojekt mit offenem Ausgang.“ 

In Berlin greift Michael Joswig zum Stift, um am Whiteboard das mathematische Problem zu skizzieren, vor dem er und André Wagner stehen. Er zeichnet ein Objekt, mehrere Kameras und ihre Filmebenen, die einen Ausschnitt der Wirklichkeit aufzeichnen – ein Abbild des Objekts. Die Menge aller Bilder auf den Filmebenen der Kameras wird mathematisch durch eine algebraische Varietät beschrieben, multiview variety genannt. Aus den Bildern und aus der bekannten Position der Augenattrappe wird die Kameraposition für die Simulation berechnet. 

Diese Methode verwendet VRmagic, sie führt aber in ein Dilemma: Einerseits braucht man viele Messpunkte, um die Situation möglichst genau aufzulösen, andererseits dauern die Experimente dann zu lange oder die Daten lassen sich in dieser Menge gar nicht mehr verarbeiten. Schlimmstenfalls kann die virtuelle Realität zusammenbrechen. „Deswegen wollen wir weg von Messpunkten und stattdessen Gleichungen verwenden, die alle denkbaren Bilder auf einen Schlag beschreiben“, sagt Joswig. Die Arbeit aus dem „Canadian Journal of Mathematics“ leistet hier eine entscheidende Vorarbeit. 

„Die Gleichungen selbst sind aber nur der erste Schritt, sie beschreiben nur eine idealisierte Situation, in einer konkreten Echtzeitsituation gibt es ein Rauschen, etwa durch kleine Verschiebungen der Kamera oder Fehler in der Optik. Das wollen wir beseitigen.“ Für diese Ungenauigkeiten mathematische Lösungen zu finden, ist ein weiteres Ziel von Wagner und Joswig.  

Die Technik hinter dem Indirect Ophthalmoscope Simulator ist komplex: Kameras am Augmented-Reality-Helm übertragen die natürliche Umgebung, zusätzliche Infrarotkameras registrieren für das bloße Auge unsichtbare Infrarot-LED-Lampen, die in der schwarzen Fläche neben dem Kunststoffgesicht verteilt sind. Sie dienen als Messpunkte, mit denen die Software sich orientieren kann: Ein Algorithmus ermittelt aus ihrer Verteilung die exakte Position des Helms zum Gesicht – um die virtuelle Realität an der richtigen Stelle auf die Wirklichkeit zu legen. 

„Das klingt zunächst einfach, kann aber sehr schwierig werden, weil man aus verschiedenen Richtungen und Winkeln auf die LED-Lampen schauen kann und häufig nur eine Untermenge sieht, weil einige vom Plastikgesicht verdeckt sind“, sagt Daniel Foethke, der bei VRmagic die Kooperation mit der Technischen Universität Berlin betreut. Die Entwickler von VRmagic würden den Diagnose-Simulator gerne weiterentwickeln und die Messpunkte direkt auf Nase, Kinn, Augen und Wangen des Kunststoffgesichts verteilen – also im dreidimensionalen Raum. Doch für die Weiterentwicklung fehlt ein effektiver Algorithmus. „Für Punktwolken, die auf einer Ebene liegen, haben wir das Problem recht gut im Griff, aber nicht bei einer dreidimensionalen Verteilung.“

Hier kommen Michael Joswig und André Wagner ins Spiel. Die Hoffnung bei VRmagic ist, mit ihrer Hilfe eine Beschreibung zu finden, die schnell rechenbar ist. „Ich habe mal gelernt, dass es für ein kompliziertes Problem immer auch eine mathematische Beschreibung gibt, in die man es übertragen kann, um eine einfache Lösung zu finden“, sagt VRmagic-Geschäftsführer Markus Schill. „Wir hoffen, dass am Ende etwas Brauchbares steht, aber es ist ein Forschungsprojekt mit offenem Ausgang.“ 

In Berlin greift Michael Joswig zum Stift, um am Whiteboard das mathematische Problem zu skizzieren, vor dem er und André Wagner stehen. Er zeichnet ein Objekt, mehrere Kameras und ihre Filmebenen, die einen Ausschnitt der Wirklichkeit aufzeichnen – ein Abbild des Objekts. Die Menge aller Bilder auf den Filmebenen der Kameras wird mathematisch durch eine algebraische Varietät beschrieben, multiview variety genannt. Aus den Bildern und aus der bekannten Position der Augenattrappe wird die Kameraposition für die Simulation berechnet. 

Diese Methode verwendet VRmagic, sie führt aber in ein Dilemma: Einerseits braucht man viele Messpunkte, um die Situation möglichst genau aufzulösen, andererseits dauern die Experimente dann zu lange oder die Daten lassen sich in dieser Menge gar nicht mehr verarbeiten. Schlimmstenfalls kann die virtuelle Realität zusammenbrechen. „Deswegen wollen wir weg von Messpunkten und stattdessen Gleichungen verwenden, die alle denkbaren Bilder auf einen Schlag beschreiben“, sagt Joswig. Die Arbeit aus dem „Canadian Journal of Mathematics“ leistet hier eine entscheidende Vorarbeit. 

„Die Gleichungen selbst sind aber nur der erste Schritt, sie beschreiben nur eine idealisierte Situation, in einer konkreten Echtzeitsituation gibt es ein Rauschen, etwa durch kleine Verschiebungen der Kamera oder Fehler in der Optik. Das wollen wir beseitigen.“ Für diese Ungenauigkeiten mathematische Lösungen zu finden, ist ein weiteres Ziel von Wagner und Joswig.  

Es kann sein, dass etwas mathematisch Schönes dabei herauskommt.

Wenn die gleichungsbasierte Herangehensweise gelingt, dann wird sie der bisherigen punktbasierten überlegen sein. Zwar wären die neuen Algorithmen extrem rechenaufwendig, doch ein Teil der Rechnung könnte bereits vorab geschehen, um dann in der konkreten Situation sehr schnell Ergebnisse liefern zu können. 

Joswig ist zuversichtlich, doch es gibt keine Garantie, dass am Ende ein überlegener Erkennungsalgorithmus stehen wird. „Es kann sein, dass etwas mathematisch Schönes dabei herauskommt, das jedoch in der Anwendung nicht funktioniert, aber es ist wichtig, dass wir solche Risiken eingehen“, sagt Joswig. „Ich sehe ein großes Potenzial der Universitäten darin, neue Arten der Mathematik in die Anwendung zu tragen, wir dürfen uns nicht auf bestehenden Methoden ausruhen.“

Text: Lars Jensen