alt Forschungsprofil von Udo Frese

Forschungsprofil Udo Frese

alt Udo Frese




Positionierung in Bezug auf die Ausschreibung

Mein methodisch-algorithmischer Forschungsschwerpunkt liegt auf der Perzeptionsseite technischer kognitiver Systeme, z.B. räumliche Wahrnehmung der statischen (SLAM, SFB Raumkognition, s.u.) oder dynamischen (Tracking, Sicherheit, s.u.) Umgebung des Systems. Der übergreifende Ansatz dabei ist:


(Technische) Kognitive Systeme interpretieren Sensordaten,
indem sie Unsicherheit probabilistisch modellieren.


Die Herausforderung an ein kognitives System liegt darin, dass es die Bedeutung seiner sensoriellen Wahrnehmungen erschließen muss. Informationen von Sensoren, besonders aus Bildern, sind immer unsicher. Daher besteht mein Ansatz aus der meist probabilistischen Modellierung dieser Unsicherheit und der Auswertung der Information trotz Unsicherheit. Diesen Ansatz wende ich in der Robotik an, wo meine wissenschaftliche Heimat liegt. Er passt auch ausgezeichnet auf Anwendungen aus den Ingenieurswissenschaften besonders der Automatisierungstechnik. Auch weitergehende Anwendungen, z.B. in der Medizin, sind denkbar, weil Sensoren und ihre Auswertung in vielen Bereichen eine zentrale Herausforderung sind.

Gemäß dem probabilistischen Paradigma arbeite ich meist mit einer Wissensrepräsentation als Bayesscher a-posteriori Verteilung p(X=x|Z=z): Wie wahrscheinlich sind verschiedene Hypothesen x über die Wirklichkeit, gegeben, dass das kognitive System die Sensorwahrnehmungen z gemacht hat, die es gemacht hat. Je nach Struktur von X und Z erfordert die Wissenrepräsentation verschiedene Datenstrukturen und Inferenzalgorithmen. Mein Treemap-Algorithmus ist beispielsweise eine Variante des Junction-Tree-Inferenzalgorithmus für Bayes-Netze, angewendet auf das Problem, aus lokalen Beobachtungen eine Karte zu lernen. Ähnliches gilt für den PHD-Algorithmus für Tracking. Diese Wissenrepräsentationen betreffen kontinuierliche, metrische Aspekte und vor allem sensoriell wahrgenommene Informationen, zukünftig möchte ich dazu noch eher diskrete, logische Aspekte als Hintergrundwissen hinzunehmen, weil diese oft als Kontextinformation die Interpretation von Sensordaten erleichtert.

Auch Lernen lässt sich im p(X=x|Z=z) Paradigma formalisieren, indem man in $Z$ alle, auch lang zurückliegende, Sensorwahrnehmungen betrachtet. Beispielweise lernt unser ballfangender Roboter (s.u.) eine Erwartungshaltung, von wo und wie Bälle geworfen werden und verwendet diese als a-priori Verteilung beim Tracken. Diesem Paradigma folgend habe ich mich auch mit Kalibrierungsproblemen beschäftigt, weil Kalibrierung im Prinzip "modellbasiertes Lernen" ist. Das Ergebnis ist eine open-source Bibliothek, die die einfache Formulierung von Kalibrierungsproblemen ermöglicht. Diese Arbeiten möchte ich zukünftig Richtung gelernter Kontextinformation fortführen.

Auf der Aktionsseite kognitiver Systeme ist mein Forschungsinteresse anwendungsgetrieben. Ausgehend von einem zu lösenden Anwendungsproblem ist meine Devise:

Den Brennerpass finden, nicht den Großglockner besteigen.

Ich versuche in einem Wechselspiel aus Intuition und mathematischer Strukturanalyse zu verstehen, wo das Kernproblem einer Anwendung liegt und oft auch, welches vermeindliche Kernproblem man gar nicht wirklich lösen muss, sondern umgehend kann. Dadurch komme ich oft zu einfachen "pfiffigen" Lösungen, wo eine "große Vision" einen langen Weg vor sich hätte. Dieses Gefühl, eine Sache, die weit weg erschien, so reduziert zu haben, dass sie in greifbare Nähe rückt, ist für mich die größte Motivation in der anwendungsorientierten Forschung.

Die vorangegangene Tabelle zeigt meine Forschungsaktivitäten und die meiner Arbeitsgruppe. In der oberen Zeile stehen Themen, mit denen ich mich beschäftigt habe:

Kognitive Bildverarbeitung und Sportrobotik

alt Justin (DLR) fängt zwei Bälle

Warum sollten Roboter Sport treiben, z.B. einen Ball fangen? --- Mit einem Roboter solch eine sportliche Aktivität zu realisieren, ist in zweierlei Hinsicht wertvoll:

Zum einen ist eine derartige Vorführung ungemein faszinierend, besonders für das fachfremde Publikum. Menschen sind Meister sportlicher Betätigung, von daher können selbst Laien unmittelbar und zutreffend beurteilen, wie gut ein Roboter bei der Ausübung eines Sports ist oder wie weit er noch vom menschlichen Vorbild entfernt ist. Ich sehe darin einen durchaus wichtigen Beitrag für das Feld Autonome Systeme und sogar einen kulturellen Beitrag insgesamt, weil so unmittelbar anschaulich eine Auseinandersetzung über das Verhältnis zwischen Mensch und Roboter angestoßen wird. Der andere Aspekt ist, dass Sport eine enorme Herausforderung an Wahrnehmung und Bewegung bzgl. Geschwindigkeit, Präzision und Robustheit darstellt. Deshalb ist er eine ideale Benchmarkanwendung.

Ein Beispiel dafür ist unser Gemeinschaftsprojekt B-Catch mit dem Deutschen Zentrum für Luft- und Raumfahrt (DLR). Deren humanoider Roboter Justin fängt zwei zugeworfene Bälle gleichzeitig mit beiden Händen. Die oben erwähnte Faszination für den Laien zeigt sich z.B. an fast 300000 Abrufen von auf Youtube und zahlreichen Medienanfragen.

alt Justin (DLR) fängt zwei Bälle

Die Anwendung ist ein Beispiel für das Potential kognitiver Bildverarbeitung: Das jetzige Verfahren ist ein Zwei-Ebenen-Ansatz. Er sucht in jedem Bild unabhängig den Ball als Kreis und fusioniert die gefundenen Koordinaten zu einer Flugbahn. Dabei berücksichtigt er probabilistisch Messrauschen, Fehldetektionen und fehlende Detektionen. Das funktioniert gut, ist aber noch weit von der Robustheit menschlichen Sehens entfernt.

Nach meiner Meinung liegt dieses Defizit an der Zweistufigkeit: Bei der menschlichen Wahrnehmung sind alle Ebenen verknüpft. Das gelernte Wissen wie Bälle fliegen erzeugt eine Erwartungshaltung, wo der Ball im nächsten Bild zu suchen ist. Dadurch akzeptiert die visuelle Wahrnehmung an dieser Stelle noch vage Sinneseindrücke als Ball, die sie woanders, wo sie nicht zu der Erwartungshaltungshaltung passen, nicht akzeptieren würde. Das jetzige klassische Verfahren leistet dies nicht, weil Kreiserkennung und Tracking zwei getrennte Ebenen sind. Ich bin der Meinung, dass man die Robustheit von Sensorinterpretation dramatisch erhöhen kann, wenn man dieses Verknüpfen aller kognitiven Ebenen im Rechner realisiert, selbst wenn man keine (z.B. neurologische) Details des Menschen nachahmt.

Sportrobotik wird häufig zwar als schwierige technologische, methodische und wissenschaftliche Herausforderung aber nicht als ernsthafte Anwendung gesehen. Vor kurzem entstand jedoch in meiner Arbeitsgruppe eine Idee zu einem Sportrobotik-Unterhaltungs-Szenario mit direkter Mensch-Roboter-Interaktion in einer Form, die ich für kommerziell realistisch halte.

Die Idee ist ein interaktives Ballspiel mit einem minimalistischen Ballspielroboter für Events wie Firmenfeiern oder Messen. Der Roboter soll dabei mit menschlichen Mitspielern eine Variante des Kinderspiels "Schweinchen in der Mitte" spielen.

Diese Idee ist zur Zeit als BMBF Projekt beantragt (zusammen mit der Hochschule für Künste, Bremen). Durch seine minimalistische Auslegung sehe ich es als ein Beispiel für mein oben erwähntes Paradigma piffig-einfacher Lösungen in Anwendungsprojekten.

Simultaneous Localization and Mapping (SLAM)

alt Visuelles SLAM in einem (nachgestellten) Trümmerhaufen

SLAM hat die Aufgabe, unsichere lokale Information zu einer globalen 3D-Karte zusammenzusetzen. Im Idealfall bewegt man eine Kamera durch ein Gebäude und erhält hinterher ein dichtes 3D-Modell, wie in der Computergrafik üblich. Häufig reicht auch die Position einzelner markanter Punkte, wodurch die Bewegung rekonstruiert wird. Die Herausforderung liegt darin, dass nach jedem Schritt eine aktualisierte Karte gewünscht ist, so dass diese schnell und inkrementell berechnet werden muss. Der von mir entwickelte Treemap-Algorithmus leistet dies und hält einen Weltrekord bzgl. der Kartengröße.

SLAM hat viele Anwendungen, die ich mir für Folgeprojekte vorstellen kann: Es ist eine essentielle Funktionalität für mobile Serviceroboter, da es erlaubt, die zum Navigieren notwendige Karte "einzulernen", indem man den Serviceroboter einmal durchs Gebäude "führt". Es kann auch zur Steuerung von Fahrzeugen in Fabriken oder (zusammen mit GPS) im Außenraum oder gar in der Luft verwendet werden. Es kann z.B. im Wald GPS-Ausfälle kompensieren oder der Navigation eines teilautonomen Rollstuhls dienen.

Eine besonders interessante Anwendung, die ich im SFB/TR 8 Raumkognition gerade verfolge, ist die Suche nach Verschütteten in kollabierten Gebäuden. Mit einer Endoskopkamera können Bilder aus dem Inneren eines Trümmerhaufens gewonnen werden, die aber für einen menschlichen Operator sehr schwer zu verstehen sind. Hier kann visuelles SLAM den Operator mit einem 3D-Modell unterstützen. Diesem Modell kann sogar ein Bild des Trümmerhaufens von Außen überlagert werden, um z.B. einen Zugang zu planen.

Hier zeigt sich auch die Wichtigkeit, Erkenntnisse über menschliche Kognition zu berücksichtigen. Im SFB/TR untersuchen wir zusammen mit Partnern aus der Linguistik gerade, welche kognitiven Mechanismen beim Rettungspersonal vorgehen, wenn sie z.B. mit einem Endoskop einen Hohlraum im Trümmerberg inspizieren. Auf diesen Untersuchungen basierend soll das technische System massgeschneidet die räumliche Wahrnehmung des Rettungspersonals unterstützen.

Die Anwendung Verschüttetensuche zeigt außerdem den Nutzen eines sogenannten Inertialsensors ("technisches Gleichgewichtsorgan"). Er verleiht einen absoluten Sinn für "unten" und einen störungssicheren Sinn für die relative Bewegung, wenn auch mit akkumulierendem Fehler. Bei der Bildverarbeitung hingegen akkumuliert der Fehler nicht, dafür kann sie ausfallen, weil im Bild nichts erkannt wird. Diese Kombination ist vorteilhaft komplementär und eines meiner Forschungsthemen. Dabei ermöglicht eine generische (und open-source) Software-Architektur, basierend auf sogenannten Mannigfaltigkeiten, verschiedene Sensoren und Informationsquellen zu integrieren.

Sichere Sensoralgorithmen

alt In Echtzeit berechnete Bremszonen verhindern Eigenkollisionen

Hierbei geht es um Algorithmen, die Daten von Sensoren zu einem sicherheitsgerichteten Zwecke auswerten, so dass sie vor Gebrauch zertifiziert werden müssen, z.B. vom TÜV nach EN 61508. Ein Beispiel ist die Kollisionsvermeidung für Fahrzeuge in der Industrie (Projekt Sicherkeitskomponente für Autonome Mobile Systeme (SAMS), BMBF-Initiative Servicerobotik) und für Roboterarme humanoider Roboter (Projekt SAMS-3D). Hierbei wird in Echtzeit der Raum (als Teilmenge R^3) berechnet, der beim Bremsen überstrichen wird. Dieser wird dann von einem Sensor überwacht. In SAMS wird ein sogenannter Laserscanner verwendet, aber Kameras und 3D-Kameras sind eine langfristige Perspektive.

Hier verfolge ich den Ansatz, den Algorithmus "wasserdicht" beweisbar zu machen, um die Implementierung durch formale Softwareverifikation zertifizieren zu können. Das ist für Sensoralgorithmen, die oft sehr heuristisch sind, nicht selbstverständlich und erfordert genaue mathematische Modellierung. Diese Arbeiten sind sehr industrienah. SAMS und iGEL sind Projekte mit Industriebeteiligung. In SAMS-3D bin ich Ko-Erfinder eines zum Patent angemeldeten Verfahrens. Das Projekt European Train Control System (ETCS) war ein Gutachten im Industrieauftrag.




Orthogonal zu den Themen zeigt die linke Spalte der Tabelle übergreifende Methoden, die sich quer durch die verschiedenen Themen in unseren Projekten ziehen:

Mathematische Strukturanalyse

In meinem wissenschaftlichen Werdegang war immer eine Schlüsselfähigkeit, mathematisch-formale Repräsentation und Anschauung miteinander zu ver- knüfen und leicht zwischen beiden Seiten wechseln zu können. Diese Fähigkeit zur intuitiven Strukturanalyse ist enorm hilfreich, weil sie erlaubt, Ideen für Algorithmen zu entdecken, schwer zu entdeckende Fehler in Implementierungen zu finden und komplexe Zusammenhänge so dar- zustellen, dass der Zuhörer die Botschaft versteht.

Probabilistische Sensorfusion

Sensorfusion ist die Verknüpfung von unsicherer Information aus verschiedenen Quellen, um eine möglichst genaue Gesamtinformation daraus zu erhalten. Die Faszination an sensoriellen Daten liegt darin, dass sie an der Grenze zwischen der „realen Welt“ und der „Welt im Rechner“ liegen und die reale Welt eine Vielzahl an Phänomenen hat, die Sensordaten unsicher machen.

Effiziente Algorithmen

Die Motivation für effiziente Algorithmen speist sich aus zwei Gedan- ken. Zum einen beschäftige ich mich mit Bildverarbeitung bei bewegten Vorgängen und da muss die Rechnung mit der Bewegung mithalten können (Echtzeit). Zum anderen ist Effizienz ein spannendes Forschungsziel an sich mit einem sehr klaren, weil gut messbarem Erfolgskriteri- um, der Rechenzeit. Daher übt Effizienz auf mich als Informatiker eine ähnliche Faszination aus wie Schubkraft auf einen Raketenentwickler.