Protokoll

Datum: 09.11.1995 (Vormittags)
Dauer: Zwei Stunden

Autoren:

Anwesend:

Alle Studenten, alle Betreuer

Tagesordnungspunkte:

  1. TOP:Bericht über den Navigationsalgorithmus von Long-Ji Lin

    Den Auftakt des Projekttreffens im schönen Syke bestreiten der Eingeborene Oliver emm und der Freiwurfexperte Dominik D. Sie berichten über ihre Erfahrungen mit dem Navigationsansatz von Long-Ji Lin:

    Zunächst berichtet Oliver über den Hintergrund des Ansatzes: Es soll zu einem definierten Ziel navigiert werden, indem grundlegende Verhalten zu höheren kombiniert werden. Der Algorithmus basiert auf der Idee des Reinforcement-Learning. Dann folgt ein Überblick über Reinforcement-Learning (Idee, Algorithmus). Dabei entbrennt eine Diskussion, ob der verwendete Ansatz des sogenannten One Action, One Network in diesem Zusammenhang überhaupt sinnvoll ist, weil eventuell eine Unabhängigkeit von Aktionen erzwungen wird, die gar nicht gewünscht wird.

    Oliver stellt dann die Bewertungstabellen vor, die den jeweiligen Reinforcement-Wert für bestimmte Situationen (Hinderniskontakt, korrekter Wandabstand) enthalten. Es kommt wieder eine kurze Diskussion auf über die Bewertung der Güte der Wandverfolgung (Wichtigkeit von Parallelität und Wandabstand). BKB schlägt vor, bei der Bewertung von Aktionen die Belange des Benutzers zu berücksichtigen.

    Nach der Tee- bzw. Kaffeepause wirft Jan die Frage ein, ob Wandverfolgung in einer Wohnung überhaupt von Bedeutung ist. Oliver zieht sich in Anbetracht der fortgeschrittenen Zeit elegant aus der Affäre, indem er erklärt, Wandverfolgung sei hier sehr abstrakt zu verstehen, da jedes Hindernis als "Wand" zu interpretieren sei.

    Im folgenden erklärt Oliver ein Verfahren zur Beschleunigung des Lernvorgangs, das sogenannte Experience Replay, bei dem vorangegange Situationen nach erst später gemachten Erfahrungen auch noch bewertet werden.

    Oliver beendet seinen Teil des Vortrags mit der Vorstellung der Idee des hierarchischen Lernens. Dabei wird ein Raum in Teilgebiete so zerlegt, daß man durch Navigation von Teilgebiet zu Teilgebiet die Gesamtaufgabe lösen kann. Diese Teilgebiete sind häufig die Stellen, an denen zwischen den Grundverhalten umgeschaltet wird.

    Den zweiten Teil des Berichts gibt Dominik ab. Er erläutert kurz die vorgenommene Klassenaufteilung und den verwendeten Testraum.

    Im Anschluß daran geht er ausführlich auf die Experimente ein, die nicht besonders erfolgreich waren. Ein Grund dafür sei ein Speicherproblem, daß die Anzahl der durchzuführenden Lernschritte auf völlig unzureichende 1000 beschränkte.

    Ein eher prinzipielles Problem sei die Tatsache, daß in einem Raum viel zu selten eine hohe Belohnung bzw. Bestrafung erfahren werde, was zu einer sehr geringen Netzänderung führe. Auch der erwähnte Ansatz des Experience Replay habe keine Abhilfe geschaffen. Gleiches gilt für Teaching.

    Im abschließenden Ausblick wird vorgeschlagen, daß Lernverhalten zu verbessern und andere Netze zu verwenden (nicht mehr Backpropagation). Aus diesem Anlaß erklärt sich Jürgen bereit, bei einem der nächsten Treffen über die von den Betreuern in Manchester verwendeten competitive learning-Netze zu berichten.