Lokale Kontrastnormalisierung zur Bilderkennung bei starkem Konstrast

Bilder realer Szenen haben oft einen hohen Kontrast zwischen hellen und dunklen Bildregionen, z.B. wenn in einen Innenraum Sonnenlicht aus einem Fenster fällt. Dies ist noch stärker der Fall bei Bildern von Robotern oder Überwachungskameras im Unterschied zu bewusst geschossenen Fotos. Diese Beobachtung hat früh in der Bildverarbeitung zur Forderung nach linearer Helligkeit In/Kovarianz von Verfahren geführt, entsprechend der Tatsache, dass bei mehr oder weniger Licht und längerer oder kürzerer Belichtung sich im Wesentlichen alle Pixel um einen Faktor ändern.

In den frühen Arbeiten zu CNNs wurde dementsprechend eine Schicht zur lokalen Kontrastnormalisierung benutzt, die z.B. die Summe (oder quadrierte Summe) aller Kanäle eines Pixel auf 1 normiert. Mit dem Siegeszug der Batch-Normalization sind diese Normalisierungen in Vergessenheit geraten, obwohl sie eigentlich etwas ganz anderes tun. Die Batch Normalization spielt eine aktive Rolle beim Lernen, wo sie sich entsprechend der Batch-Statistik anpasst, nicht aber beim Predicten, wo sie zu fester Skalierung+Offset wird.

Gleichzeitig existiert eine Theorie, die z.B. aus der Forderung nach einem Kontrastinvarianten Bildgradienten eine bestimmte Normalisierungsvorschrift herleitet.

In dieser Arbeit soll untersucht werden, in wie weit lokale Kontrastnormalisierung bei Bildern mit sehr hohen Kontrast die Lernergebnisse verbessert. Fragen sind

Hilft Kontrastnormalisierung?
Welche mathematische Form der Kontrastnormalisierung ist am besten?
Bei welchen Bildern (wie hohem Kontrast) nutzt die lokale Kontrastnormalisierung?
Wo setzt man sie ein (1. Schicht, alle Schichten)?