Table Of ContentRobuste Bilderkennung mit lokalen
linearen Abbildungen und elastischer
Graphenanpassung
Von der Fakult¨at fu¨r Mathematik und Physik der Universit¨at
Stuttgart zur Erlangung der Wu¨rde eines Doktors der
Naturwissenschaften (Dr. rer. nat.) genehmigte Abhandlung
Vorgelegt von
Florian Hardt
aus Frankfurt am Main
Hauptberichter : Prof. Dr. G. Wunner
Mitberichter : Prof. Dr. G. Haag
Tag der mu¨ndlichen Pru¨fung: 11. April 2006
1. Institut fu¨r Theoretische Physik
Universit¨at Stuttgart
Pfaffenwaldring 57, 70550 Stuttgart
2006
Danksagung
Im Laufe meiner Promotion habe ich von vielen Menschen Anregungen und
Unterstu¨tzung erhalten, und ohne diesen Austausch w¨are meine Arbeit weni-
ger erfu¨llend gewesen.Daher ist es weit mehr als eine bloße Formalit¨at, wenn
ich folgenden Lehrern, Kollegen und Freunden meinen Dank ausspreche:
Prof. Dr. Gu¨nter Wunner danke ich fu¨r die engagierte F¨orderung und Be-
treuung dieser fu¨r ein Institut fu¨r Theoretische Physik ungew¨ohnlichen Dis-
sertation.
Prof. Dr. Gu¨nter Haag danke ich fu¨r die freundliche U¨bernahme des Mit-
berichtes.
Dr. Rolf P. Wu¨rtz verdanke ich einige wertvolle Hinweise. Unsere Gespr¨a-
che haben den Verlauf dieser Arbeit maßgeblich mitbeeinflusst.
DirkEngel undSteffenBu¨cheler binichfu¨rdieunkomplizierteHilfebeiRech-
nerproblemen zu Dank verpflichtet.
MeinenKollegen vonderKaffeerundedankeichfu¨rdiezahllosenDiskussionen
auchderabwegigstenIdeen,fu¨rdiegewissenhafteFu¨hrungder Tabuthemen-
”
liste”und fu¨r das offene und freundliche Arbeitsklima.
Erika Hardt war an allem lebhaft interessiert, was mich besch¨aftigte und ist
mir in vielerlei Hinsicht ein Vorbild gewesen.
Anne Abelein danke ich fu¨r ihre Ausdauer beim Korrekturlesen und vieles
weiteres, fu¨r das hier kein Raum ist.
Meinen Eltern, Dr. Friederun Hardt-Friederichs und Henner Hardt, gilt mein
besonderer Dank. Ich h¨atte es nicht besser treffen k¨onnen.
Inhaltsverzeichnis
1. Einleitung 7
1.1. Mensch und Maschine . . . . . . . . . . . . . . . . . . . . . . . 7
1.2. Aufgabenstellung . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3. Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4. Verwendete Symbole . . . . . . . . . . . . . . . . . . . . . . . . 11
2. Abbildungen und lokale lineare Abbildungen 13
2.1. Definition einer lokalen linearen Abbildung . . . . . . . . . . . 13
2.2. Aufspaltung einer Local Linear Map . . . . . . . . . . . . . . . 14
2.3. Klassifizierung einer Abbildung . . . . . . . . . . . . . . . . . . 16
2.3.1. Vier-Parameter-Abbildungen . . . . . . . . . . . . . . . 16
2.3.2. Drei-Parameter-Abbildungen . . . . . . . . . . . . . . . 17
2.3.3. Zwei-Parameter-Abbildungen . . . . . . . . . . . . . . . 17
2.3.4. Ein-Parameter-Abbildungen . . . . . . . . . . . . . . . . 17
3. Repr¨asentation von Bildern 19
3.1. Datenstruktur. . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2. Neuronale Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.1. Ganglienzellen . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.2. Einfache Zellen . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.3. Komplexe Zellen . . . . . . . . . . . . . . . . . . . . . . 24
3.2.4. End-Stopped”Zellen . . . . . . . . . . . . . . . . . . . 26
”
3.2.5. Zellklassifizierung. . . . . . . . . . . . . . . . . . . . . . 27
3.3. Bildrepr¨asentationmit Gaborwavelets . . . . . . . . . . . . . . 27
3.4. Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4. Detektion von Ecken 33
4.1. Zur Bedeutung von Ecken . . . . . . . . . . . . . . . . . . . . . 33
4.2. Eckendetektionmit End-Stopped”Zellen . . . . . . . . . . . . 33
”
4.3. Eckendetektionauf verschiedenen Gr¨oßenskalen . . . . . . . . . 41
4.4. Diskussion und Ergebnisse . . . . . . . . . . . . . . . . . . . . . 42
4.5. Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
v
Inhaltsverzeichnis
5. Zuordnen von Ecken 47
5.1. Das Zuordnen ( Matchen”) von Punkten anhand ihrer Features 47
”
5.2. Robuste Ecken als signifikante Punkte . . . . . . . . . . . . . . 49
5.3. Robuste Jets . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.3.1. Robustheit gegenu¨ber Rotationen. . . . . . . . . . . . . 53
5.3.2. Robustheit gegenu¨ber Streckungen . . . . . . . . . . . . 54
5.3.3. Kombination von Rotation und Streckung . . . . . . . . 55
5.4. Der Zuordnungsvorgang . . . . . . . . . . . . . . . . . . . . . . 56
5.4.1. Zuordnungsstrategien . . . . . . . . . . . . . . . . . . . 58
5.4.2. Der Zuordnungsalgorithmus . . . . . . . . . . . . . . . . 60
5.4.3. Filterprozesse . . . . . . . . . . . . . . . . . . . . . . . . 63
5.5. Objekterkennung auf Basis der Eckenzuordnung. . . . . . . . . 68
5.6. Diskussion und Ergebnisse . . . . . . . . . . . . . . . . . . . . . 72
5.7. Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6. Elastische Graphenanpassung 75
6.1. Etikettierte Graphen zur Objektbeschreibung . . . . . . . . . . 75
6.2. Initialisierung der LLM . . . . . . . . . . . . . . . . . . . . . . 75
6.3. Graphen¨ahnlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.4. Elastische Graphenanpassung . . . . . . . . . . . . . . . . . . . 87
6.5. Stabilit¨at der Graphen . . . . . . . . . . . . . . . . . . . . . . . 92
6.6. Robustheit der Graphenanpassung gegenu¨ber Teilverdeckung . 96
6.7. Flexible Modellgraphenanpassungfu¨r komplexe Szenen. . . . . 100
6.8. Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.9. Diskussion und Vergleich mit anderen Methoden . . . . . . . . 103
7. Zusammenfassung 111
A. Anhang 115
A.1. Diagonalisierungeiner 2x2 Matrix . . . . . . . . . . . . . . . . 115
A.1.1. Konformer Spezialfall . . . . . . . . . . . . . . . . . . . 118
A.2. Verwendete konforme Abbildungen . . . . . . . . . . . . . . . . 120
B. English Summary 123
B.1. Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
B.2. Mappings with Local Linear Maps . . . . . . . . . . . . . . . . 123
B.3. Data Structure and Cell Models. . . . . . . . . . . . . . . . . . 124
B.4. Corner Detection . . . . . . . . . . . . . . . . . . . . . . . . . . 125
B.5. Corner Matching and Filtering . . . . . . . . . . . . . . . . . . 126
B.6. Graph Matching . . . . . . . . . . . . . . . . . . . . . . . . . . 126
vi
1. Einleitung
1.1. Mensch und Maschine
Fu¨r den Menschensind das Sehen unddas VerstehenseinerUmwelt u¨blicher-
weise Prozesse, die unbewusst und scheinbar mu¨helos ablaufen. Gegenst¨an-
de werden nahezu unabh¨angig von Blickwinkel und konkreter Realisierung
( Schaukelstuhl”vs. Bu¨rostuhl”) erkannt und in ihrer Funktion verstanden.
” ”
UnvertrauteGegenst¨ande(z.B.eineComputertastaturmitausgefallenemDe-
sign) werden aufgrund spezifischer Merkmale (z.B. beschrifteter Tasten) und
dem Kontext (Arbeitsplatz), in dem sie auftreten, ohne wahrnehmbare An-
strengung einer bekannten Objektklasse zugeordnet.
AngesichtsdieserLeichtigkeiterscheintesaufdenerstenBlicku¨berraschend,
weshalbBilderkennungfu¨r ComputereineausgesprochenschwereundimAll-
gemeinenungel¨osteAufgabeist.Dabeiwirdu¨bersehen,dassbisherigeCompu-
ter menschliche Leistungen nur in bestimmten Teilproblemen u¨bertreffen. Je
schwieriger sich eine Aufgabe und deren L¨osung durch feste Regeln beschrei-
benlassen,destoproblematischeristdieRealisierungentsprechenderSoftware.
Trotz großen Entwicklungsaufwandes benutzen die spielst¨arksten Schachpro-
gramme prim¨ar Brute-Force”-Methoden, und nur sehr einfache Spiele (bei-
”
spielsweise Vier Gewinnt”) konnten bislang analytisch gel¨ost werden.
”
Fu¨r reale, d.h. nicht ku¨nstlich beschr¨ankte Umgebungen existiert dagegen
eineenormeVielfaltm¨oglicher Bilder”,dievomMenschenodereinerKamera
”
registriertwerden k¨onnen. Angesichts der Anzahl der m¨oglichenObjekte und
ihrerVariationsm¨oglichkeiteninBezugaufihreErscheinung(Blickwinkel,Be-
leuchtung, Verformung, Verdeckung etc.) sowie die Kombination der Objekte
untereinanderistdereigentlichu¨berraschendeUmstandder,dassder Mensch
das Problem der Bilderkennung so erfolgreichbew¨altigt.
Die zu bew¨altigende Datenmenge ist immens. Die Netzhaut ist in etwa ei-
ne Millionen Bildpunkte unterteilt, und an jedem von ihnen entscheiden im
ZehntelsekundentaktDutzende von Neuronen daru¨ber,ob und welche Art ei-
nes Reizes vorliegt. Allein die Unterteilung eines wahrgenommenen Bildes in
dieverschiedenenObjekteisteineanspruchsvolleAufgabe.Farbe,Texturund
Bewegung liefern Indizien daru¨ber, wie das Bild in einzelne Objekte segmen-
tiert werden kann. Dennoch ist unklar, auf welche Weise gleichzeitig h¨oher-
7
1. Einleitung
geordnete Prozesseentsprechend angepasste Hypothesen u¨ber den Bildgehalt
bilden und u¨berpru¨fen k¨onnen.
Das frustrierende Fehlen jedweder Introspektive in das eigene, so erfolgrei-
che Vorgehenbei der Bilderkennungmachtdie Entwicklung eines ku¨nstlichen
Bilderkennungssystemszueiner Herausforderung,derenBedeutung weitu¨ber
die betr¨achtlichentechnischen Anwendungsm¨oglichkeitenhinausgeht:Die auf
demWegzueinemfunktionsf¨ahigenSystemgewonnenenErkenntnissek¨onnen
Einblicke in unser eigenes Denken bieten.
Die gegenw¨artigen Fortschritte der Neurowissenschaften beim Verst¨andnis
derHirnfunktionenaufoberer(Hirnareale)unduntererEbene(einzelnesNeu-
ron), nicht aber auf mittlerer (Verbund einiger Tausend Zellen) Ebene, sind
zumgroßenTeilverbessertenbildgebendenVerfahrengeschuldet.Einetheore-
tische Neurobiologie wird auch versuchen, die mittlere Ebene in aufwendigen
Simulationen zu modellieren.
Dabei muss beru¨cksichtigt werden, dass ku¨nstlichen und biologischen Sys-
temen unterschiedliche Mittel zur Verfu¨gung stehen. Das Studium des Vogel-
fluges lieferte erst dann anwendbare Resultate, als von der bloßen Imitation
zu einer U¨bertragung des Konzepts u¨bergegangen wurde. Wenn wir also ver-
suchen, ein ku¨nstliches Wahrnehmungssystem zu entwickeln, sollten wir vor-
sichtig sein, dabei nicht nur mit den Armen zu flattern.
1.2. Aufgabenstellung
Diese Arbeit besch¨aftigt sich mit einem wichtigen Teilaspekt der Bilderken-
nung. Ausgehendvoneiner 2D-Abbildung eines Objekts sollentschiedenwer-
den, ob eine andere Abbildung dasselbe Objekt zeigt und welche Bildpunkte
einandergegebenenfallskorrespondieren.Dabeisolleinevergleichsweiseallge-
meine Deformation des Objekts zugelassen werden.
Ausgeklammert werden dabei Informationen wie Farbe, r¨aumliches Sehen,
Kontextund eine m¨ogliche zeitliche Entwicklung(z.B. Bewegung)des Bildes.
Der Mensch kann unter den genannten Bedingungen und bei sinnvoller De-
formationleichtdieA¨quivalenzderbeidenBilderfeststellen.Analogdazusoll
ein Systementwickeltwerden,das aus einempr¨asentiertenObjekteinModell
erzeugt (eigenst¨andiges Lernen), dieses Objekt trotz Deformation in anderen
Aufnahmen erkennt und die einander korrespondierenden Punkte der beiden
Darstellungen findet.
Im Unterschied zu vielen bisherigen Methoden der Objekterkennung sol-
len auch lokal verschiedene Deformationen zugelassen werden. Dabei soll das
System von biologisch motivierten Eingangsdatenausgehen.
8
1.3. Aufbau der Arbeit
1.3. Aufbau der Arbeit
In Kapitel 2 wird zun¨achst der wichtige Begriff einer lokalenlinearen Abbil-
dung (Local Linear Map, LLM) eingefu¨hrt. Es wird gezeigt, dass eine LLM
beliebige Abbildungen an jedem Bildpunkt approximieren kann. Dies erm¨og-
licht es sp¨ater, die A¨hnlichkeit zweier Bildbereiche zu vergleichen. Anhand
der zur Approximation ben¨otigten Parameter werden alle m¨oglichen LLMs
klassifiziert.
Kapitel 3 besch¨aftigt sich mit der Repr¨asentation von Bildern. Es wird
ein kurzer U¨berblick u¨ber den Aufbau des menschlichen Sehsystems gegeben.
Dabei werden grundlegende Zelltypen in ihrer Funktion beschrieben und ihr
VerhaltenmitentsprechendenFunktionenmodelliert.Ausgehendvondenbio-
logischmotiviertenZellmodellenwird eine fu¨r die Objekterkennunggeeignete
Datenstruktur beschrieben.
Aufbauend auf den im vorhergehenden Kapitel vorgestellten Zellmodellen
wird in Kapitel 4 ein Mechanismus zur Eckendetektion beschrieben. Eck-
punkte stellen auch fu¨r die menschliche Wahrnehmung wichtige Objektmerk-
male dar. Die Detektion der Ecken eines Bildes erm¨oglichtdie Reduktion der
in einem ersten Zuordnungsschrittzu vergleichendenPunkte.
Dem Problem der Zuordnung von Eckenwidmet sich Kapitel 5. Zun¨achst
wird die Robustheit des verwendeten Eckendetektors gegenu¨ber Bilddefor-
mationen und damit die Eignung von Ecken als signifikante Punkte gezeigt.
Mit Hilfe der LLMs wird dann ein gebr¨auchliches A¨hnlichkeitsmaß ( Jet¨ahn-
”
lichkeit”) zweier Bildbereiche auf konform deformierte Bilder erweitert sowie
ein dafu¨r optimaler Satz Parameter bestimmt. Damit wird eine Klasse von
Bildpunkten (Ecken)robust gegenu¨ber einer Deformation,wobei ihre, sie un-
tereinander auszeichnenden, Eigenschaftenerhalten bleiben.
Davon ausgehend wird ein Zuordnungsalgorithmus vorgeschlagen, der die
Abbildung der EckeneinesBildes aufkorrespondierendeEckeneines weiteren
Bildeserm¨oglicht.ZweiFiltermechanismenzurAussonderungunzuverl¨assiger
undfalscherZuordnungenwerdenentwickeltundderenLeistungdemonstriert.
Bereits auf Basis der Eckenzuordnung kann fru¨hzeitig entschieden werden,
ob eine widerspruchsfreie Abbildung gefunden werden kann oder ob das ge-
suchte Objekt nicht im Bildbereich enthalten ist.
Der vorgestellteProzessmachtu¨ber dieAnnahme eines topologischkorrek-
tes Zusammenhalts der Abbildung hinaus keinerlei Einschr¨ankungen und ist
damit fu¨r beliebige Deformationen geeignet.
Das zentrale Anliegen der Arbeit, die L¨osung des Korrespondenzproblems
fu¨r stark deformierte Bilder mit Hilfe lokaler linearer Abbildungen wird in
Kapitel 6 behandelt. Dabei wird das Verfahren der elastischen Graphenan-
passung genutzt. Eine erfolgreiche Graphenanpassung (Graphmatching) ist
9
1. Einleitung
¨aquivalent zum Finden der zwei Bilder verbindenden Abbildungsvorschrift.
Hier wird zun¨achst die gebr¨auchliche Repr¨asentation eines Objekts in Form
eines etikettierten Graphen erl¨autert und diese dann auf Graphen mit lo-
kal verschiedenerDeformationerweitert.Die aus der Eckenzuordnunggewon-
nenen Punktpaare werden zur Initialisierung eines Anfangsgraphen verwen-
det. Damit bew¨altigt das System das u¨blicherweise mit niederdimensionalem
Graphmatching verbundene Problem lokaler A¨hnlichkeitsmaxima.
Der Prozessder elastischen Graphenanpassungwird auf deformierte Bilder
erweitertunddessenStabilit¨atgegenu¨berverschiedenenSt¨orungenu¨berpru¨ft.
In mehreren Iterationsschritten wird der Ausgangsgraph an das deformierte
Bild angepasst, wobei in Wechselwirkung von LLM und angepasstem Graph
die korrespondierendenPunkte sehrgenaubestimmtwerden.Zudemwirdge-
zeigt, dass das System in der Lage ist, ein deformiertes Objekt in einer unbe-
kannten komplexen Szene zu finden.
Kapitel 7 schließlichfasstdie Ergebnissezusammenund bieteteinenAus-
blick auf weiterfu¨hrende Forschung.
10
Description:weshalb Bilderkennung für Computer eine ausgesprochen schwere und im All- che Vorgehen bei der Bilderkennung macht die Entwicklung eines