Perspective-independent Action Analysis
Grundlage für die nächsten Blog-Einträge (es wurde ja mal wieder Zeit) wird der Vortrag über meine bisherigen "Anstrengungen" im Rahmen meiner Diplomarbeit sein, den ich vor kurzem zu halten hatte.
Überthema ist Aktionsklassifizierung - nun, was ist das? Es geht dabei um das Vorhaben, Robotern die Möglichkeit zu geben, zwischen verschiedenen beobachteten Vorgängen (Aktionen) zu unterscheiden bzw. ähnliche Aktionen als solche wiederzuerkennen.
Die nächste Abbildung zeigt, dass dieser Vorgang aus mehreren Modulen besteht, die innerhalb unserer Arbeitsgruppe auch von verschiedenen Leuten entwickelt werden.
Am Anfang steht die Stereo-Bildsequenz, die von einem synchronisierten Kamerapaar aufgenommen wird. Dieses wird im nächsten Schritt geclustert (segmentiert), wobei grob gesagt die Bildbereiche, die zu einer zusammenhängenden Fläche gehören, erkannt werden (siehe die beiden vorigen Beiträge). In der obigen Beispieldarstellung sieht man, dass unter Anderem Tischfläche oder Teller jeweils eine Farbfläche bilden.
Aus den Stereobildern wird für jeden Bildpixel die Verschiebung vom linken zum rechten Kamerabild berechnet. Diese sogenannte Disparität gibt später Aufschluss darüber, wie weit die einzelnen Bildbereiche von der Kamera entfernt sind. Anschaulich gilt die Regel: nahe Bereiche besitzten eine hohe Disparität, weit entfernte eine geringere, wie man sich leicht durch wechselseitiges Schließen der Augen deutlich machen kann. Der hier verwendete Algorithmus greift dabei auch auf die Clusterung zurück.
Die nächste Station berechnet einen Graphen, der die Relationen der Cluster wiedergibt. Dies wird später genauer erläutert. An dieser Stelle ausreichend ist, dass hier als wichtigster Schritt berechnet wird, ob sich bestimmte Bildsegmente berühren, sich überlappen oder gar nicht benachbart sind.
Innerhalb der Sequenz ändern sich diese Relationen der Segmente, in diesem Beispiel wird die Wurst auf das Brot gelegt. Bei der Aktionsklassifizierung wird die zeitliche Entwicklung der Relationen betrachtet, um schließlich sagen zu können: Hier wird gerade ein Sandwich belegt. Bei einer grundlegend anderen Aktion, wie zum Beispiel dem Aufklappen eines Buches, verhalten sich auch die Relationen der Segmente ganz anders. Eine andere Aufnahme hingegen, wir nennen es eine andere Version derselben Aktion, zeigt eine ähnliche Entwicklung.
Die bis an diese Stelle dargestellte Klassifizierung verwendet dabei nur die Bewegung der Objekte, aber nicht deren Art/Form. Dies ist jedoch essentiell: Das Belegen eines Sandwiches macht nur mit Brot und Wurst Sinn, und das Öffnen eines Buches eben nur mit einem Buch. Der nötige nächste Schritt erweitert das System deshalb um "Object Action Complexes", der Verknüpfung von Objekten mit den Aktionen, die mit Ihnen durchgeführt werden können.
In den folgenden Beiträgen wird näher auf die hier vorgestellten Mechanismen eingegangen werden.
Referenzen / Weiterführende Links
- Aksoy Eren Erdal, Abramov Alexey, Woergoetter Florentin, and Dellen Babette, "Learning Object-Action Relations from Semantic Scene Graphs"
- Kommentar schreiben

