Scene Graphs und Event Tables
Das hier vorgestellte Verfahren zur Aktionsklassifizierung basiert auf der Clusterung von mit einer Kamera aufgenommenen Bildsequenz. Dieses Vorgehen ist zunächst sehr verwandt mit dem menschlichen Sehen: Auch das Gehirn interpretiert Farbflächen als Einheit. Im Unterschied zum Menschen findet bei unserem Ansatz jedoch erstmal keine Objekterkennung statt - das gesamte Verfahren betrachtet nur die "rohen" Bildsegmente.
Aus den Bildsegmenten werden die Cluster-Relationen ermittelt. Eine solche Relation zwischen zwei Clustern kann die Werte 0 (not connected), 1 (touching) und 2 (overlapping) annehmen. Diese Relationen lassen sich als Graph darstellen, wie in der obigen Abbildung dargestellt ist.
Betrachtet man nun alle Bilder einer Bildsequenz, erhält man ebensoviele Graphen. Auf Grund der Bewegung in der Szene ändern sich diese entsprechend. Hieraus erhält man den Event Table, der in jeder Zeile die Änderung der Relation eines Cluster-Paares enthält.
Die Grundidee für unser Verfahren der Aktionsklassifizierung ist, dass eine Aktion schon anhand dieses Event Tables erkannt werden kann. Haben wir also beispielsweise mehrere verschiedene Videos, auf denen das Machen eines Sandwiches zu sehen ist, so können wir die Event Tables dieser Videos verwenden, um zu erkennen, dass auf ihnen Ähnliches passiert. Anders gesagt können auf diese Weise innerhalb von vielen Videos diejenigen einander zugeordnet werden, die dieselbe Aktion zeigen. Wir sagen, dass es sich bei den gruppierten Videos um verschiedene Versionen derselben Aktion handelt.
Nun stellt sich die Frage nach einem geeigneten Lernalgorithmus. In einem der nächsten Posts werde ich meinen Ansatz mit Neuronalen Netzen vorstellen.
- Kommentar schreiben
