Kamerabasiertes Multi-Personen-Tracking: Wenn Maschinen sehen können, wohin sich Menschen bewegen

Was ist Personen-Tracking?

Beim Personen-Tracking wird die räumliche Position eines oder mehrerer Menschen von einem Computersystem erfasst und im zeitlichen Verlauf nachverfolgt.

Je nach Anwendungsfall variieren dabei der Aufbau von Tracking-Systemen und die genutzte Sensorik. Beim kamerabasierten Personen-Tracking bilden Kameras die Grundlage, um den zu erfassenden Bewegungsbereich abzudecken. In kleinen Arealen genügt eine Kamera, je nach Situation mit Weitwinkelobjektiv. Um größere Flächen abzudecken, werden mehrere Kameras benötigt.

Kameras wirken auf den ersten Blick umständlicher als z.B. Bluetooth-Beacons, denn sie müssen mit weitaus mehr Herausforderungen zurechtkommen, etwa sich verändernde Umgebungs- oder Lichtverhältnisse. Allerdings bieten Kameras den entscheidenden Vorteil, über Personen-Tracking hinaus Informationen liefern zu können: die Körperpose einer Person, ihre Orientierung, ihren Aufmerksamkeitsfokus, Zeigegesten und mehr.

Reine Personen-Tracking-Systeme ohne ergänzende Erfassungskomponenten (beispielsweise Gesichtsidentifikation) liefern bereits vielfältige Informationen über die erfasste Arbeitsumgebung. So wissen Computersysteme und Maschinen, die auf Tracking-Systeme reagieren, ob überhaupt Personen anwesend sind. Durch die Erkennung, aus welcher Richtung sich eine Person nähert, kann unter Umständen geschlussfolgert werden, womit sie sich zuletzt beschäftigt hat oder was ihr Interaktionskontext mit einer Maschine ist. Ebenso kann eventuell vorhergesagt werden, wohin die Person gehen wird – was eine Aussage über ihre Absicht ermöglicht.

Das Personentracking des Fraunhofer IOSB wurde in zahlreichen Umgebungen erfolgreich eingesetzt. Hier ist ein Beispielbild des Trackings im Magdeburger Elbedome am Fraunhofer IFF dargestellt. Kameras in der Decke tracken alle Personen. Deren erkannte Position wird auf dem Boden mit Projektoren markiert.

Einsatzbereiche

Personen-Tracking lässt sich in vielfältigen Bereichen einsetzen. Neben gängigen Anwendungsbeispielen wie der zivilen Sicherheitsüberwachung im öffentlichen Raum oder der Personenzählung im Supermarkt kann Personen-Tracking auch signifikante Vorteile im Produktionsumfeld und anderen interaktiven Umgebungen schaffen. Sobald Wissen über die Anzahl der anwesenden Personen und deren Bewegungen zur Sicherheit, Effizienzsteigerung oder Interaktion verwendet werden kann, bietet sich Personen-Tracking an. Es lässt sich in der Regel dank inzwischen verfügbarer fortschrittlicher KI-Technologien selbst in herausfordernden Umgebungen realisieren, die auch auf schlecht aufgelösten Kamerabildern oder bei unvorteilhafter Belichtung robuste Tracking-Ergebnisse liefern.

Das Fraunhofer IOSB entwickelt Personen-Tracking-Systeme für eine Vielzahl verschiedener Anwendungsfelder. Das Mixed-Reality-Labor im Elbedome des Fraunhofer IFF in Magdeburg wurde mit einer zugeschnittenen Lösung ausgestattet, weil das Labor eine sehr große Erfassungsfläche und eine sehr hohe Deckenhöhe aufweist. Die Kameras hängen in weiter Höhe (ca. 5m) und müssen aufgrund der Dunkelheit in der Umgebung mit aktiver Infrarotbeleuchtung unsichtbar für Menschen die Erfassungsfläche ausleuchten. Es wurden 16 Kameras installiert, die in Echtzeit ausgewertet werden. Das implementierte Multi-Personen-Tracking erlaubt zudem auch das Clustern von Gruppen, so dass Personen, welche nah beieinanderstehen und interagieren, zu einer zusammengehörigen Personenansammlung zusammengefasst werden. Entfernen sich die Personen wieder voneinander, wird dieses Cluster automatisch in die einzelnen Personen zerlegt.

Der Elbedome ist ein Beispiel, in dem eine interaktive Umgebung auf erkannte Personen reagiert. Ebenso kann Personen-Tracking dazu eingesetzt werden, um Bereiche zu sichern, die von Personen nicht betreten werden sollen. Virtuelle Zäune, sogenannte Virtual Fences, können dazu eingesetzt werden, bestimmte Areale vor Zutritt zu schützen und bei unerlaubtem Betreten einen Alarm auszulösen. Am anderen Ende des Einsatzspektrums lassen sich Personen-Tracking-Systeme für proaktive Anwendungen einsetzen, die automatisch eine Handlung anbieten, sobald erkannt wird, dass der Bedarf des Nutzers damit beantwortet werden kann. Nähert sich etwa ein Werker mit einem Bauteil einem Roboter, kann dieser ohne weiteres Zutun den Greifer ausfahren und das Bauteil entgegennehmen. Mensch und Maschine werden so auf intuitive Art und Weise kooperativ.

Die Vielzahl möglicher Anwendungsfälle lässt sich an dieser Stelle nicht erschöpfend auflisten, umfasst aber interaktive Schaufenster, Werbetafeln in Fußgängerzonen oder sicherheitsbezogenes Crowdmanagement bei Demonstrationen oder anderen Menschenansammlungen. Personen-Tracking bildet also in der Regel immer dann die Grundlage, wenn aufmerksame beziehungsweise intelligente Systeme auf Personen reagieren sollen und zusätzlich erkennen müssen, ob Personen überhaupt anwesend sind und falls ja, wo sie sich aufhalten.

Begriffsabgrenzungen: Personen-Detektion, Personen-Tracking, Personen-Identifikation und Personen-Wiedererkennung

Personen-Detektion

Unter Personen-Detektion versteht man die (anonyme) Anwesenheitserkennung von Personen in einem Kamerabild. Durch die Anwesenheitserkennung ergibt sich in der Regel automatisch auch eine Positionsbestimmung – wenngleich auch nur im Kamerabild in 2D. Merkmale, anhand derer Personen detektiert werden, können dabei vielfältig gewählt werden. Sie reichen von einfachen visuellen Merkmalen wie Farbe oder Körpersilhouette bis hin zu komplexen, für Menschen nur schwierig interpretierbaren Merkmalen wie typische Gangmerkmale, die mithilfe maschineller Lernverfahren kombiniert werden.

Personen-Tracking

Darauf aufbauend erweitert Personen-Tracking die Detektion auf Kamerabildfolgen bzw. Videos und ordnet pro Kamerabild die detektierten Positionen denselben Personen zu, ohne sie von Bild zu Bild zu verwechseln. Während bei einer Detektion im einzelnen statischen Bild nach Personenmerkmalen gesucht werden muss, kommt beim Tracking erschwerend die Bewegung der Personen, sich verändernde Körperposen und Orientierungen zur Kamera sowie sich verändernde Umgebungs- und Beleuchtungsbedingungen hinzu. Wie bei der Detektion werden Personen allerdings nur anonym behandelt und lediglich zur Unterscheidung untereinander differenziert, z.B. »Person 1«.

Personen-Identifikation

Die Personen-Identifikation dient dazu, eine Person als Individuum zu identifizieren. In der Regel geschieht dies, um sicherheitskritische Infrastrukturen abzusichern, Personen an einem System anzumelden, personalisierte System-Präferenzen für die jeweilige Person zu laden oder andere individuelle Eigenschaften einer Person in Erfahrung zu bringen, etwa ihre jeweilige Expertise im Kontext einer heterogenen Personengruppe. Bei der Identifikation können auch verschiedene Merkmale eingesetzt werden. Zum Beispiel können in einer voreingeschränkten Personengruppe Individuen anhand sekundärer Merkmale wie dem Körpervolumen unterschieden werden. Bevorzugt wird bei der Personen-Identifikation jedoch die die Gesichtsidentifikation eingesetzt. Einschränkung dabei ist natürlich, dass das Gesicht auch zur Kamera gedreht sein muss und die Aufnahme hinreichend detailreich ist, um eine Zuordnung zu gespeicherten Beispiel-Gesichtern zu erlauben. Gegebenenfalls müssen mehrere Kameras eingesetzt werden, um bei zu erwartenden Rotationen des Kopfes auf alternative Perspektiven zurückgreifen zu können.

Personen-Wiedererkennung

Wie das Tracking die Detektion auf Bildfolgen erweitert, ermöglicht die Personen-Wiedererkennung, ein- und dieselbe Person in Videobildströmen wiederzufinden und korrekt zuzuordnen. Verlässt Person A den Erfassungsbereich von Kamera 1, soll sie beim Betreten des Bereichs von Kamera 2 wiedererkannt werden. Gelingt das nicht, besteht die Gefahr, dass die Person als neue, unbekannte Person getrackt wird oder mit dem Track einer anderen Person assoziiert wird. Dies zu verhindern ist eine Herausforderung, wenn verschiedene Kameraperspektiven verschiedenen Umgebungsbedingungen ausgesetzt sind. Wenn beispielsweise in einer Kamera starkes Gegenlicht vorhanden ist oder die erfasste Umgebung durch farbiges Licht verfälscht wird, kann der blaue Pullover einer Person unter Umständen farblos oder andersfarbig erscheinen.

Systemanforderungen und Systemgrenzen

Mit welcher Ungenauigkeit (in Zentimetern) arbeiten heutige Personen-Tracking-Systeme? Und wie viele Personen können voneinander unterschieden werden?

So naheliegend diese Fragen sind, so schwierig ist ihre pauschale Beantwortung. Die Genauigkeit, mit der die Position einer Person bestimmt werden kann, hängt von den Umgebungsbedingungen, der Kameraperspektive und den zugrundeliegenden Merkmalen ab, mit denen die Personen im Kamerabild detektiert werden. Von den verwendeten Merkmalen hängt beispielsweise ab, ob der Mittelpunkt des Körpervolumens oder alternativ z.B. der Kopfmittelpunkt getrackt wird. Der Mittelpunkt des Körpervolumens kann insbesondere durch Kleidung stark beeinflusst werden, beispielsweise durch das Tragen einer Daunenjacke. Dreht eine Person ihren Kopf, wird die Erfassung des Kopfmittelpunktes erschwert. Ein weiterer Aspekt, der Systeme herausfordert: Sollen Körpersilhouetten dreidimensional nachvollzogen werden oder ist der Mittelpunkt des Schattens auf dem Boden relevant? Je nach verfügbarer Kameraauflösung und Entfernung der Person von der Kamera kann eine Person wenige Pixel klein oder bildfüllend erscheinen. Pauschal lassen sich Tracking-Systeme daher nicht bewerten und müssen immer im gegebenen Anwendungsfall diskutiert werden. Dank heute verfügbarer KI-Verfahren, insbesondere Deep Learning, sind inzwischen auch solche und andere herausfordernde Situationen beherrschbar. Ähnlich verhält es sich mit der Personenanzahl, ab der ein System an seine Grenzen kommt. Stehen die Personen weit genug auseinander, sind Verwechslungen so gut wie ausgeschlossen. Ausschlaggebend wirken sich hier neben der Kamera-Auflösung und -Perspektive auch die Raumgröße und die zur Verfügung stehende Kamera-Anzahl aus. Zudem spielt die zur Verfügung stehende Rechenleistung eine entscheidende Rolle, mit der Personenmerkmale in Echtzeit verarbeitet werden müssen.