Schwieriger als gedacht
Die Fifa kam 2021 auf die ETH zu und wünschte sich einen Datensatz, damit Computer trainiert werden können, um Posen zu schätzen. Zudem wollte sie wissen, was bisherige MPE-Methoden wirklich taugen. Der Weltfussballverband stellte den Forschenden dafür verschiedene Videosequenzen der Fussball-WM 2022 in Katar zur Verfügung, aufgenommen mit verschiedenen Kameras (stationäre und bewegliche Kameras). Dazu weitere Daten wie zum Beispiel die exakten Spielfeld-Masse der einzelnen Stadien.
Drei Jahre lang beschäftigte die Aufgabe die ETH-Forschenden – in der schnellen KI-Welt eine Ewigkeit. «Zu Beginn rechneten wir damit, rasch einen exakten Datensatz zu haben», erinnert sich Jiang. «Wir hatten damals bereits ein System, das Posen und Bewegungen digital präzise darstellen konnte und gingen davon aus, dass sich dieses einfach auf die WM-Aufzeichnungen übertragen liesse.»
Rasch stellten sie fest, dass es ein grosser Unterschied ist, ob man nur einzelne Sequenzen digitalisiert oder ob man das System auf einen grösseren Datensatz anwendet. Zu den technischen Herausforderungen zählten zum Beispiel, dass sich Spieler gegenseitig verdecken, Bewegungsunschärfe oder Probleme bei der Kamerakalibrierung. Auch Verzerrungen der verschiedenen Kameras oder der Zoom der Übertragungskamera stellten sich als knifflig heraus.
Linien müssen perfekt passen
Um sicherzustellen, dass sich der echte und der digitale Spieler am Schluss exakt überlagern, mussten die Forschenden zuerst die Videoaufnahmen der verschiedenen statischen Kameras eines Stadions – mit unterschiedlichen Blickwinkeln – kalibrieren und aufeinander abgleichen. Durch die Kalibrierung werden die spezifischen Eigenschaften von jeder Kamera, wie Brennweite oder Sensorgrösse, genau ermittelt und die Kamera so eingestellt, dass sie die Realität so genau wie möglich erfasst. Denn jede Kamera hat durch ihre Optik gewisse Verzerrungen, etwa bei der Darstellung von geraden Linien.
Dann werden digitale Referenzlinien als visuelle Hilfe über das Kamerabild gelegt. Diese Überlagerung zeigt, wie gut die Kalibrierung funktioniert oder ob es noch Verzerrungen gibt. «Wenn die Kalibrierung stimmt, dann überlagert sich die digitale Feldlinie perfekt mit der echten Feldlinie – aus allen Blickwinkeln», sagt Jiang.
Anhand der perfekt aufeinander abgestimmten Parameter der statischen Kameras kann der Computer dann die Posen und die Bewegungsbahnen der Spieler schätzen. Durch das in der Computer Vision gängige SMPL-Modell wird der digitale Körper so dargestellt, dass er möglichst nah am menschlichen Original ist.
Kommentare
Noch keine Kommentare