Universität des Saarlandes 11.06.2018, 10:05 Uhr

Echtzeit-3D-Modell per Webcam

Gemeinsam mit der US-amerikanischen Universität Stanford und der spanischen Universität Rey Juan Carlos haben Forscher des Max-Planck-Instituts für Informatik in Saarbrücken eine Software entwickelt, welche ein Echtzeit-3D-Modell einer Hand anhand der Bilder einer einzelnen Webcam erzeugt.
(Quelle: Foto: Oliver Dietze / Saarland Informatics Campus)
Die Bewegungen von Hand und Fingern innerhalb von Millisekunden zu erfassen, wird für viele Anwendungen immer wichtiger – angefangen bei virtueller Realität über Mensch-Maschine-Interaktion bis hin zu Industrie 4.0. Bisher war dafür hoher technischer Aufwand notwendig, was wiederum die Einsatzmöglichkeiten beschränkte. Informatiker des Max-Planck-Instituts für Informatik haben nun ein Softwaresystem entwickelt, das aufgrund des Zusammenspiels verschiedener künstlicher neuronaler Netze lediglich die eingebaute Kamera eines Laptops voraussetzt. Erstmals präsentieren die Forscher das Programm am Stand G75 in Halle 27 der Computermesse Cebit, die ab 11. Juni in Hannover stattfindet.
Hält die Informatikerin Franziska Müller ihre Hand vor die Laptop-Kamera, erscheint deren virtuelles Pendant auf dem Bildschirm. Sofort wird dieses von einem bunten, virtuellen Handknochen überlagert. Egal, welche Bewegungen Müllers Hand real vor der Webcam macht, die farbigen Fingerknochen des Modells tun es auch. Müller demonstriert die Software, die sie zusammen mit Professor Christian Theobalt und weiteren Forschern des Max-Planck-Instituts für Informatik in Saarbrücken, der US-amerikanischen Universität Stanford und der spanischen Universität Rey Juan Carlos entwickelt hat. Bisher kommt keine andere Software mit einer solch preiswerten Kamera aus. Da sie damit in nahezu jeder Art von gefilmter Szene funktioniert, ist sie überall einsetzbar und übertrumpft damit bisherige Ansätze, die eine Tiefenkamera oder mehrere Kameras voraussetzten.
Das Rechenverfahren, mit dem die Software die zweidimensionale Information des Videobildes in Echtzeit in das dreidimensionale Bewegungsmodell der Handknochen verwandelt, basiert auf einer speziellen Art von künstlichem neuronalen Netz, einem so genannten „convolutional neural network“, kurz CNN. Die Forscher haben es darauf trainiert, Handknochen zu erfassen. Die dafür notwendigen Trainingsdaten haben sie mit einem weiteren künstlichen neuronalen Netz generiert. Das Ergebnis: Die Software berechnet in Millisekunden die exakten 3D-Posen der Fingerknochen. Selbst wenn einzelne davon durch einen in der Hand gehaltenen Apfel verdeckt werden, beeinträchtigt dies die Software nicht. Lediglich mehrere zusammenarbeitende Hände verwirren die Software bislang noch. Dies zu lösen, ist das nächste Ziel der Forscher.


Das könnte Sie auch interessieren