Facebook
02.03.2020, 11:33 Uhr
2D-Fotos mit KI in 3D umrechnen
3D-Fotos für alle: Facebook hat einen neuen, KI-gestützten Algorithmus zum Umwandeln von 2D-Fotos in dreidimensionale Fotos für seine Facebook-App vorgestellt.
Schon vor zwei Jahren hat Facebook eine Funktion für 3D-Fotos für den Austausch von Bildern mit Freunden und Familie eingeführt. Die Funktion basiert auf den Funktionen des "Porträtmodus" mit zwei Linsen, die allerdings nur in höherwertigen Smartphones vorhanden sind. Daher war es bisher auf typischen mobilen Geräten mit nur einer nach hinten gerichteten Kamera verfügbar. Um das 3D-Bildformat mehr Menschen zugänglich zu machen, setzt Facebook nun maschinellen Lernen ein, um 3D-Fotos aus praktisch jedem Standard-2D-Bild zu erzeugen. Das neue System leitet die 3D-Struktur eines jeden Bildes ab, sei es eine neue, gerade gemachte Aufnahme oder oder ein jahrzehnte altes Bild, das auf ein Telefon oder einen Laptop hochgeladen wurde. Auch Nutzer von Geräten mit Doppelkameras können davon profitieren, da sie nun mit ihrer einzigen, nach vorne gerichteten Kamera 3D-Selfies erzeugen können.
Um die gewünschten Ergebnisse zu erreichen, hat Facebook ein Machine-Learning-Modell trainiert, damit es die 3D-Positionen einer breiten Palette von Objekten korrekt ableitet. Das konvolutionelle neuronale Netzwerk (CNN) lernte anhand von Millionen von Paaren öffentlicher 3D-Bilder und der dazugehörigen Tiefenkarten.
- Bei einem Standard-RGB-Bild schätzt das ML-Modell für jeden einzelnen Pixel die Entfernung von der Kamera. Das hat Facebook mit diesen vier Mitteln erreicht:
- Eine Netzwerkarchitektur, die mit einem Satz parametrisierbarer, mobil-optimierter neuronaler Bausteine aufgebaut ist.
- Eine automatisierte Architektursuche, um eine effektive Konfiguration dieser Blöcke zu finden, die es dem System ermöglicht, die Aufgabe in weniger als einer Sekunde auf einer Vielzahl von Geräten auszuführen.
- Quantisierungsbewusstes Training zur Nutzung der leistungsstarken INT8-Quantisierung auf mobilen Geräten bei gleichzeitiger Minimierung möglicher Qualitätseinbußen durch den Quantisierungsprozess.
- Große Mengen an Trainingsdaten, die von öffentlichen 3D-Fotos abgeleitet wurden.
Weitere technische Details dazu, wie Facebook diese Technologie entworfen und umgesetzt hat, lesen Sie auf dieser englischsprachigen Seite.