08.01.2014, 00:00 Uhr

Wie Google die Hausnummern aus Street-View-Bildern liest

Die Millionen Hausnummern aus den Street-View-Bildern zu erkennen und einzutippen wäre eine endlose Sklavenarbeit. Google setzt dafür ein neuronales Netzwerk ein. Ein Artikel der Cornell University beschreibt wie es gemacht wird.
Auf den von Google erfassten Street-View-Bildern sind inzwischen knapp 100 Millionen Hausnummern zu finden. Das sind für den Betreiber von Google Maps äußerst wertvolle Informationen. Kann die Software die Nummern entziffern, lässt sich damit Google Maps entscheidend verbessern, weil die Hausnummern korrekt zugeordnet werden können. Das gilt insbesondere für Länder wie Südkorea, wo die Hausnummern scheinbar keine logische Reihenfolge haben (die Reihenfolge nach dem Baudatum eines Hauses ist zwar logisch, hilft aber nicht beim Auffinden einer Adresse).
Das Problem: Die Street-View-Kamera hat die Hausnummern in allen erdenklichen Winkeln abgelichtet, nur selten frontal und perfekt ausgeleuchtet. Dazu kommt, dass die Ziffern alles andere als einheitlich sind. Mal kommt eine aus dem Urlaub mitgebrachte Terrakotta-Fliese mit etlichen Verzierungen zum Einsatz, mal sind die drei Ziffern einer Hausnummer in unterschiedlicher Höhe angebracht. Das ist für einen Computer kaum zu lösen, denkt man. Zumal der Einsatz eines Computers nur dann sinnvoll ist, wenn er dieselbe Genauigkeit und dasselbe Tempo schafft wie ein Mensch. Wie zu erwarten war, hat Google das Problem gelöst und stellt sogar Informationen über die Lösung zur Verfügung.
In der Lösung kommt ein Neuronales Netzwerk zum Einsatz, das mit 200.000 der Nummern nebst Lösungen trainiert worden ist. Der Trainingslauf dauerte laut Ian Goodfellow sechs Tage lang. Dabei wurden die Ziffern nicht voneinander separiert, sondern die Hausnummern komplett an das Netzwerk übergeben. Inzwischen erreicht das System eine Genauigkeit von 98 Prozent, ist damit genauso gut wie ein Mensch, allerdings schneller. Das Auslesen aller in Frankreich fotografierten Hausnummern dauert laut Goodfellow gerade mal noch eine Stunde. Als Hardware kommt dabei nicht irgendein Computer zum Einsatz, sondern die "Google Infrastruktur".
Laut Goodfellow könnte das System in Zukunft auch zur Text-Transkription oder zur Spracherkennung zum Einsatz kommen. Wer tiefer in das Thema einsteigen möchte, der kann sich den Artikel "Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks" von Ian J. Goodfellow, Yaroslav Bulatov, Julian Ibarz, Sacha Arnoud und Vinay Shet aus der Bibliothek der Cornell University von dieser Seite laden. Im PDF wird die Vorgehensweise auf zehn Seiten näher beschrieben. [bl]



Das könnte Sie auch interessieren