30.09.2016, 00:00 Uhr
Geld sparen durch Datenanalyse
Datenerfassung passiert inzwischen in großem Stil. Doch Daten, die nur rumliegen, bringen nichts. Zeitnahe Analyse und Erkenntnis sind gefragt. Das ist die Botschaft, die Hortonworks auf seiner Roadshow "Future of Data" vermittelte.
44 Zettabytes an Daten - so Schätzungen - werden im Jahr 2020 erzeugt. Das sind 44 Milliarden Terabyte, also 44 Milliarden Festplatten aktueller Größe. Jedes Jahr verdoppelt sich die Menge an Daten, die verarbeitet und gespeichert werden wollen. Statt vom Internet of Things spricht John Kreisa, Vice President of Hortonworks, vom Internet of Anything. Denn neben Sensordaten sind vor allem die sozialen Medien, Video, Sound aber auch das Klick-Tracking Quellen für große Datenmengen.
Jetzt ist die Frage gar nicht mal, ob man es schafft, die benötigten Datenspeicher herzustellen. Vielmehr steht im Vordergrund, was man mit diesen Daten macht. Wie wertet man sie aus?
Genau das ist das Betätigungsfeld von Unternehmen wie Hortonworks, die sich mit ihrer Software der Verarbeitung von großen Datenmengen verschrieben hat. Die Software besteht aus zwei Teilen: Hortonworks DataFlow (HDF) und Hortonworks Data Platform (HDP).
Schnelldurchlauf Entwicklung im Bereich Big Data
Kurz nach der Erfindung des Feuers - also in den 90er Jahren des letzten Jahrhunderts - legte man die Daten in relationalen Datenbanken (RDBMS) a la Oracle und SQL Server ab. Das war der letzte Schrei. Schnell erkannte man aber, dass allein mit dem Ablegen der Daten in strukturierter Form nichts gewonnen war. Man wollte doch auch Erkenntnisse aus den Daten gewinnen. Also erfand man um die Jahrtausendwende herum das Data Warehouse: Hiermit ließen sich subtile Antworten aus dem Datenbestand kitzeln. Wer aber ein Unternehmen steuern will, der braucht alle Informationen über eine Firma an einem Platz. Das Enterprise Data Warehouse war geboren.
Mit Daten wie Sound, Video, soziale Medien, Klick-Tracking und den Messwerten von Millionen von Sensoren (Internet der Dinge), kamen aber Datenbestände zusammen, für die weder die Speichertechnik eines RDBMS passend ist noch die Art und Weise der Datenanalyse per Abfrage.
Datenbanken wie HBASE beziehungsweise Dateisysteme wie HDFS (Hadoop Distributed File System) sind wesentlich besser geeignet, mit solchen Mengen umzugehen. Anfänglich geschah die Analyse der Daten mit Skripts in einem Map-Reduce-Verfahren. Das Framework Apache Hadoop, das 2006 veröffentlicht wurde, war ein erster aber immer noch genutzter Ansatz.
Der große Nachteil der Skripte ist aber, dass erst nach der Verarbeitung ein Ergebnis vorhanden ist. Eine Einschätzung quasi in Echtzeit ist damit nicht möglich. Das ist aber gerade bei Datenströmen eben von Sensoren oder von Videobildern nötig.
Hinzu kamen die immer größeren Datenmengen. Also bohrte man als erstes das Ganze auf, um Cluster an Rechnern mit der Verarbeitung betrauen zu können (Hadoop Yarn).
Inzwischen ist aus der Sicht von Hortonworks auch das schon fast Technologie von gestern. Denn inzwischen will man mit Yarn.Next und HDFS.Next die Probleme mit Streaming, kleinen Dateien und dem Deployment angehen.
Yarn.Next soll es möglich machen, Daten-verarbeitende Einheiten in Docker-Container zu packen und so auf den Quasi-Standard aufzusetzen, der sich gerade bildet. In so einem Container ist dann eine Assembly enthalten. Hortonworks meint hier im Gegensatz zu den Assemplies unter .NET aber nicht nur ein ausführbares Programm, sondern die Gesamtheit aus Infrastruktur und verarbeitendem Code - eher vergleichbar also einem Microservice.
Die Plattform
Hortonworks unterteilt seine Software in zwei Teile:
Hortonworks DataFlow (HDF)
Die Daten in Bewegung (Data in Motion), sprich die Daten, die direkt von den Quellen kommen, werden durch Software angenommen und vorverarbeitet, bevor sie irgendwie abgelegt werden. Dazu müssen unter HDF keine Scripts geschrieben werden. Die Eigenschaften von HDF sind laut Hortonworks
- Echtzeit
- integriert
- sicher
- streaming
Dabei handelt es sich um ein intelligentes Datensammeln, das auch bidirektional verläuft, sprich HDF gibt auch Informationen an die Quellen zurück.
Hortonworks Data Platform (HDP)
Die vorverarbeiteten Daten gelangen dann zur HDP: Sie werden zu Daten in Ruhe (Data at Rest). Hier passieren dann folgende Dinge
- Verarbeitung
- Steuerung
- Sicherheit: Verschlüsselung ...
HDP ist also das zentrales Management für Daten. Ein hoher Stellenwert kommt hier der Sicherheit zu. Elementar ist aber die Verwaltung. Hier können Metadaten modelliert werden, um die passenden Informationen aus den Daten ziehen zu können.
Hortonworks und ihre Software
Bei Hortonworks von "ihrer Software" zu sprechen, ist eigentlich nicht korrekt. Denn die gesamte Software ist Open Source und somit für jeden kostenlos nutzbar. Und trotzdem: Hortonworks bezahlt die Committer, also die Menschen, die entscheiden, welche neuen Funktionen und Bugfixes in die Software kommen. Die Firma verdient ihr Geld mit Support und Consulting. Außerdem unterstützen namhafte Firmen Hortenworks wie Hewlett Packard Enterprise (HPE). Nach Angaben von Johannes Horneck, Category Manager bei HPE, ist HPE seit zwei Jahren Allianz-Partner und hat bereits 50 Millionen Dollar in Hortonworks investiert.
Geld verdienen - Geld sparen
Big Data zu nutzen, bedeutet aber nicht nur, in neue Technik zu investieren und mit ihr umgehen zu lernen. Es muss auch ein kultureller Wandel im Unternehmen stattfinden. Die Sicht auf die eigene Firma, auf das Geschäftsmodell und die Prozesse muss sich verändern. Mithilfe von Analysen lassen sich interessante Schlüsse aus den Daten ziehen.
Um diesen Wandel zu vollziehen, bedarf es zuerst eines Teams an Mitarbeitern, die Daten lieben. Big Data ist keine Beschäftigung nebenher. Es müsse gelebt werden, meint Dieter Knittel, T-Mobile Austria, die erste Projekte in Big Data umgesetzt haben. Vielmehr kann die Konzentration auf die Daten viele neue Erkenntnisse liefern, die unmittelbar Geld sparen - bei der T-Mobile Austria im bislang sechsstelligen Bereich oder neue Erlösmöglichkeiten aufzeigen.
"Start quick, think big, scale", so sein Motto, sollte als Glaubensbekenntnis hinter der Beschäftigung mit Big Data stehen. Nicht lange große Architekturen aufsetzen, sondern schnell mit einem kleineren Projekt beginnen. Allerdings sollte man das Große und Ganze im Hinterkopf behalten. Funktioniert das kleine Projekt, kann man es hochskalieren.
Und schon ist Big Data nicht mehr etwas, was weh tut oder womit doch die Konkurrenz ruhig ihre Zeit vergeuden soll. Big Data ist etwas, was der eigenen Firma das Überleben sichert - nicht morgen oder übermorgen, aber der Zeitpunkt wird kommen. [tib]