Big Data mit Apache Spark verarbeiten
13.11.2017, 00:00 Uhr
Das iPhone der Datenwelt
Was nur macht Apache Spark so revolutionär? Seine Fähigkeit, die Big-Data-Landschaft zu verändern.
Über Apache Spark wird viel geschrieben. Die einen preisen die In-Memory-Fähigkeiten, andere schwärmen vom Laufzeitverhalten. Was jedoch Apache Spark wirklich ausmacht, ist, dass es einen ähnlichen Effekt auf die Big-Data-Industrie hatte wie das iPhone auf die Handy-Industrie: Mit der ersten Version stand für viele Anwendungen eine einheitliche Lösung parat.
Vor Apache Spark war das Big-Data-Ökosystem ein regelrechter Zoo. Für jede Anwendung musste eine neue Technologie erlernt werden. Für Batch-Processing gab es MapReduce [1], für Streaming Apache Storm [2]. Maschinelles Lernen wurde mit Mahout [3] abgewickelt und Giraph [4] war die Standard-Graph-Engine. Daneben gab es unterschiedliche Technologien, die Daten aus unterschiedlichen Datenquellen in Hadoop luden, und dazu noch mehrere SQL-Engines. Man brauchte mehrere Entwickler, die all diese Technologien beherrschten. Mit Apache Spark stand dann ein Framework zur Verfügung, das alle Formen der Datenverarbeitung und darauf aufbauende Analytics-Anwendungen in einer Basistechnologie vereinte.
Jetzt 1 Monat kostenlos testen!
Sie wollen zukünftig auch von den Vorteilen eines plus-Abos profitieren? Werden Sie jetzt dotnetpro-plus-Kunde.
- + Digitales Kundenkonto,
- + Zugriff auf das digitale Heft,
- + Zugang zum digitalen Heftarchiv,
- + Auf Wunsch: Weekly Newsletter,
- + Sämtliche Codebeispiele im digitalen Heftarchiv verfügbar