Databricks
24.06.2020, 17:35 Uhr
Mehr Leistung für Cloud Data Lakes
Die neuen Funktionen der Delta Engine sollen Datenteams beim Aufbau eines "Lakehouse" für die einheitliche Datenanalyse helfen. Zudem hat Databricks Redash übernommen.
Databricks stellt Delta Engine vor und gibt die Übernahme von Redash bekannt. Die neuen Funktionalitäten erleichtern den Data Teams die Nutzung der Unified Data Analytics-Plattform für Data Science, Machine Learning und eine breite Palette von Anwendungsfällen der Datenanalyse. Delta Engine ist eine leistungsstarke Abfrage-Engine für Cloud Data Lakes und Redash ist ein Open-Source Dashboarding- und Visualisierungsservice der Data Scientists und Data Analysts zur Datenexploration dient.
Delta Engine ist auf die Nutzung mit Delta Lake zugeschnitten, der beliebten strukturierten Transaktionsebene auf Open-Source-Basis, die Qualität und Zuverlässigkeit in Data Lakes bringt. Organisationen können nun kuratierte Data Lakes erstellen, die strukturierte und halbstrukturierte Daten enthalten, und alle ihre Analysen auf qualitativ hochwertigen, aktuellen Daten in der Cloud ausführen.
Databricks übernimmt Redash, das Unternehmen hinter dem erfolgreichen Open-Source-Projekt Redash, um benutzerfreundliche Dashboarding- und Visualisierungsfunktionen für diese kuratierten Data Lakes bereitzustellen. Mit Redash können Data Scientists und SQL-Analysten die Komplexität des Transfers von Daten zur Analyse in andere Systeme reduzieren.
Zusammen, so Databricks, ermöglichen diese Verbesserungen Unternehmen die Einführung einer einzigen, vereinfachten Cloud-Architektur für das Datenmanagement, wodurch sie Kosten und Komplexität reduzieren und die Produktivität ihrer Data Teams optimieren können. Sie sind auch eine Antwort auf das aufkommende "Lakehouse"-Designmuster, das viele Unternehmen übernommen haben, um strukturierte Transaktionen, Qualität und Leistung in ihre Cloud Data Lakes zu bringen.
Herkömmliche Datenanalysen bei strukturierten und halbstrukturierten Daten erfordern eine hohe Performance, um mit dem Betriebstempo Schritt zu halten. In der Vergangenheit haben Organisationen die Daten in ihren Data Lakes über eine Vielzahl von Data Warehouses und Betriebssystemen dupliziert, da die Tools zur Abfrage und Analyse von Daten für eine schnelle Abfrageausführung nicht gut geeignet sind. Die Bewältigung dieser Komplexität in der Architektur bringt jedoch Herausforderungen mit sich, wie beispielsweise fragmentierte und inkonsistente Datensilos und erheblich höhere Kosten.
Databricks neue Delta Engine für Delta Lake soll eine schnelle Abfrageausführung für Datenanalyse und Data Science erlauben, ohne die Daten aus dem Data Lake zu verschieben. Die Abfrage-Engine mit niedriger Latenz wurde von Grund auf neu entwickelt, um die Vorteile moderner Cloud-Hardware für eine beschleunigte Abfrageleistung zu nutzen.
Delta Lake wurde 2017 von Databricks veröffentlicht und 2019 an die Linux Foundation gespendet.
Redash
Das Open-Source-Projekt Redash wurde ins Leben gerufen, um Data Teams dabei zu unterstützen, ihre Daten sinnvoll zu nutzen. Data Scientists und SQL-Analysten können eine Vielzahl von Datenquellen, einschließlich operativer Datenbanken, Data Lakes und Delta Lake, in thematischen Dashboards zusammenführen. Die Ergebnisse können in einer Vielzahl von Formaten wie Diagrammen, Kohorten und Funnels visualisiert werden und sind leicht zugänglich, sowohl innerhalb einer Organisation als auch für externe Benutzer.
Das Open-Source-Projekt wurde von einer leidenschaftlichen Gemeinschaft von Entwicklern ins Leben gerufen und seit dem Start des Projekts im Jahr 2013 von über 300 Mitwirkenden aus der ganzen Welt aufgebaut. Das Open-Source-Projekt Redash kann heute mit Databricks über einen kostenlosen Konnektor verwendet werden. Redash soll in den kommenden Monaten vollständig in die Unified Data Analytics-Plattform und den Databricks-Workspace integriert werden und Funktionen wie Delta Engine nutzen.