Databricks
08.06.2021, 08:55 Uhr
Delta Live Tables und Unity Catalog
Die neuen Funktionen von Databricks sollen Data Teams helfen, zuverlässige Daten-Pipelines zu optimieren und Unternehmensdatenbestände über mehrere Clouds und Daten-Plattformen hinweg zu erkennen und zu verwalten.
Databricks hat auf dem Data+AI-Summit die Delta Live Tables vorgestellt, welche dazu beitragen sollen die Entwicklung und Verwaltung zuverlässiger Daten-Pipelines auf Delta Lake zu vereinfachen. Außerdem hat das Unternehmen einen neuen, einheitlichen Datenkatalog namens Unity Catalog angekündigt, der es einfach machen soll, alle Datenbestände eines Unternehmens zu entdecken und zu verwalten – mit einer vollständigen Ansicht der Daten über Clouds und bestehende Kataloge hinweg. Der Unity Catalog wird von Delta Sharing unterstützt, dem neuen Open Source-Protokoll für den sicheren Datenaustausch, das ebenfalls heute von Databricks angekündigt wurde. Das Protokoll erlaubt Unternehmen, den Unity Catalog auch für den sicheren Datenaustausch zu nutzen.
Delta Live Tables ist ein Cloud-Service in der Databricks-Plattform, der ETL - Extrahieren, Transformieren und Laden - auf Delta Lake einfach und zuverlässig machen soll, um sicherzustellen, dass die Daten bei der Verwendung für Analysen und maschinelles Lernen sauber und konsistent sind.
Der Prozess zur Erstellung von Pipelines ist heute in hohem Maße manuell und erfordert sehr granulare Arbeit, um sowohl die Anweisungen zu definieren, wie Daten manipuliert werden sollen, als auch wie die Genauigkeit dieser Manipulationen getestet werden soll. Und da die Anzahl der Pipelines als Reaktion auf immer mehr gesammelte und genutzte Daten wächst, wird die Verwaltung und Aktualisierung der Pipelines zu einer großen operativen Belastung. Delta Live Tables lösen diese Herausforderung, so der Hersteller, indem es die Low-Level-Anweisungen abstrahiert und damit viele potenzielle Fehlerquellen beseitigt. Anstatt von einem Data Engineer zu verlangen, dass er erklärt, wie jeder Schritt einer Pipeline funktionieren soll, spezifizieren sie mit Delta Live Tables nur die Ergebnisse, die die Pipeline erreichen muss, indem sie wichtige Programmiersprachen wie SQL verwenden. Delta Live Tables erstellt dann automatisch die Anweisungen sowohl für die Datentransformationen als auch für die Datenvalidierungen und implementiert eine einheitliche Fehlerbehandlung. Die Verwaltung von Pipelines im großen Maßstab wird durch verkettete Abhängigkeiten verbessert, die automatisch nachgelagerte Änderungen ausführen, wenn eine Tabelle geändert wird. Zusätzlich ist Delta Live Tables in der Lage, Pipelines neu zu starten, um kurzzeitige Fehler zu beheben. Wenn der Fehler einen manuellen Eingriff erfordert oder eine neue Geschäftslogik Änderungen an den Daten verlangt, macht es Delta Live Tables den Data-Engineering-Teams leicht, die Fehlerquelle zu lokalisieren, um das Problem schnell zu beheben und die Daten von dort aus neu zu verarbeiten.
Weitere Informationen über die Einführung von Unity Catalog finden Sie unter: https://databricks.com/unity. Mehr zu Delta Live Tables (jetzt für Kunden als Vorschau verfügbar) gibt's unter https://databricks.com/p/product-delta-live-tables.