Datenverarbeitung
02.04.2025, 08:27 Uhr
Ein Data Warehouse für Willibald
Aufbau eines Databricks Warehouse mit Data Vault.

(Quelle: EMGenie)
Durch Tools für Data Warehouse Automation (DWA) lassen sich Cloud Data Warehouses mit deutlich weniger Aufwand aufbauen und pflegen als manuell. Um den Produktversprechen der DWA-Hersteller auf den Zahn zu fühlen und nachzuvollziehen, was und wie im einzelnen Tool funktioniert, hat die Deutschsprachige Data Vault User Group (DDVUG) e.V. vor zwei Jahren die „Willibald Challenge“ aufgesetzt. Hier können DWA-Hersteller zeigen, wie sie allgemeine und fortgeschrittene Probleme im Zusammenhang mit dem Modellierungsansatz Data Vault lösen.
Anhand eines zur Verfügung gestellten Beispieldatensatzes müssen die Anbieter verschiedene Aufgaben lösen, wie etwa das Erkennen von doppelten und gelöschten Datensätzen, das Einrichten grundlegender Data-Vault-Modellierungsstrukturen (Hubs, Satelliten, Links) und die Verwaltung fortgeschrittener Data-Vault-Funktionen wie multi-aktive Satelliten und hierarchische Links – typische, aber komplexe Datenprobleme, mit denen Unternehmen im modernen Datenmanagement konfrontiert sind.
Die DDVUG hat dafür eine fiktive Firma erschaffen: die Samen- und Pflanzenhandlung Willibald. Sie besteht aus zwei Datenbanken, die 13 typische Probleme bei der Erstellung eines Data Warehouse abbilden. Die Datenbanken sind die Basis der DWA Challenge und seit Juni 2023 unter der Creative Commons Lizenz CC Attribution 4.0 International (CC BY 4.0) frei verfügbar. Mittlerweile haben sich sieben Hersteller der Challenge gestellt. Mit welchen Lösungen und Ansätzen sie an die Datenbankorganisation gegangen sind, ist in dem frei zugänglichen Portal in einem Katalog von 21 Kriterien nachzuvollziehen.
Als jüngster Teilnehmer hat der finnische DataOps-Anbieter Agile Data Engine (ADE), in Deutschland vom Standort München aus aktiv, die Challenge angenommen. Kernprodukt von ADE ist die gleichnamige All-in-One-Softwareplattform zur Entwicklung, Bereitstellung und zum Betrieb von Datenprodukten und -Pipelines. Mit ihr hat Agile Data Engine anhand der Daten aus dem Saat- und Pflanzguthandel ein Warehouse auf Databricks aufgebaut. Für Databricks als zugrunde liegende Cloud-Plattform hatte sich ADE entschieden, weil diese die Speicherskalierbarkeit eines Data Lakes mit den Datenverwaltungsfunktionen eines herkömmlichen Warehouses kombiniert.
Aufbau des Data-Vault-Modells auf Databricks
Grundlage für das Data Vault-Modell sowie die Erstellung und Verwaltung von Hubs, Satelliten und Links auf Databricks bildete die Agile-Data-Engine-Plattform. Mit Databricks SQL wurden die Prozesse rationalisiert und alle Kernkomponenten eingerichtet, von der Identifizierung von Beziehungen über die Steuerung von Schlüsselmustern bis hin zur Handhabung von Duplikaten, Löschungen oder Datenquellen ohne Primärschlüssel. Die SQL-Engine von Databricks ermöglicht die Handhabung komplexer Beziehungen zwischen Entitäten, wobei die Datenintegrität über alle Ebenen hinweg gewahrt bleibt.
Erweiterte Data-Vault-Komponenten
Über die Standardmodellierung hinaus implementierte ADE fortgeschrittene Funktionen: Multiaktive Satelliten, die gleichzeitige Datensätze für Entitäten mit mehreren aktiven Instanzen verarbeiten, und Effektivitäts-Satelliten, die Änderungen in den Beziehungen verfolgen. Sie wurden in der Automatisierungsplattform konfiguriert, hierarchische und transaktionale Verknüpfungen damit verwaltet.
Datenqualität und Integritätsprüfungen
Das Aufspüren von Duplikaten und Löschungen ist eine häufige Aufgabe im Datenmanagement, die jedoch oft sehr ressourcenintensiv ist. Databricks SQL, kombiniert mit den Datenqualitätsüberwachungswerkzeugen von Agile Data Engine, ermöglichte hier das Einrichten entsprechender Kontrollen und Abgleiche. Die SQL-native Unterstützung erleichterte das Schreiben von Abfragen und die Validierung von Daten. Dies stellt sicher, dass doppelte Datensätze und Löschungen effektiv verwaltet werden, ohne die Modellleistung zu beeinträchtigen.
Integrierte Business Intelligence
Die Unity-Catalog-Lineage-Funktion von Databricks bietet einen guten Einblick in die Datentransformationen und die Lineage im Data Vault-Modell auf Spaltenebene. Sie hilft, Änderungen in der Pipeline zu verfolgen und liefert wichtige Erkenntnisse für die Fehlersuche und Optimierung. Databricks unterstützt auch die BI-Integration, wodurch sich das Data Vault-Modell mit Visualisierungs- und Berichtstools verbinden lässt. Data Vault-Herausforderungsergebnisse lassen sich damit direkt im Databricks-Dashboard visualisieren. Dies strafft den Prozess von der Datenaufbereitung bis hin zu verwertbaren Erkenntnissen und macht den Einsatz zusätzlicher technischer Tools überflüssig.
Matti Karell, CEO von Agile Data Engine