Meine Session auf der SQL Server Konferenz 2015 in Darmstadt zeigte mir, dass das Thema Data Vault durchaus polarisiert. Und da ich bei immer mehr Kundensituationen von uns auf Interesse zum Thema Data Vault treffe bzw. auch schon erste Architekturen vorfinde, möchte ich hier mal wieder ein paar Worte zu meiner Sicht der Lage äußern. Meinem Verständnis nach brachte die Diskussion der letzten Monate um die Vor- bzw. Nachteile des Einsatzes der Data Vault Modellierung einen notwendigen frischen Wind in die Data Warehouse Welt. Und zwar jenseits des allgemeinen Big Data Hypes. Data Vault kann durchaus als eine besondere Form des Stagings verstanden werden, wobei ich DV eher als einen Ansatz für die Modellierung eines Core Data Warehouses verstanden habe. Des Weiteren stellt Data Vault die rohen, unveränderten Daten in den Vordergrund. Die Idee dahinter ist, dass es keine einheitliche Wahrheit in einem Data Warehouse geben kann. Diese "Wahrheit" ist häufig durch eine Interpretation geprägt.
Data Vault führt zur Entkopplung von inkrementellen Datenmodell- und ETL-Änderungen, sodass bestehende Systembestandteile nicht verändert werden müssen. ETL-Ladenetze weisen hohe Abhängigkeiten und schlechte Ladezeiten auf, obwohl die Systeme technisch nicht voll ausgelastet sind? Data Vault ermöglicht eine massive Parallelisierung der Ladeprozesse und sehr gute Skalierbarkeit. Tipp: Das Seminar ist Bestandteil der Data Management Professional Zertifizierung! Dr. Hüsemann, Bodo Dr. Bodo Hüsemann ist seit 2005 als Experte für Analytics Systeme für die Informationsfabrik GmbH in Münster tätig. Er studierte Wirtschaftsinformatik und promovierte an der Universität Münster. Seit 2009 ist er Partner der Informationsfabrik und berät Unternehmen bei der Konzeption und Umsetzung komplexer Data Warehouse und Big Data Lösungen. Darüber hinaus führt er als erfahrener Trainer BI-Schulungen und Praxisworkshops für Unternehmen sowie für die Universität Münster durch. Seminarziel In diesem Seminar lernen die Teilnehmer die wesentlichen Grundbausteine des Data-Vault-Modells und die Hauptargumente für den Einsatz kennen.
Da Unternehmen ihre IT im Zuge der Digitalisierung reformieren müssen, stehen traditionelle Data Warehouses unter Druck. Das Data-Vault-Konzept soll hierbei entlasten. Bewährte Ansätze (zum Beispiel Kimball oder Inmon) versagen angesichts der heutigen Anforderungen von Big Data und Analytics, denn sie werden schnell unübersichtlich und unwirtschaftlich. Es fallen nicht nur lange Test- sowie Umsetzungszyklen an, sondern auch eine große Anzahl von Abhängigkeiten beziehungsweise Auswirkungen. Aus diesem Grund ist das Konzept Data Vault entstanden. Es ermöglicht die Anpassung von Architektur und Methodik eines Data Warehouse an sich ändernde Bedingungen. Die Time-to-Market sinkt, denn Entwicklungen lassen sich in vertretbarer Zeit und mit überschaubaren Ressourcen umsetzen. Die Modellierungstechnik stellt eine Lösung für viele Probleme im Data-Warehouses-Bereich dar. Agilität durch Data Vault Das Konzept zeichnet sich durch eine große Anpassungsfähigkeit bei Veränderungen, die Möglichkeit, Datenladeprozesse parallel ablaufen zu lassen, sowie eine bitemporale, umfassende Datenhistorisierung, aus.
Beispielsweise können abhängig von ihrer Änderungshäufigkeit die Attribute desselben Quellsystems in mehrere Satelliten unterteilt werden. Diese Praxis wird den Aufwand für die Datenumstrukturierung weiter minimieren. Es gibt keine "Verbindung" zwischen einem Satelliten und seinem Hub, da ein Kind nicht von mehreren Eltern geteilt wird (im neuronalen System wird ein Dendrit nicht von mehreren Neuronen geteilt). Der untergeordnete Satellit speichert den Ersatzschlüssel des übergeordneten Hubs. Verknüpfung Die Verbindung verbindet zwei Hubs (oder mehr). Wir können jeden Link mit einer oder mehreren Metadaten vervollständigen, um seine Erstellung, seine Aktualisierungen usw. Der Link speichert die Ersetzungsschlüssel der Hubs. Bei der herkömmlichen Modellierung handelt es sich bei der Verknüpfung um eine "Viele-zu-Viele" -Beziehung zwischen Entitäten (Beispiel: Ein Kunde wird von mehreren Verkäufern geworben, ein Verkäufer spricht mehrere Kunden an). Bei der Data Vault-Modellierung werden Satelliten-Hubs (Neuronen) unabhängig von der Kardinalität der Beziehung (viele-zu-viele oder nicht) immer durch Links (Synapsen) verbunden.
The Business of Data Vault-Modellierung, 2. Auflage,, August 2009 81 p. ( ISBN 978-1-4357-1914-9, online lesen) Thomas C. Hammergren und Alan R. Simon, Data Warehousing für Dummies, 2. Auflage, John Wiley & Sons, Februar 2009 ( ISBN 978-0-470-40747-9) Dan Linstedt, Laden Sie Ihr Data Warehouse auf, Dan Linstedt, Dezember 2010 ( ISBN 978-0-9866757-1-3) (de) Ronald Kunenborg, " Data Vault Rules v1. 0. 8 Cheat Sheet ", Data Vault Rules, Zugriff IT (abgerufen am 26. September 2012) Version 1. 8 der Data Vault-Modellierungsregeln (de) Dan Linstedt, " Data Vault-Modellierungsspezifikation v1. 9 ", Data Vault-Forum, Dan Linstedt (abgerufen am 26. 9 der Data Vault-Modellierungsspezifikationen IT-Portal
Vorteile von Data Vault Data Vault bietet viele positive Aspekte für das Unternehmen. Diese stelle ich Ihnen kurz vor. Vorteile für das Business Data Warehousing ist kein IT Selbstzweck. Ziel ist vielmehr die maximale Unterstützung des Unternehmens mit der Bereitstellung aller notwendigen und integrierten Daten für Analysen und Berichtswesen. Was bedeutet das für Unternehmen konkret: Verwaltung und Einhaltung von Compliance Anforderungen (Basel, BCBS 239) Aufdeckung von Geschäftsproblemen, die vorher nicht sichtbar waren Massive Reduzierung von Entwicklungszeit bei der Implementierung von Business Anforderungen Frühere Return of Investment (ROI) Skalierbares Data Warehouse Nachvollziehbarkeit aller Daten bis zum Quellsystem Technische Vorteile Data Vault hat auch in technischer Hinsicht einige positive Aspekte zu bieten. Dabei handelt es sich um: Near-Real-Time Beladung (neben klassischen Batch Lauf) Big Data Processing (>Terabytes) Nahtlose Integration von NoSQL/unstrukturierten Daten Iterative, agile Entwicklungszyklen mit inkrementellen Ausbau des DWHs Wenige, automatisierbare ETL Patterns Data Vault Architektur Data Vault verfolgt mit der Top-Down-Architektur und der Bottom-Up-Implementierung einen hybriden Ansatz.