Inhoud

Data Vault Modellering

Een data warehouse opzetten volgens de Data Vault Modelleringstechniek garandeert een detail-georiënteerde, historie-tracerende en uniek gelinkte verzameling genormaliseerde tabellen die meerdere functionele businessdomeinen kan ondersteunen. Data Vault maakt het mogelijk om informatie uit diverse bronnen op een gestandaardiseerde manier te koppelen.

Data Vault is met name geschikt voor de zeer grote bedrijfsbrede gegevenspakhuizen, ofwel Enterprise Data Warehouses, van banken en andere financiële instellingen die een audit trail verplichting kennen.

Concept

Het concept van Data Vault Modellering is bedacht door Dan Linstedt en stamt uit 1990. De methode is echter pas in 2000 geïntroduceerd na een langdurig en zorgvuldig validatietraject. Data Vault Modellering behoort tot het publieke domein en is gratis beschikbaar.

Omschreven als een detail-georiënteerde, historie-tracerende en uniek gelinkte verzameling genormaliseerde tabellen die meerdere functionele businessdomeinen kan ondersteunen, is Data Vault is bij uitstek geschikt voor het koppelen van informatie uit diverse bronnen.

Het leggen van deze domeinkoppelingen is zelfs mogelijk zonder dat van tevoren bekend hoeft te zijn welke informatie ontsloten gaat worden. Data Vault levert altijd de optimale mogelijkheid om nieuwe informatie op te slaan en met andere informatie te verbinden.

Door de wijze van opslag kunnen ook alle structuren in de data goed onderzocht worden. Data Vault vormt een sterke basis voor het verrijken van eigen informatie met externe data van internet en commerciële informatieleveranciers. Een Data Vault kan echter niet rechtstreeks gebruikt worden om management informatie uit te verkijgen. Hiervoor is een vertaalslag naar, bij voorkeur, een dimensionaal gemodelleerde database noodzakelijk die benaderbaar is met een Business Intelligence tool.

Voordelen

Enkele van de kenmerkende voordelen van een data warehouse gemodelleerd volgens de Data Vault methode zijn:

  1. Alle datawarehousegegevens zijn traceerbaar tot aan de bron waarin deze geregistreerd worden of werden;
  2. Alle beschikbare detailgegevens worden min of meer rücksichtslos bewaard, zodat deze in een later stadium alsnog in een informatiebehoefte kunnen voorzien;
  3. De modelleringstechniek is grotendeels gestandardiseerd en kan in hoge mate geautomatiseerd worden.

Met name kenmerk 1, ook wel audit trail genoemd, is voor banken en andere financiële instellingen tegenwoordig van zeer groot belang en wordt vaak verplicht gesteld door controlerende instanties.

Nadelen

Nadelen zijn er natuurlijk ook. Enkele hiervan zijn:

  1. Veel organisaties zijn nog initiële gebruikers en vinden het niet noodzakelijk om geld te investeren in een oplossing die mogelijk in de toekomst voordelen biedt;
  2. Veel 'first time users' verwachten snel resultaat bij de ontwikkeling van een data warehouse, hetgeen door het eerst ontwikkelen van een Data Vault en vervolgens een dimensionaal model lastiger is te realiseren;
  3. Een Data Vault leidt eerder tot een brondata-gedreven data warehouse in plaats van een vraag gestuurd data warehouse. Alles wat in een bronsysteem wordt geregistreerd, blijft in de Data Vault bewaard 1);
  4. Er zijn momenteel weinig geautomatiseerde tools die een Data Vault met de daarbij benodigde ster- of snowflake-modellen kunnen genereren uit een bronsysteem.

Vraag of opmerking

Ik heb een vraag of opmerking over de informatie op deze pagina.

1)
Ook Kimball en zijn volgelingen neigen trouwens steeds meer naar het bewaren van zoveel mogelijk detailgegevens. Maar het is sec gezien beter om vanuit de (potentiële) informatiebehoefte van de organisatie terug te redeneren naar de opslagbehoefte van een organisatie en het niveau van detaillering.