Een Data Warehouse of Gegevenspakhuis in goed Nederlands is een verzameling van gegevens veelal afkomstig uit één of meerdere transactiesystemen (ook wel registratiesystemen) met als doel deze te combineren tot zinvolle management informatie.
Het opzetten van een gegevenspakhuis wordt aangeduid met de bijzonder Amerikaans klinkende term data warehousing.
De term is geïntroduceerd door William H. Inmon in 1990 en hij definieerde deze als:
A data warehouse is a subject-oriented, integrated, nonvolatile, time-variant collection of data in support of management's decisions.
Iemand die zich bezig houdt met het opzetten van een data warehouse doet aan data warehousing.
Naast Inmon die als pionier kan worden gezien op het gebied van beslissingsondersteuning en data warehousing is het men name Ralph Kimball geweest die een solide theoretische fundering heeft gelegd voor het opzetten van data warehouses waarbij hij ook de vele praktische aspecten duidelijk in zijn boeken naar voren laat komen. Een gerespecteerde Amerikaanse Data Warehousing consultant zei het zo:
Kimball is an expert when it comes to understanding and documenting star schema design and working with the business users. He has created the concept of slowly changing dimensions of reporting - as is versus as was - and has solved every technical issue that has ever been presented to him and those he has discovered on his own. His strength lies in implementation.
In de loop van de afgelopen jaren heeft er een opmerkelijke verschuiving plaatsgevonden. Zaken die voorheen onderdeel waren van een Data Warehouse project, zijn nu onderdeel van Business Intelligence trajecten. Kimball schrijft in Eight Guidelines for Low-Risk Enterprise Data Warehousing
Sinds enkele jaren heet dat wat vroeger 'data warehousing' werd genoemd 'business intelligence'. Dat dit vakgebied van een ander label werd voorzien is echter meer dan een marketing tactiek, omdat het op de juiste wijze aangeeft dat het initiatief en het eigendom van de gegevens bij de eindgebruikers behoort.
Met de term data warehouse wordt tegenwoordig puur de onderliggende gegevensopslagplaats bedoeld waaruit de vele Business Intelligence rapportagetools de gegevens kunnen putten. Het functionele en technische ontwerp van een data warehouse is fundamenteel voor bijvoorbeeld het niveau van detaillering, de onderlinge verbanden en de snelheid waarmee informatie kan worden verkregen.
Naast de hiervoor genoemde goeroes Bill Inmon en Ralph Kimball is er sinds het begin van dit millenium een derde: Dan Linstedt.
Datawarehouses werden tot enkele jaren geleden vooral naar de inzichten van Kimball en Inmon gerealiseerd. Maar in de praktijk bleek voor met name grote bedrijven met enorme data warehouses noch de Hub & Spoke architectuur van Inmon, noch de Bus architectuur met conforme dimensies van Kimball optimaal te zijn.
Volgens de techniek van Kimball wordt in de loop der tijd een groeiend aantal datamarts gebouwd, dat het bewaren van overzicht moeilijk maakt. Inmon vindt dat er lang moet worden vergaderd over een model dat alle mogelijke wensen van de organisatie dient te herbergen met als gevolg dat het data warehouse hierdoor te laat of helemaal nooit af komt. Data Vault wordt door Linstedt omschreven als een detail-georiënteerde, historie-tracerende en uniek gelinkte verzameling genormaliseerde tabellen die meerdere functionele businessdomeinen kunnen ondersteunen. Het ontwerp is flexibel, schaalbaar, consistent en aanpasbaar aan de behoefte van een onderneming.
Op YouTube staat een kort filmpje met een technische uitleg over de verschillende modelleringsvormen 3NF (Hub & Spoke), Star Schema (Bus architectuur) en Data Vault door de DataVaultAcademy (Engelstalig).