Een datawarehouse is een gespecialiseerd type database dat is ontworpen voor het opslaan, organiseren, ophalen, analyseren en beheren van grote hoeveelheden gestructureerde en soms ongestructureerde gegevens. Het fungeert als een centrale opslagplaats voor gegevens die zijn verzameld uit verschillende bronnen binnen een organisatie of uit meerdere organisaties. Hier is een diepgaande definitie die verschillende aspecten van een datawarehouse omvat:
- Architectuur: Een datawarehouse wordt meestal gebouwd met behulp van een gelaagde architectuur die gegevensbronnen, gegevensintegratie, opslag en toegangslagen omvat. De gegevens worden vaak opgeslagen in een gedenormaliseerde vorm om de leesprestaties voor analytische query's te optimaliseren.
- Gegevensintegratie: hierbij worden gegevens verzameld uit heterogene bronnen zoals relationele databases, platte bestanden, online transactieverwerkingssystemen (OLTP), externe datafeeds, enz. De gegevens worden vervolgens opgeschoond, getransformeerd en geladen (ETL-proces) in het datawarehouse .
- Gegevensopslag: in tegenstelling tot traditionele databases die zijn geoptimaliseerd voor transactieverwerking, is een datawarehouse geoptimaliseerd voor query's en analyses. De gegevens zijn zo georganiseerd dat ze complexe zoekopdrachten ondersteunen en een efficiënte samenvatting mogelijk maken.
Veelgebruikte datamodellen zijn het sterschema en het sneeuwvlokschema.
- Tijdvariant: gegevens in het magazijn zijn voorzien van een tijdstempel en historische gegevens worden bewaard om trendanalyses en prognoses mogelijk te maken. Hierdoor kunnen organisaties een historisch perspectief van hun gegevens hebben, in tegenstelling tot OLTP-systemen die doorgaans alleen actuele gegevens bewaren.
- Onderwerpgericht: een datawarehouse richt zich op onderwerpen als verkoop, marketing, financiën, enz. en biedt een geconsolideerd beeld van de hele organisatie. Dit zorgt voor efficiëntere bedrijfsanalyses en rapportages.
- Niet-vluchtig: zodra gegevens in het datawarehouse zijn geladen, wordt niet verwacht dat deze regelmatig zullen veranderen. Dit in tegenstelling tot operationele systemen waar data constant worden bijgewerkt.
- Schaalbaarheid en prestaties: Datawarehouses zijn ontworpen om grote hoeveelheden gegevens te verwerken en moeten hoge prestaties leveren voor complexe analytische vragen. Dit omvat vaak gespecialiseerde hardware, indexeringsstrategieën, verwerking in het geheugen en parallelle verwerking.
- Beveiliging en naleving: aangezien ze gevoelige en bedrijfskritische informatie opslaan, moeten datawarehouses robuuste beveiligingsmaatregelen implementeren, waaronder toegangscontrole, codering en naleving van verschillende wettelijke vereisten.
- Datamarts: Binnen een datawarehouse kunnen er kleinere, gespecialiseerde subsecties zijn die datamarts worden genoemd. Datamarts worden op maat gemaakt voor de specifieke behoeften van individuele business units binnen de organisatie.
- Integratie van Business Intelligence (BI) : Datawarehouses zijn vaak geïntegreerd met BI-tools die visualisatie-, rapportage- en analysemogelijkheden bieden. Dit stelt besluitvormers in staat om inzichten uit de gegevens te halen en bedrijfsstrategieën te stimuleren.
- Realtime en bijna realtime mogelijkheden: sommige moderne datawarehouses bieden realtime of bijna realtime datawarehousing-mogelijkheden om meer actuele inzichten mogelijk te maken.
- Cloudgebaseerde oplossingen: met de evolutie van cloud computing worden veel datawarehouses nu aangeboden als cloudgebaseerde oplossingen, die schaalbaarheid, flexibiliteit en kosteneffectieve opties bieden voor organisaties van verschillende groottes.
- Onderhoud en beheer: de complexiteit van een datawarehouse vereist continue monitoring, afstemming en onderhoud. Goed beheer zorgt voor gegevenskwaliteit, optimalisatie van prestaties en afstemming op veranderende zakelijke behoeften.
Een datawarehouse is een geavanceerd, zeer gespecialiseerd gegevensopslagsysteem dat van cruciaal belang is voor gegevensanalyse, rapportage en beslissingsondersteuning binnen een organisatie. Het omvat een reeks technologieën, methodologieën en werkwijzen om een geconsolideerd, samenhangend en alomvattend beeld van de gegevens van een organisatie te bieden. Het maakt de transformatie van ruwe data naar zinvolle inzichten mogelijk, waardoor organisaties in staat worden gesteld om datagestuurde beslissingen te nemen.