Hurtownia danych to wyspecjalizowany typ bazy danych przeznaczony do przechowywania, organizowania, wyszukiwania, analizowania i zarządzania dużymi ilościami ustrukturyzowanych, a czasem nieustrukturyzowanych danych. Działa jako centralne repozytorium danych zbieranych z różnych źródeł w ramach organizacji lub z wielu organizacji. Oto dogłębna definicja obejmująca różne aspekty hurtowni danych:
- Architektura: Hurtownia danych jest zwykle budowana przy użyciu architektury warstwowej, która obejmuje źródła danych, integrację danych, przechowywanie i warstwy dostępu. Dane są często przechowywane w postaci nieznormalizowanej, aby zoptymalizować wydajność odczytu dla zapytań analitycznych.
- Integracja danych: obejmuje zbieranie danych z heterogenicznych źródeł, takich jak relacyjne bazy danych, pliki płaskie, systemy przetwarzania transakcji online (OLTP), zewnętrzne źródła danych itp. Dane są następnie czyszczone, przekształcane i ładowane (proces ETL) do hurtowni danych .
- Przechowywanie danych: W przeciwieństwie do tradycyjnych baz danych, które są zoptymalizowane pod kątem przetwarzania transakcyjnego, hurtownia danych jest zoptymalizowana pod kątem zapytań i analiz. Dane są zorganizowane w taki sposób, aby obsługiwały złożone zapytania i umożliwiały sprawne podsumowywanie.
Typowe modele danych obejmują schemat gwiazdy i schemat płatka śniegu.
- Zmienność czasowa: dane w hurtowni są oznaczane czasem, a dane historyczne są zachowywane, aby umożliwić analizę trendów i prognozowanie. Dzięki temu organizacje mają perspektywę historyczną swoich danych, w przeciwieństwie do systemów OLTP, które zazwyczaj przechowują tylko aktualne dane.
- Zorientowany tematycznie: Hurtownia danych koncentruje się na tematach takich jak sprzedaż, marketing, finanse itp. i zapewnia skonsolidowany widok całej organizacji. Pozwala to na wydajniejszą analizę biznesową i raportowanie.
- Nieulotne: po załadowaniu danych do hurtowni danych nie oczekuje się częstych zmian. Kontrastuje to z systemami operacyjnymi, w których dane są stale aktualizowane.
- Skalowalność i wydajność: Hurtownie danych są zaprojektowane do obsługi dużych ilości danych i muszą zapewniać wysoką wydajność dla złożonych zapytań analitycznych. Często wiąże się to ze specjalistycznym sprzętem, strategiami indeksowania, przetwarzaniem w pamięci i przetwarzaniem równoległym.
- Bezpieczeństwo i zgodność: przechowując poufne i krytyczne informacje biznesowe, hurtownie danych muszą wdrożyć solidne środki bezpieczeństwa, w tym kontrolę dostępu, szyfrowanie i zgodność z różnymi wymogami regulacyjnymi.
- Bazy danych: w hurtowni danych mogą istnieć mniejsze, wyspecjalizowane podsekcje zwane hurtowniami danych. Hurtownie danych są dostosowane do konkretnych potrzeb poszczególnych jednostek biznesowych w organizacji.
- Integracja Business Intelligence (BI) : Hurtownie danych są często integrowane z narzędziami BI, które zapewniają możliwości wizualizacji, raportowania i analizy. Umożliwia to decydentom uzyskanie wglądu w dane i kierowanie strategiami biznesowymi.
- Możliwości w czasie rzeczywistym i zbliżonym do rzeczywistego: niektóre nowoczesne hurtownie danych oferują możliwości magazynowania danych w czasie rzeczywistym lub zbliżonym do rzeczywistego, aby umożliwić bardziej aktualny wgląd.
- Rozwiązania oparte na chmurze: wraz z ewolucją przetwarzania w chmurze wiele hurtowni danych jest obecnie oferowanych jako rozwiązania oparte na chmurze, zapewniając skalowalność, elastyczność i opłacalne opcje dla organizacji różnej wielkości.
- Konserwacja i zarządzanie: złożoność hurtowni danych wymaga ciągłego monitorowania, dostrajania i konserwacji. Właściwe zarządzanie zapewnia jakość danych, optymalizację wydajności i dostosowanie do zmieniających się potrzeb biznesowych.
Hurtownia danych to wyrafinowany, wysoce wyspecjalizowany system przechowywania danych, który ma kluczowe znaczenie dla analizy danych, raportowania i wspomagania decyzji w organizacji. Obejmuje szereg technologii, metodologii i praktyk, aby zapewnić skonsolidowany, spójny i kompleksowy widok danych organizacji. Umożliwia przekształcanie nieprzetworzonych danych w wartościowe spostrzeżenia, umożliwiając w ten sposób organizacjom podejmowanie decyzji opartych na danych.