データ ウェアハウスは、大量の構造化データ (場合によっては非構造化データ) の保管、編成、取得、分析、管理を目的に設計された特殊なタイプのデータベースです。これは、組織内または複数の組織内のさまざまなソースから収集されたデータの中央リポジトリとして機能します。データ ウェアハウスのさまざまな側面をカバーする詳細な定義を次に示します。
- アーキテクチャ: データ ウェアハウスは通常、データ ソース、データ統合、ストレージ、アクセス レイヤーを含む階層化アーキテクチャを使用して構築されます。多くの場合、データは分析クエリの読み取りパフォーマンスを最適化するために非正規化形式で保存されます。
- データ統合: これには、リレーショナル データベース、フラット ファイル、オンライン トランザクション処理 (OLTP) システム、外部データ フィードなどの異種ソースからデータを収集することが含まれます。その後、データはクレンジング、変換され、データ ウェアハウスにロードされます (ETL プロセス)。 。
- データ ストレージ: トランザクション処理用に最適化された従来のデータベースとは異なり、データ ウェアハウスはクエリと分析用に最適化されています。データは、複雑なクエリをサポートし、効率的な要約を可能にする方法で編成されます。
一般的なデータ モデルには、スター スキーマとスノーフレーク スキーマが含まれます。
- 時間変動: ウェアハウス内のデータにはタイムスタンプが付けられ、傾向分析と予測を可能にするために履歴データが保存されます。これにより、通常は現在のデータのみを保持する OLTP システムとは異なり、組織はデータの履歴を把握することができます。
- 主題指向: データ ウェアハウスは、販売、マーケティング、財務などの主題に焦点を当て、組織全体に統合されたビューを提供します。これにより、より効率的なビジネス分析とレポート作成が可能になります。
- 不揮発性: データがデータ ウェアハウスにロードされると、頻繁に変更されることは期待されません。これは、データが常に更新される運用システムとは対照的です。
- スケーラビリティとパフォーマンス: データ ウェアハウスは大量のデータを処理できるように設計されており、複雑な分析クエリに対して高いパフォーマンスを提供する必要があります。これには、多くの場合、特殊なハードウェア、インデックス付け戦略、メモリ内処理、および並列処理が必要になります。
- セキュリティとコンプライアンス: データ ウェアハウスは機密情報やビジネス クリティカルな情報を保管するため、アクセス制御、暗号化、さまざまな規制要件への準拠などの堅牢なセキュリティ対策を実装する必要があります。
- データ マート: データ ウェアハウス内には、データ マートと呼ばれる、より小規模で特殊なサブセクションが存在する場合があります。データ マートは、組織内の個々のビジネス ユニットの特定のニーズに合わせて調整されています。
- ビジネス インテリジェンス (BI)の統合: データ ウェアハウスは、視覚化、レポート、分析機能を提供する BI ツールと統合されることがよくあります。これにより、意思決定者はデータから洞察を得て、ビジネス戦略を推進できるようになります。
- リアルタイムおよびほぼリアルタイムの機能: 一部の最新のデータ ウェアハウスは、よりタイムリーな洞察を可能にするリアルタイムまたはほぼリアルタイムのデータ ウェアハウス機能を提供しています。
- クラウドベースのソリューション: クラウド コンピューティングの進化に伴い、多くのデータ ウェアハウスがクラウドベースのソリューションとして提供され、さまざまな規模の組織に拡張性、柔軟性、コスト効率の高いオプションを提供しています。
- メンテナンスと管理: データ ウェアハウスは複雑であるため、継続的な監視、調整、メンテナンスが必要です。適切な管理により、データの品質、パフォーマンスの最適化、進化するビジネス ニーズへの対応が保証されます。
データ ウェアハウスは、組織内のデータ分析、レポート、意思決定支援に不可欠な、洗練された高度に専門化されたデータ ストレージ システムです。これは、組織のデータの統合された一貫した包括的なビューを提供するために、さまざまなテクノロジー、方法論、実践をカプセル化しています。生データを有意義な洞察に変換できるため、組織はデータに基づいた意思決定を行うことができます。