데이터 웨어하우스는 대량의 정형 데이터 및 때로는 비정형 데이터의 저장, 구성, 검색, 분석 및 관리를 위해 설계된 특수 유형의 데이터베이스입니다. 조직 내의 다양한 소스 또는 여러 조직에서 수집된 데이터의 중앙 저장소 역할을 합니다. 다음은 데이터 웨어하우스의 다양한 측면을 다루는 심층 정의입니다.
- 아키텍처: 데이터 웨어하우스는 일반적으로 데이터 소스, 데이터 통합, 스토리지 및 액세스 계층을 포함하는 계층화된 아키텍처를 사용하여 구축됩니다. 데이터는 종종 분석 쿼리의 읽기 성능을 최적화하기 위해 비정규화된 형식으로 저장됩니다.
- 데이터 통합: 여기에는 관계형 데이터베이스, 플랫 파일, 온라인 트랜잭션 처리(OLTP) 시스템, 외부 데이터 피드 등과 같은 이기종 소스에서 데이터를 수집하는 작업이 포함됩니다. 그런 다음 데이터는 데이터 웨어하우스로 정리, 변환 및 로드(ETL 프로세스)됩니다. .
- 데이터 저장소: 트랜잭션 처리에 최적화된 기존 데이터베이스와 달리 데이터 웨어하우스는 쿼리 및 분석에 최적화되어 있습니다. 데이터는 복잡한 쿼리를 지원하고 효율적인 요약을 가능하게 하는 방식으로 구성됩니다.
공통 데이터 모델에는 스타 스키마와 눈송이 스키마가 포함됩니다.
- 시간 변형: 웨어하우스의 데이터에는 타임스탬프가 지정되고 추세 분석 및 예측을 위해 과거 데이터가 보존됩니다. 이를 통해 조직은 일반적으로 현재 데이터만 유지하는 OLTP 시스템과 달리 데이터의 과거 관점을 가질 수 있습니다.
- 주제 중심: 데이터 웨어하우스는 영업, 마케팅, 재무 등과 같은 주제에 초점을 맞추고 조직 전체에 통합된 보기를 제공합니다. 이를 통해 보다 효율적인 비즈니스 분석 및 보고가 가능합니다.
- 비휘발성: 데이터가 데이터 웨어하우스에 로드되면 자주 변경되지 않을 것으로 예상됩니다. 이는 데이터가 지속적으로 업데이트되는 운영 체제와 대조됩니다.
- 확장성 및 성능: 데이터 웨어하우스는 대량의 데이터를 처리하도록 설계되었으며 복잡한 분석 쿼리에 대해 고성능을 제공해야 합니다. 여기에는 특수 하드웨어, 인덱싱 전략, 메모리 내 처리 및 병렬 처리가 포함되는 경우가 많습니다.
- 보안 및 규정 준수: 데이터 웨어하우스는 민감하고 비즈니스에 중요한 정보를 저장하므로 액세스 제어, 암호화 및 다양한 규제 요구 사항 준수를 포함한 강력한 보안 조치를 구현해야 합니다.
- 데이터 마트: 데이터 웨어하우스 내에는 데이터 마트라고 하는 더 작고 특수화된 하위 섹션이 있을 수 있습니다. 데이터 마트는 조직 내 개별 비즈니스 단위의 특정 요구 사항에 맞게 조정됩니다.
- 비즈니스 인텔리전스(BI) 통합: 데이터 웨어하우스는 종종 시각화, 보고 및 분석 기능을 제공하는 BI 도구와 통합됩니다. 이를 통해 의사 결정자는 데이터에서 통찰력을 얻고 비즈니스 전략을 추진할 수 있습니다.
- 실시간 및 준실시간 기능: 일부 최신 데이터 웨어하우스는 실시간 또는 준실시간 데이터 웨어하우징 기능을 제공하여 시기적절한 통찰력을 제공합니다.
- 클라우드 기반 솔루션: 클라우드 컴퓨팅이 발전함에 따라 이제 많은 데이터 웨어하우스가 클라우드 기반 솔루션으로 제공되어 다양한 규모의 조직에 확장성, 유연성 및 비용 효율적인 옵션을 제공합니다.
- 유지 관리 및 관리: 데이터 웨어하우스의 복잡성으로 인해 지속적인 모니터링, 조정 및 유지 관리가 필요합니다. 적절한 관리를 통해 데이터 품질, 성능 최적화 및 변화하는 비즈니스 요구 사항에 맞출 수 있습니다.
데이터 웨어하우스는 조직 내에서 데이터 분석, 보고 및 의사 결정 지원에 중요한 정교하고 고도로 전문화된 데이터 스토리지 시스템입니다. 조직의 데이터에 대한 통합되고 일관성 있고 포괄적인 보기를 제공하기 위해 다양한 기술, 방법론 및 관행을 캡슐화합니다. 원시 데이터를 의미 있는 통찰력으로 변환할 수 있으므로 조직이 데이터 기반 의사 결정을 내릴 수 있습니다.