데이터 웨어하우스/데이터 마트/데이터 레이크 란?

Modern Data Architecture

데이터 웨어하우스(Data Warehouse)

  • 데이터(정보) + 웨어하우스(창고) 의 합성어이다.
  • 여러 데이터 소스로들로부터, ETL 과정을 거쳐 하나의 통합된 데이터 창고를 구축한다.
  • 이름에 볼 수 있듯이, 데이터 웨어하우스는 많은 양의 데이터를 오랫동안 보관하는 것에 최적화되어있다.
  • 데이터 웨어하우스에는 업무적으로 중요한 데이터가 저장되고, 전사적인 관점에서 통합하여 관리된다.
  • 따라서 데이터 웨어하우스의 데이터를 아무때나 함부로 사용하는 것은 좋지 않다.

데이터 마트(Data  Mart)

  • 따라서 데이터 웨어하우스의 데이터를 이용하여 분석 및 개발이 필요할 경우, 필요한 데이터를 추출하여 데이터 마트를 따로 구축한다.
  • 전사적인 데이터를 보관하는 데이터 웨어하우스와 달리, 특정 목적에 따라 추출하여 사용한다고 생각하면 되겠다.

데이터 레이크(Data Lake)

  • 빅 데이터는 다양한 포맷으로 적재된다. 하지만 모든 데이터를 데이터 웨어하우스에 그대로 적재할 수 없는 경우도 있다.
  • Ad-hoc 분석과 머신러닝에 대한 분석 수요가 증가하면서, 가공되지 않은 형태의 데이터는 더 효율적으로 다양한 관점의 분석이 가능하다는 장점이 부각되었다.
  • 모든 데이터를 원래의 형태로 적재했다가, 필요에 따라서 가공이 필요하다는 요구사항이 있을 수 있다.
    • 이러한 데이터 저장소를 데이터 레이크라고 부른다.
  • 데이터 웨어하우스와의 큰 차이점은, 미가공된 원시 데이터를 그대로 저장한다는 점에서 차이가 있다.

참조