Data warehouse (DW, 데이터웨어하우스) 개념 겉핥기

datawarehouse

DW (Data warehouse)

어떤 기관(예를 들어 기업, 병원)에서 의사결정을 위해 전체 구성원에게서 데이터를 모아 관리하는 데이터베이스이다. 이름 자체에서 어렴풋이 오는 삘링이 의미하는 그것이 맞다.

다음과 같은 특징을 가지고 있다.

  • Subject-orientated: 목표에 맞춰 데이터를 취합하고 분석한다. 예를 들어 ‘어느 과가 병원에 돈을 가장 많이 벌어들이는가?’라는 질문이 있다면 그 질문에 답하기 위한 데이터를 모아서 분석한다.
  • Integrated: 데이터가 다양한 출처에서 다양한 형태로 발생하는데, 이를 한군데로 모으기 위해서는 자료 통합을 잘 하는 것이 중요하다. 변수명이나 측정방법, 표기방법, 단위 등등.
  • Nonvolatile: 데이터가 차곡차곡 쌓이는 속성을 가진다. 새로 발생하는 데이터가 쌓이기만 하고, 기록을 변경하거나 삭제하는 경우는 흔하지 않다.
  • Time-variant: 오랜 기간 동안 데이터를 쌓은 뒤 시간에 따른 변화를 분석하는 것이 중요하다. 예를 들어 수가 정책이 변했을 때 어떤 변화가 일어나는가 등등.

기타등등 특징

  • One version of truth를 제공한다. 여러곳에 산재되어있는 정보를 하나로 정확하게 통합해 쌓아두는 것이 중요.
  • 관리자/분석가가 쉽게 접근하고 원하는 정보를 추출할 수 있는 구조를 가져야 한다.
  • 시간 정보가 중요하다.
  • 주제에 맞춰 필요한 데이터를 필요 이상으로 수집한다. 아무래도 용량이 커진다. 저장 용량이 계속 싸지고 있어서 다행.
  • 데이터가 많더라도 애초에 관심이 없었던 주제라면 필요한 데이터가 없을 수도 있다. 처음에 주제를 잘 잡는 것도 중요.

ETL (Extraction, Transformation, and Loading)

DW에 데이터를 저장하는 과정을 말하는데, 여러 종류의 기기와 운영체제에서 발생하는 데이터를 일원화시켜 저장하는 작업이다보니 DW 설계에서 중요한 부분이다. E, T, L이 명확하게 갈라지지는 않으니 오해 말자. 데이터를 뽑으면서 변환도 시키고, DW에 저장시키면서 변환이 일부 이루어지기도 하는 식이다.

CC BY-NC-SA 4.0 This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Leave a Comment

Your email address will not be published. Required fields are marked *

Time limit is exhausted. Please reload CAPTCHA.