본문 바로가기

데이터플랫폼설계

(2)
[빅데이터] 메타데이터에 대해 알아보자 메타데이터 개념 메타데이터는 간단히 말해 "다른 데이터에 대한 정보를 제공하고 설명하는 데이터의 집합"을 의미합니다. 데이터 플랫폼과 데이터 관리 영역에서의 메타데이터는 자체 데이터를 더 잘 관리하는 데 도움이 되는 정보라고 할 수 있습니다. 데이터 플랫폼에는 두 가지 유형의 메타 데이터가 존재 합니다. 1. 비즈니스 메타데이터 2. 파이프라인 메타데이터 (데이터 플랫폼 내부 메타데이터) 비즈니스 메타데이터 데이터 관리 측면에서의 메타데이터를 의미합니다. 여기서 말하는 메타데이터는 데이터의 발생 조직(세일즈 부서, HR), 데이터 소유자, 생성 일자 및 시간, 파일 크기, 데이터의 용도 등을 설명하는 정보가 해당되게 됩니다. 비즈니스 메타데이터의 주요 역할은 최종 사용자에게 데이터 검색을 용이하게 하는 ..
데이터 플랫폼 - 스토리지 설계 및 구축 방법 데이터 플랫폼의 데이터 저장소 구성시, 명확하고 일관된 원칙을 갖는 것이 중요하다. 이 일관된 원칙은 표준화된 파이프라인 구축이 가능하게 하고 대규모 파이프라인을 효율적으로 관리 할 수 있게 도와준다. 아래 그림은 많은 유스케이스를 충족시킬 수 있는 스토리지 구성 패턴이다. (1) 수집 계층에 데이터는 랜딩(Landing) 영역에 저장된다.랜딩 영역은 원시 데이터가 처리될 때까지 저장돼 있는 곳이다. (랜딩 영역에 기록할 수 있는 계층은 오직 수집 계층이다.) (2) 원시 데이터는 일련의 공통 변환 과정을 거치게 된다. 그리고 스테이징 영역에 저장된다. (3) 원시 데이터는 랜딩 영역에서 아카이브 영역으로 복제된다. 아카이브 영역에 원시 데이터의 활용 목적은 재처리가 필요한 경우, 파이프라인 디버깅을 해..