데이터 플랫폼에서 스키마 관리는 SW에 다양한 분야에서 다루는 인터페이스를 관리하는 개념과 유사하다.
다양한 시스템 또는 모듈로 이루어진 솔루션은 안정적으로 서비스를 하기 위해서 인터페이스 관리가 아주 중요하다. 인터페이스는 서비스간의 약속이고 서비스간 연동할 수 있는 방법이기 때문에 인터페이스의 설계 뿐만 아니라 유지 관리, 프로세스 또한 중요하다.
데이터 분야에서는 스키마가 이와 같은 인터페이스 역할을 하게된다. 올바른 스키마를 알아야, 각 단계별로 정확한 동작을 할 수 있게 되므로 아주 중요한 분야라고 할 수 있다.
데이터 플랫폼에서는 스키마 레지스트리(스키마 저장소)를 활용하여 스키마를 관리한다. 이 스키마 레지스트리는 데이터 소스별 전체 스키마의 모든 버전을 포함하게 된다.
- 특정 데이터 소스 스키마 정보가 필요하다면, 레지스트리에서 최신 버전을 가져와 보면 된다.
- 특정 데이터 소스의 변화 과정을 분석하기 위해 스키마의 모든 이전 히스토리 정보를 탐색할 수도 있다.
스키마를 관리하는 방법에는 두가지가 존재한다.
- 스키마를 계약으로 다루는 방식
- 데이터 플랫폼의 스키마 관리
구분 | 내용 |
스키마를 계약으로 다루는 방식 | - 애플리케이션 개발자가 애플리케이션에서 생성하는 데이터의 스키마 관리를 책임진다. - 스키마가 애플리케이션 개발자와 데이터 소비자 간의 계약이라 간주되게 된다. - 애플리케이션 개발자는 애플리케이션이 생성하는 모든 데이터에 대한 스키마를 중앙 저장소인 스키마 레지스트리에 게시하고 소비자는 같은 스키마 레지스트리에서 최신 스키마 버전을 가져와 사용하게 된다. |
데이터 플랫폼의 스키마 관리 | - 스키마 관리의 역할과 책임은 데이터 플랫폼 소유자에게 있다. - 데이터 플랫폼에서 스키마 관리시 아래와 같은 이점이 있다. 1. 회복력 있는 ETL 구현이 가능하다. ETL 파이프라인에 장애가 발생하기 전에 스키마 변경을 감지함으로써 대처 가능하다. 2. 스키마 세부 정보가 포함된 스키마 카탈로그를 최신화 할 수 있다. 3. 데이터 세트에 대한 스키마 변경 이력을 확보할 수 있다. 파이프라인 디버기오가 트러블 슈팅 작업을 간소화 할 수 있다. 4. 스키마 관리 단계는 공통 데이터 변환 파이프라인 첫 번째 단계로 구현하는 것이 좋다. |
스키마 변경 모니터링
매번 파이프라인 작동이 멈출 때마다 파이프라인 문제을 알게 되고 그제야 문제 해결을 하는 것은 좋지 않은 방법이다.
스키마 변경에 자동으로 대처할 수 있는 회복력 있는 데이터 파이프라인을 구축하는 것이 중요하다. 또한 스키마 변경이 발생할 때마다 알려주는 경보 메커니증을 확보하는 것이 좋다.
스키마 변경으로 인해 발생 가능한 이슈
- 데이터 파이프라인 처리 단계에서 오류 발생
- 파이프라인은 작동 하였지만, 결과값이 유효하지 않음 (데이터 품질 문제)
스키마 변경을 대비하여, 디폴트 값으로 처리를 하도록 구현하거나 그 외 우회할 수 있는 방법을 도입할 수 있지만, 이와 같은 방법을 모든 상황에 적용 할 수 있는 것은 아니다. 도메인과 데이터의 특징에 따라 또는 데이터 소비자의 목적에 맞게 대비를 해야할 필요성이 있다. 그렇기 때문에 위에서 말한 스키마 변경에 대한 알람과 그에 따른 데이터 엔지니어의 대처법은 중요하다.
스키마 레지스트리
스키마 레지스트리는 데이터 처리 분야의 일반적인 개념은 아니다.
다양한 소스에서 가져온 데이터로 작업이 가능하려면 속성명, 해당 타입, 디폴트 값등이 필요하다.
예로 아브로 스키마 정의가 위에 스펙을 잘 반영한 것으로 보인다.
스키마 레지스트리에 들어갈 정보를 저장하는 저장소로는 대부분 key/value 형식으 DB를 많이 활용한다.
위 내용은 "데이터 플랫폼 설계와 구축:클라우드 데이터 플랫폼 구축 시 고려사항"의 책 내용을 정리한 내용 입니다.
'빅데이터' 카테고리의 다른 글
빅데이터 파일 형식 알아보기(Parquet, ORC, AVRO) (0) | 2023.05.03 |
---|---|
[빅데이터] 데이터 품질 검증 알아보기(AWS Deequ & Glue Data Quality) (0) | 2023.04.13 |
[빅데이터] 메타데이터에 대해 알아보자 (0) | 2023.04.03 |
데이터 플랫폼 - 스토리지 설계 및 구축 방법 (0) | 2023.03.28 |
[데이터 플랫폼] 클라우드 데이터 플랫폼 설계 및 구축 (0) | 2022.10.23 |