728x90
반응형
Lake Formation
데이터레이크(Data Lake)란?
- 데이터레이크는 정형 혹은 비정형 데이터에 상관 없이 어떤 규모에서도 저장 및 분석이 가능한 단일 저장소를 이야기 한다.
- 주요하게 기억해야 할 사항
- 데이터 형식에 제약이 없어야 한다. (정형, 비정형, 반정형 모두 지원되어야 한다)
- 규모에 제약이 없어야 한다. (다양한 규모의 데이터를 지원할 수 있어야 한다)
- 단일 저장소 형태여야 한다.
- 데이터레이크를 위한 필수 사항 : 모든 규모의 정형 및 비정형 데이터를 관리, 탐색, 공유, 분석 할 수 있는 유연하고 안전한 저장소
구분 | 내용 |
데이터 저장소 | 단일 지점에서 모든 데이터를 활용할 수 있어야 한다. |
데이터 형식 | 다양한 데이터 형식을 모두 지원 가능해야 한다. 정형, 반정형, 비정형, 원시 데이터 |
데이터 포맷 | 읽기 쉬운 스키마 및 저비용 스토리지를 위한 형식이 필요하다. |
데이터 처리 아키텍처 | 데이터 수집 및 소비를 빠르고 효율적으로 할 수 있어야 한다. - 대부분 스토리지와 컴퓨팅 자원을 분리한 아키텍처 구조를 가지고 있다 |
데이터 암호화 및 보안 규칙 지원 필수 |
AWS S3가 데이터 레이크에 적합한 이유
NO | 내용 |
1 | 우수한 내구성, 가용성 및 확장성 |
2 | 객체 수준의 제어 가능 |
3 | 비용 최적화 기능 제공 (지능형 계층화) |
4 | 다양한 분석 도구 제공 |
5 | 콜드 스토리지 및 아키이브 기능 제공 |
6 | 보안, 규정 준수 및 감사 기능 제공 |
데이터 레이크의 운영상의 어려운 점들
- 데이터 수집 및 관리의 어려움
- 보안 및 거버넌스의 어려움
- 데이터 레이크의 보안이 어려운 이유
- 데이터 레이크 스택간 권한 통합 필요 : 스토리지, 메타 데이터, 컴퓨팅의 분리 각 시스템은 서로 다른 권한체계를 보유하고 있어 권한의 동기화를 하기 어렵다.
- 액세스를 제한하기 위해 세분화된 권한 적용 필요 : 데이터 레이크는 대규모 데이터를 보유 하고 있다. 사용자는 일부만 접근해야 하기 때문에 데이터를 세분화 해서 분리해야 하는 경우가 많이 발생한다.
- 데이터 및 사용자 관리를 위한 확장 가능한 권한 필요 : 데이터와 사용자는 지속적으로 추가되고 삭제 된다. 이것을 서포트 할 수 있어야 한다.
- 데이터 레이크의 보안이 어려운 이유
- 셀프 서비스 분석, 데이터 공유, 외부 통합의 복잡성
위 문제를 해결할 수 있는 방법이 바로 AWS Lake Formation 서비스이다.
- 안전하고 완벽한 데이터 레이크를 구축할 수 있는 완전 관리형 서버리스 서비스이다.
Lake Formation이 제공하는 기능
- 액세스를 관리하는 단일 장소
- 오픈 파일 포맷 지원
- 효율적인 공유
- 통합 도구 생태계
- 비용 효율성
Lake Formation의 권한 모델
- DB 스타일의 세분화된 권한 제공
- 리소스(Catalog, Database, Table 등..)에 대한 접근 권한을 각 주체(IAM User, Roles 등..)에게 부여할 수 있다.
- 카탈로그 리소스에 대한 세분화된 권한 제공
- 테이블 형식의 권한 부여 : 컬럼, 로우, 셀 단위로 접근 권한을 부여할 수 있다.
- 컬럼 : 특정 열에 해당하는 항목만 허용할 수 있다.
- 로우 : 특정 조건에 맞는 Filter 결과의 데이터들만 허용할 수 있다.
- 셀 : 컬럼과 로우에 대한 모든 내용을 반영한 결과만 허용할 수 있다.
- 테이블 형식의 권한 부여 : 컬럼, 로우, 셀 단위로 접근 권한을 부여할 수 있다.
- 리소스에 대한 권한으로 관리되는 S3 엑세스
- 확장 가능한 LF-Tag 기반 액세스 제어(LF-TBAC)
- 대규모의 데이터 레이크에서 접근 권한을 효율적으로 할 수 있도록 제공하는 기술
- Tag 기반으로 각 리소스에 Tag 정보를 지정하고, 사용자에게도 관련 Tag 기반에 권한을 부여하여 보다 유연하고 확장 가능하게 접근 제어에 대한 정보를 관리할 수 있게 되는 기능이다.
- 서비스 및 도구와 통합
- 권한 및 액세스 감사 용이
Lake Formation으로 데이터 공유 간단하게 하기
1. 기존 방식
- S3, IAM 정책을 이용하여 데이터에 접근을 할 수 있도록 설정함
- 위 방법은 서비스 지원 여부에 따라 제한 사항이 많으며, 데이터 탐색도 힘들다.
- 데이터를 복제하여 데이터를 공유하는 방식
- 별도 ETL 파이프라인이 필요함
- 여러개의 수정된 사본이 발생되어 동기화 및 데이터 품질 관리가 어려움
2. Lake Formation 계정간 공유 기능
- 데이터를 제공하는 프로듀서가 데이터를 활용하는 컨슈머에게 권한을 부여하는 방식임
- 컨슈머에서는 데이터 카탈로그 기반으로 데이터를 탐색할 수 있으며, 데이터를 직접 복제하지 않아도 다른 계정이 데이터를 활용할 수 있음
- 컨슈머의 Cloud Trail 로그 감사도 가능
728x90
반응형
'AWS' 카테고리의 다른 글
미래의 AI 혁신, Amazon Q 개발자 기능의 알아보기 (0) | 2024.08.28 |
---|---|
[클라우드] Serverless란 무엇인가요? (0) | 2024.07.12 |
[AWS] 비구조화된 데이터 분석 (로그데이터 분석하기) (0) | 2019.04.02 |
[AWS] 구조화된 데이터 분석하기 (0) | 2019.03.07 |
[AWS] API Gateway API Key 알아보기 (0) | 2019.02.11 |