티스토리 뷰

AWS

[AWS] Lake Formation 알아보기

Aaron_h 2023. 3. 26. 23:22
반응형

Lake Formation

데이터레이크(Data Lake)란?

  1. 데이터레이크는 정형 혹은 비정형 데이터에 상관 없이 어떤 규모에서도 저장 및 분석이 가능한 단일 저장소를 이야기 한다.
  2. 주요하게 기억해야 할 사항
    1. 데이터 형식에 제약이 없어야 한다. (정형, 비정형, 반정형 모두 지원되어야 한다)
    2. 규모에 제약이 없어야 한다. (다양한 규모의 데이터를 지원할 수 있어야 한다)
    3. 단일 저장소 형태여야 한다.
  1. 데이터레이크를 위한 필수 사항 : 모든 규모의 정형 및 비정형 데이터를 관리, 탐색, 공유, 분석 할 수 있는 유연하고 안전한 저장소 
구분 내용
데이터 저장소 단일 지점에서 모든 데이터를 활용할 수 있어야 한다. 
데이터 형식 다양한 데이터 형식을 모두 지원 가능해야 한다. 
정형, 반정형, 비정형, 원시 데이터
데이터 포맷 읽기 쉬운 스키마 및 저비용 스토리지를 위한 형식이 필요하다. 
데이터 처리 아키텍처 데이터 수집 및 소비를 빠르고 효율적으로 할 수 있어야 한다. 
- 대부분 스토리지와 컴퓨팅 자원을 분리한 아키텍처 구조를 가지고 있다
데이터 암호화 및 보안 규칙 지원 필수  

AWS S3가 데이터 레이크에 적합한 이유

NO 내용
1 우수한 내구성, 가용성 및 확장성
2 객체 수준의 제어 가능 
3 비용 최적화 기능 제공 (지능형 계층화)
4 다양한 분석 도구 제공
5 콜드 스토리지 및 아키이브 기능 제공
6 보안, 규정 준수 및 감사 기능 제공

데이터 레이크의 운영상의 어려운 점들 

  • 데이터 수집 및 관리의 어려움
  • 보안 및 거버넌스의 어려움 
    • 데이터 레이크의 보안이 어려운 이유 
      • 데이터 레이크 스택간 권한 통합 필요 : 스토리지, 메타 데이터, 컴퓨팅의 분리 각 시스템은 서로 다른 권한체계를 보유하고 있어 권한의 동기화를 하기 어렵다. 
      • 액세스를 제한하기 위해 세분화된 권한 적용 필요 : 데이터 레이크는 대규모 데이터를 보유 하고 있다.  사용자는 일부만 접근해야 하기 때문에 데이터를 세분화 해서 분리해야 하는 경우가 많이 발생한다. 
      • 데이터 및 사용자 관리를 위한 확장 가능한 권한 필요 : 데이터와 사용자는 지속적으로 추가되고 삭제 된다. 이것을 서포트 할 수 있어야 한다. 
  • 셀프 서비스 분석, 데이터 공유, 외부 통합의 복잡성

위 문제를 해결할 수 있는 방법이 바로 AWS Lake Formation 서비스이다. 

  • 안전하고 완벽한 데이터 레이크를 구축할 수 있는 완전 관리형 서버리스 서비스이다. 

Lake Formation이 제공하는 기능 

  • 액세스를 관리하는 단일 장소
  • 오픈 파일 포맷 지원 
  • 효율적인 공유 
  • 통합 도구 생태계
  • 비용 효율성 

Lake Formation의 권한 모델 

  • DB 스타일의 세분화된 권한 제공 
    • 리소스(Catalog, Database, Table 등..)에 대한 접근 권한을 각 주체(IAM User, Roles 등..)에게 부여할 수 있다.
  • 카탈로그 리소스에 대한 세분화된 권한 제공 
    • 테이블 형식의 권한 부여 : 컬럼, 로우, 셀 단위로 접근 권한을 부여할 수 있다.
      • 컬럼 : 특정 열에 해당하는 항목만 허용할 수 있다. 
      • 로우 : 특정 조건에 맞는 Filter 결과의 데이터들만 허용할 수 있다. 
      • 셀 : 컬럼과 로우에 대한 모든 내용을 반영한 결과만 허용할 수 있다. 
  • 리소스에 대한 권한으로 관리되는 S3 엑세스 
  • 확장 가능한 LF-Tag 기반 액세스 제어(LF-TBAC)
    • 대규모의 데이터 레이크에서 접근 권한을 효율적으로 할 수 있도록 제공하는 기술 
    • Tag 기반으로 각 리소스에 Tag 정보를 지정하고, 사용자에게도 관련 Tag 기반에 권한을 부여하여 보다 유연하고 확장 가능하게 접근 제어에 대한 정보를 관리할 수 있게 되는 기능이다. 
  • 서비스 및 도구와 통합 
  • 권한 및 액세스 감사 용이 

Lake Formation으로 데이터 공유 간단하게 하기 

1. 기존 방식 

  • S3, IAM 정책을 이용하여 데이터에 접근을 할 수 있도록 설정함
    • 위 방법은 서비스 지원 여부에 따라 제한 사항이 많으며, 데이터 탐색도 힘들다. 
  • 데이터를 복제하여 데이터를 공유하는 방식
    • 별도 ETL 파이프라인이 필요함 
    • 여러개의 수정된 사본이 발생되어 동기화 및 데이터 품질 관리가 어려움 

2. Lake Formation 계정간 공유 기능

  • 데이터를 제공하는 프로듀서가 데이터를 활용하는 컨슈머에게 권한을 부여하는 방식임
  • 컨슈머에서는 데이터 카탈로그 기반으로 데이터를 탐색할 수 있으며, 데이터를 직접 복제하지 않아도 다른 계정이 데이터를 활용할 수 있음 
  • 컨슈머의 Cloud Trail 로그 감사도 가능 

 

 

반응형
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함