본문 바로가기

데이터파이프라인

(4)
ETL vs ELT - 데이터 처리 접근 방식 차이점 알아보기 ETL과 ELT의 차이점은 무엇인가요?ETL(Extract, Transform, Load)과 ELT(Extract, Load, Transform)는 데이터 통합과 변환을 위한 두 가지 주요 접근 방식입니다. 이들은 데이터 처리를 위한 기본 원칙은 동일하지만, 데이터 변환 단계가 어디에서 수행되는지에 따라 차이가 있습니다.ETL (Extract, Transform, Load)ETL은 데이터를 추출(Extract)하고, 데이터 웨어하우스나 데이터 마트로 로드하기 전에 변환(Transform) 단계를 수행한 후 적재(Load)하는 방식입니다.Extract (추출):다양한 소스 시스템(예: 데이터베이스, 파일, API)에서 원시 데이터를 추출합니다.Transform (변환):데이터를 중앙 저장소로 로드하기 전에..
[dbt] dbt란 무엇인가? dbt(Data Build Tool)는 데이터 트랜스포메이션을 관리하고 자동화하는 오픈 소스 툴입니다. dbt는 데이터 팀이 SQL로 데이터를 변환, 모델링, 테스트 및 문서화할 수 있도록 도와줍니다. 주로 ELT(Extract, Load, Transform) 방식에서 트랜스포메이션(T) 부분을 담당합니다.dbt의 주요 특징SQL 중심의 트랜스포메이션:dbt는 SQL을 사용하여 데이터 트랜스포메이션을 수행합니다. 이는 SQL을 이미 알고 있는 데이터 분석가와 엔지니어에게 매우 친숙한 환경을 제공합니다.버전 관리 및 협업:dbt프로젝트는 Git과 같은 버전 관리 시스템과 통합되어 코드 변경 사항을 추적하고 여러 팀원이 협업할 수 있습니다.테스트 및 검증:dbt는 데이터 품질을 유지하기 위한 테스트 기능을 ..
[빅데이터] 데이터 플랫폼 스키마 관리 하기 데이터 플랫폼에서 스키마 관리는 SW에 다양한 분야에서 다루는 인터페이스를 관리하는 개념과 유사하다. 다양한 시스템 또는 모듈로 이루어진 솔루션은 안정적으로 서비스를 하기 위해서 인터페이스 관리가 아주 중요하다. 인터페이스는 서비스간의 약속이고 서비스간 연동할 수 있는 방법이기 때문에 인터페이스의 설계 뿐만 아니라 유지 관리, 프로세스 또한 중요하다. 데이터 분야에서는 스키마가 이와 같은 인터페이스 역할을 하게된다. 올바른 스키마를 알아야, 각 단계별로 정확한 동작을 할 수 있게 되므로 아주 중요한 분야라고 할 수 있다. 데이터 플랫폼에서는 스키마 레지스트리(스키마 저장소)를 활용하여 스키마를 관리한다. 이 스키마 레지스트리는 데이터 소스별 전체 스키마의 모든 버전을 포함하게 된다. - 특정 데이터 소스..
[데이터 플랫폼] 클라우드 데이터 플랫폼 설계 및 구축 데이터 플랫폼 빌딩 블록 : 상위 레벨 아키텍처 구분 내용 데이터 플랫폼의 빌딩 블록 데이터 플랫폼의 목적 분석에 활용될 수 있도록 어떤 유형의 데이터든 최대한 비용 효과적인 방식으로 데이터를 수집, 저장, 처리해서 활용할 수 있도록 제공하는 것 계층간 느슨하게 결합돼 있는 형태의 아키텍처를 지향한다. 각 계층은 각가의 특정 역할을 담당하고, 잘 정의된 API를 통해 각 계층간 상호교류한다. 수집 계층 (Ingestion Layer) 데이터를 데이터 플랫폼으로 가져오는 역할 관계형 데이터베이스, NoSQL 데이터베이스, 파일 스토리지, 사내 API, 타사 API 등..에 접속해 데이터를 추출하는 역할을 담당 유연성이 높아야 한다. >> 활용하고자 하는 데이터 소스가 다양해 지고 있음 대부분 오픈 소스 툴..