본문 바로가기

빅데이터

(28)
데이터 플랫폼 - 스토리지 설계 및 구축 방법 데이터 플랫폼의 데이터 저장소 구성시, 명확하고 일관된 원칙을 갖는 것이 중요하다. 이 일관된 원칙은 표준화된 파이프라인 구축이 가능하게 하고 대규모 파이프라인을 효율적으로 관리 할 수 있게 도와준다. 아래 그림은 많은 유스케이스를 충족시킬 수 있는 스토리지 구성 패턴이다. (1) 수집 계층에 데이터는 랜딩(Landing) 영역에 저장된다.랜딩 영역은 원시 데이터가 처리될 때까지 저장돼 있는 곳이다. (랜딩 영역에 기록할 수 있는 계층은 오직 수집 계층이다.) (2) 원시 데이터는 일련의 공통 변환 과정을 거치게 된다. 그리고 스테이징 영역에 저장된다. (3) 원시 데이터는 랜딩 영역에서 아카이브 영역으로 복제된다. 아카이브 영역에 원시 데이터의 활용 목적은 재처리가 필요한 경우, 파이프라인 디버깅을 해..
[데이터 플랫폼] 클라우드 데이터 플랫폼 설계 및 구축 데이터 플랫폼 빌딩 블록 : 상위 레벨 아키텍처 구분 내용 데이터 플랫폼의 빌딩 블록 데이터 플랫폼의 목적 분석에 활용될 수 있도록 어떤 유형의 데이터든 최대한 비용 효과적인 방식으로 데이터를 수집, 저장, 처리해서 활용할 수 있도록 제공하는 것 계층간 느슨하게 결합돼 있는 형태의 아키텍처를 지향한다. 각 계층은 각가의 특정 역할을 담당하고, 잘 정의된 API를 통해 각 계층간 상호교류한다. 수집 계층 (Ingestion Layer) 데이터를 데이터 플랫폼으로 가져오는 역할 관계형 데이터베이스, NoSQL 데이터베이스, 파일 스토리지, 사내 API, 타사 API 등..에 접속해 데이터를 추출하는 역할을 담당 유연성이 높아야 한다. >> 활용하고자 하는 데이터 소스가 다양해 지고 있음 대부분 오픈 소스 툴..
[빅데이터] Data Lake란 무엇인가? [Data Lake란 무엇인가?] "가공되지 않은 다양한 종류의 데이터를 한 곳에 모아둔 저장소의 집합이다."   오랜 시간 데이터들은 데이터가 생성된 영역별로 수집 및 관리가 이루어졌으며 주로 정형화된 데이터로만 분석되어왔다. 하지만 빅데이터와 인공지능 기술의 중요성이 커지면서 다양한 영역의 다양한 데이터가 만나 새로운 가치를 만들어내기 시작하였다. 이와 같이 빅데이터를 효율적으로 분석하고 사용하고자 다양한 영역의 Raw 데이터(가공되지 않은 데이터)를 한 곳에 모아서 관리하고자 하는 것을 바로 Data Lake라 한다.    [Data Lake Framework 탄생] "Data Lake에 빅데이터를 사용자가 보다 쉽고 빠르게 사용할 수 있도록 제공해주는 Framework"   Data Lake라는 ..
[빅데이터] 데이터 웨어 하우스란? 데이터 웨어 하우스는 효율적으로 분석 가능한 형태로 정보들이 저장되어 있는 중앙 저장소이다. 데이터 웨어 하우스는 관계형 데이터베이스 , 트랜잭션 시스템 등.. 다양한 시스템으로부터 정기적으로 데이터를 수집하는 개념이다. 이와 같이 수집된 데이터를 비즈니스 인텔리전스 도구 ,SQL 클라이언트와 같이 데이터를 분석하는 목적으로 사용한다. 빅데이터 시대가 되면서 비즈니스에 중요한 결정을 데이터 기반으로 하는 사례가 늘어나는 등.. 다양한 이유로 많은 데이터 기반으로 데이터를 분석 및 처리해야하는 업무가 늘어나고 있다. 이와 같은 상황에서 많은 양의 데이터를 효율적으로 저장하여 I/O를 최소화하고 수십만 명의 사용자에게 빠른 속도로 쿼리 결과를 전달할 수 있도록 하는 것이 바로 데이터 웨어 하우스 이다. 데이..