본문 바로가기

분류 전체보기

(285)
[빅데이터] 데이터 플랫폼 스키마 관리 하기 데이터 플랫폼에서 스키마 관리는 SW에 다양한 분야에서 다루는 인터페이스를 관리하는 개념과 유사하다. 다양한 시스템 또는 모듈로 이루어진 솔루션은 안정적으로 서비스를 하기 위해서 인터페이스 관리가 아주 중요하다. 인터페이스는 서비스간의 약속이고 서비스간 연동할 수 있는 방법이기 때문에 인터페이스의 설계 뿐만 아니라 유지 관리, 프로세스 또한 중요하다. 데이터 분야에서는 스키마가 이와 같은 인터페이스 역할을 하게된다. 올바른 스키마를 알아야, 각 단계별로 정확한 동작을 할 수 있게 되므로 아주 중요한 분야라고 할 수 있다. 데이터 플랫폼에서는 스키마 레지스트리(스키마 저장소)를 활용하여 스키마를 관리한다. 이 스키마 레지스트리는 데이터 소스별 전체 스키마의 모든 버전을 포함하게 된다. - 특정 데이터 소스..
[빅데이터] 메타데이터에 대해 알아보자 메타데이터 개념 메타데이터는 간단히 말해 "다른 데이터에 대한 정보를 제공하고 설명하는 데이터의 집합"을 의미합니다. 데이터 플랫폼과 데이터 관리 영역에서의 메타데이터는 자체 데이터를 더 잘 관리하는 데 도움이 되는 정보라고 할 수 있습니다. 데이터 플랫폼에는 두 가지 유형의 메타 데이터가 존재 합니다. 1. 비즈니스 메타데이터 2. 파이프라인 메타데이터 (데이터 플랫폼 내부 메타데이터) 비즈니스 메타데이터 데이터 관리 측면에서의 메타데이터를 의미합니다. 여기서 말하는 메타데이터는 데이터의 발생 조직(세일즈 부서, HR), 데이터 소유자, 생성 일자 및 시간, 파일 크기, 데이터의 용도 등을 설명하는 정보가 해당되게 됩니다. 비즈니스 메타데이터의 주요 역할은 최종 사용자에게 데이터 검색을 용이하게 하는 ..
TLS 1.3에 대해 알아보자 TLS 1.3이란? TLS 1.3 (Transport Layer Security 1.3)은 인터넷에서 안전한 통신을 위해 사용되는 프로토콜 중 하나입니다. 이전 버전의 TLS/SSL에 비해 보안성이 향상되어 있으며, 보안 알고리즘 및 핸드쉐이크 프로세스 등이 개선되어 더욱 안전한 통신이 가능합니다. TLS 1.3은 2018년 8월에 RFC 8446으로 표준화되었습니다. 이전 버전의 TLS와 달리 더욱 간결한 디자인을 채택하여 보안성을 강화하면서도 연결 시간을 줄이는 데 주력하였습니다. TLS 1.3의 핵심적인 개선 사항으로는 다음과 같은 것들이 있습니다. 핸드쉐이크 과정 최적화: 기존의 2라운드 핸드쉐이크 과정에서 1라운드로 간소화되어 연결 시간이 크게 단축됩니다. 암호화 강화: 보안성이 더욱 강화된 새..
UUID와 ULID 차이점 알아보기 UUID란 무엇인가? UUID는 "Universally Unique Identifier"의 약어로, 고유한 식별자를 생성하기 위한 포맷 중 하나입니다. UUID는 128비트의 식별자로, 일반적으로 16진수로 표현된 32개의 문자열로 구성됩니다. UUID는 대규모 분산 시스템에서 개체나 엔티티를 고유하게 식별하기 위해 사용됩니다. UUID는 시간, 컴퓨터의 MAC 주소, 임의의 값을 조합하여 생성됩니다. 이를 통해 고유성이 보장됩니다. UUID는 표준으로서, 다양한 프로그래밍 언어와 플랫폼에서 지원되며, 많은 개발자들이 사용하고 있습니다. 그러나, UUID는 생성된 순서나 시간순으로 정렬이 되지 않으므로, 대규모 분산 시스템에서 빠른 검색이나 정렬이 필요한 경우에는 적합하지 않을 수 있습니다. 또한, UU..
데이터 플랫폼 - 스토리지 설계 및 구축 방법 데이터 플랫폼의 데이터 저장소 구성시, 명확하고 일관된 원칙을 갖는 것이 중요하다. 이 일관된 원칙은 표준화된 파이프라인 구축이 가능하게 하고 대규모 파이프라인을 효율적으로 관리 할 수 있게 도와준다. 아래 그림은 많은 유스케이스를 충족시킬 수 있는 스토리지 구성 패턴이다. (1) 수집 계층에 데이터는 랜딩(Landing) 영역에 저장된다.랜딩 영역은 원시 데이터가 처리될 때까지 저장돼 있는 곳이다. (랜딩 영역에 기록할 수 있는 계층은 오직 수집 계층이다.) (2) 원시 데이터는 일련의 공통 변환 과정을 거치게 된다. 그리고 스테이징 영역에 저장된다. (3) 원시 데이터는 랜딩 영역에서 아카이브 영역으로 복제된다. 아카이브 영역에 원시 데이터의 활용 목적은 재처리가 필요한 경우, 파이프라인 디버깅을 해..
[AWS] Lake Formation 알아보기 Lake Formation 데이터레이크(Data Lake)란? 데이터레이크는 정형 혹은 비정형 데이터에 상관 없이 어떤 규모에서도 저장 및 분석이 가능한 단일 저장소를 이야기 한다. 주요하게 기억해야 할 사항 데이터 형식에 제약이 없어야 한다. (정형, 비정형, 반정형 모두 지원되어야 한다) 규모에 제약이 없어야 한다. (다양한 규모의 데이터를 지원할 수 있어야 한다) 단일 저장소 형태여야 한다. 데이터레이크를 위한 필수 사항 : 모든 규모의 정형 및 비정형 데이터를 관리, 탐색, 공유, 분석 할 수 있는 유연하고 안전한 저장소 구분 내용 데이터 저장소 단일 지점에서 모든 데이터를 활용할 수 있어야 한다. 데이터 형식 다양한 데이터 형식을 모두 지원 가능해야 한다. 정형, 반정형, 비정형, 원시 데이터 ..
[글공유] 파이썬 라이브러리를 활용한 텍스트 분석 오늘은 자연어 처리 분야 입문에 많은 도움이 될 수 있는 책을 소개할까 합니다. 이 책은 데이터 과학자와 개발자가 텍스트 분석 및 자연어 처리를 비즈니스에 쉽게 도입할 수 있도록 안내하는 서적 입니다. 인공지능 기술이 많이 성숙화 되면서, 이제 연구를 넘어 실제 서비스로 많이 도입되고 있는 것 같습니다. 그래서인지 인공지능 분야에 엔지니어와 관련된 내용과 연구에 대한 양쪽 모두에 대한 내용이 다양한게 많이 보이는 것 같습니다. 그 중 이 책은 자연어 처리의 엔지니어 적인 기술적 내용과 연구를 하기 위해 필요한 기본적인 내용을 다룬 책입니다. 데이터와 인공지능 분야에 몸담고 있다면 파이썬이라는 개발 언어는 이제 너무나 익숙할 텐데요. 이와 같이 익숙한 파이썬 언어를 통해 텍스트를 어떻게 다루고 분석하고 활..
[데이터 플랫폼] 클라우드 데이터 플랫폼 설계 및 구축 데이터 플랫폼 빌딩 블록 : 상위 레벨 아키텍처 구분 내용 데이터 플랫폼의 빌딩 블록 데이터 플랫폼의 목적 분석에 활용될 수 있도록 어떤 유형의 데이터든 최대한 비용 효과적인 방식으로 데이터를 수집, 저장, 처리해서 활용할 수 있도록 제공하는 것 계층간 느슨하게 결합돼 있는 형태의 아키텍처를 지향한다. 각 계층은 각가의 특정 역할을 담당하고, 잘 정의된 API를 통해 각 계층간 상호교류한다. 수집 계층 (Ingestion Layer) 데이터를 데이터 플랫폼으로 가져오는 역할 관계형 데이터베이스, NoSQL 데이터베이스, 파일 스토리지, 사내 API, 타사 API 등..에 접속해 데이터를 추출하는 역할을 담당 유연성이 높아야 한다. >> 활용하고자 하는 데이터 소스가 다양해 지고 있음 대부분 오픈 소스 툴..