본문 바로가기

빅데이터

(11)
[데이터 거버넌스] 데이터 거버넌스란 무엇인가? 데이터 거버넌스란 무엇인가?데이터 거버넌스(Data Governance)는 조직 내 데이터의 품질, 보안, 사용, 관리 정책을 수립하고 운영하는 체계를 의미합니다. 데이터는 오늘날 기업의 가장 중요한 자산 중 하나로 자리 잡고 있으며, 이를 효과적으로 관리하고 보호하기 위해 데이터 거버넌스가 필수적입니다. 이 글에서는 데이터 거버넌스의 중요성, 주요 구성 요소, 그리고 이를 구현하는 방법에 대해 알아보겠습니다.데이터 거버넌스의 중요성데이터 품질 향상: 데이터 거버넌스는 데이터의 정확성, 완전성, 일관성을 보장하여 신뢰할 수 있는 데이터를 제공합니다. 이는 비즈니스 의사결정의 정확성을 높이고 경쟁력을 강화하는 데 중요한 역할을 합니다.데이터 보안 강화: 데이터 거버넌스를 통해 데이터 접근 권한을 관리하고 ..
[객체 스토리지] Object Storage(객체 스토리지)란 무엇인가? 객체 스토리지는 대규모 데이터를 저장하고 관리하기 위한 스토리지 아키텍처입니다. 이 스토리지 방식은 데이터를 개별 객체 단위로 저장하며, 각각의 객체는 고유한 식별자와 메타데이터를 포함합니다. 주요 특징유연한 데이터 관리: 객체 스토리지는 파일과 메타데이터를 함께 저장하여, 데이터를 관리하는 데 필요한 부가 정보를 쉽게 사용할 수 있습니다. 각 객체는 고유한 식별자(예: URL)를 가지므로 접근이 용이합니다.확장성: 객체 스토리지는 대규모 데이터 저장에 적합하며, 수 페타바이트 이상의 데이터를 효율적으로 관리할 수 있습니다. 용량을 확장하는 것이 용이하여 클라우드 서비스와 잘 어울립니다.내구성 및 가용성: 클라우드 서비스 제공자들은 데이터의 중복 저장과 분산을 통해 높은 내구성과 가용성을 보장합니다. 이..
[Fluentbit] Fluentbit에서 지원하는 Parser 모두 알아보기! Fluent Bit에서 사용되는 파서(parser)는 로그 데이터를 특정 형식으로 변환하여 처리할 수 있도록 도와줍니다. 다양한 파서 종류와 각 파서의 특징을 표로 정리해 보겠습니다. 구분내용사용 예시Configuring Parser사전 구성된 구문 분석기 세트를 제공합니다. ApacheNginxDockerSyslog rfc5424Syslog rfc3164아래와 같이 parsers.conf 파일에 사전 정의되어 있기 때문에 사용자는 parser name으로 사용하시면 됩니다. [PARSER]     Name        docker     Format      json     Time_Key    time     Time_Format %Y-%m-%dT%H:%M:%S.%L     Time_Keep   On..
[Message Queue] Solace 개념 잡기! <Kafka 비교> Solace는 엔터프라이즈 메시징 플랫폼으로서, 실시간 데이터 스트리밍을 통해 기업 애플리케이션 간의 통신을 원활하게 하고 데이터 교환을 가능하게 합니다.Solace의 주요 특징구분내용낮은 지연 시간 및 높은 확장성Solace는 극도로 낮은 지연 시간과 높은 확장성을 제공하여 수백만 개의 연결과 수백 GB의 데이터 처리를 지원합니다.다양한 메시징 프로토콜 지원Solace는 AMQP, MQTT, STOMP, JMS 등 다양한 메시징 프로토콜을 지원하여 기존 시스템과의 호환성을 유지합니다.높은 가용성 및 안정성Solace는 클러스터 구성을 통해 높은 가용성과 안정성을 제공하며, 데이터 손실 없이 서비스 지속성을 보장합니다.풍부한 기능Solace는 메시지 라우팅, 변환, 필터링, 보안 등 다양한 기능을 제공하..
[데이터] CDC (Change Data Capture)란 무엇인가?! CDC(Change Data Capture)는 데이터베이스 시스템에서 데이터 변경을 실시간으로 감지하고 기록하는 기술이나 방법론을 가리킵니다. 이 기술은 데이터베이스의 변경 로그를 사용하여 데이터의 추가, 수정, 삭제 등의 변경사항을 실시간으로 감지하고, 이를 다른 시스템이나 응용프로그램에 반영하는 데 사용됩니다. CDC를 통해 데이터의 변경사항을 실시간으로 파악할 수 있어서 데이터 웨어하우스, 비즈니스 인텔리전스, 데이터 통합 등 다양한 분야에서 활용됩니다.CDC의 주요 특징구분내용실시간 데이터 변화 감지데이터베이스 내의 변경 사항을 즉시 감지하여 실시간으로 전송합니다.가벼운 데이터 추출변경된 데이터만 추출하기 때문에 ETL 방식보다 가벼우며 빠릅니다.다양한 데이터 소스 지원관계형 데이터베이스, NoS..
빅데이터 파일 형식 알아보기(Parquet, ORC, AVRO) 빅데이터를 처리하고 관리하는데 있어 가장 중요한 관점은 어떻게 비용 효율적으로 데이터를 저장하고 관리 할지에 대한 부분과 어떻게 하면 빠르게 많은 데이터를 처리할 수 있는지에 대한 영역으로 나눌 수 있을 것 입니다. 적은 비용으로 많은 데이터를 저장 할 수 있고 이어서 적은 컴퓨팅 파워로 빠르게 데이터를 처리할 수 있는 이 두가지 내용을 모두 만족하는 솔루션이 있으면 좋겠지만, 아쉽게도 두가지를 모두 최적으로 만족하는 방법은 없습니다. 그렇다면 저희가 기술을 선택할 때는 어떠한 관점으로 접근을 해야 할까요? 우리가 만들고자 하는 시스템과 주변 상황을 잘 이해할 필요가 있습니다. 즉, 우리 시스템의 요구사항에 맞게 어떠한 영역에 장점은 살리고 어떤 부분에서는 조금 손해를 보는 것이죠. 그렇게 저희에게 맞는..
[빅데이터] 데이터 품질 검증 알아보기(AWS Deequ & Glue Data Quality) 데이터 품질이란? 일반적인 문제 Raw Data를 항상 신뢰할 수는 없다. 데이터 소스마다 품질 수준이 상이 하다. 대부분 데이터 레이크 설계시에 수집 데이터의 통제 수준을 결정하지 않기 때문에 위 문제가 발생 가능 하다. 문제로 인해 발생 가능한 이슈 누락된 값으로 인해 프로덕션 시스템에서 널이 아닌 값을 필요로 하는 오류(NullPointerException)가 발생할 수 있습니다. 데이터 분포의 변화로 인해 머신 러닝 모델에서 예기치 않은 출력이 발생할 수 있습니다. 잘못된 데이터의 집계는 잘못된 비즈니스 의사 결정으로 이어질 수 있습니다. 위 문제를 해결하기 위해 데이터 처리 파이프라인의 단계 중 하나로, 필요한 품질 검사를 구현해야 한다. 구분 내용 공통 품질 검사 항목 특정 컬럼에 대한 값의 ..
[빅데이터] 데이터 플랫폼 스키마 관리 하기 데이터 플랫폼에서 스키마 관리는 SW에 다양한 분야에서 다루는 인터페이스를 관리하는 개념과 유사하다. 다양한 시스템 또는 모듈로 이루어진 솔루션은 안정적으로 서비스를 하기 위해서 인터페이스 관리가 아주 중요하다. 인터페이스는 서비스간의 약속이고 서비스간 연동할 수 있는 방법이기 때문에 인터페이스의 설계 뿐만 아니라 유지 관리, 프로세스 또한 중요하다. 데이터 분야에서는 스키마가 이와 같은 인터페이스 역할을 하게된다. 올바른 스키마를 알아야, 각 단계별로 정확한 동작을 할 수 있게 되므로 아주 중요한 분야라고 할 수 있다. 데이터 플랫폼에서는 스키마 레지스트리(스키마 저장소)를 활용하여 스키마를 관리한다. 이 스키마 레지스트리는 데이터 소스별 전체 스키마의 모든 버전을 포함하게 된다. - 특정 데이터 소스..