본문 바로가기

빅데이터

(28)
[Message Queue] Solace 개념 잡기! <Kafka 비교> Solace는 엔터프라이즈 메시징 플랫폼으로서, 실시간 데이터 스트리밍을 통해 기업 애플리케이션 간의 통신을 원활하게 하고 데이터 교환을 가능하게 합니다.Solace의 주요 특징구분내용낮은 지연 시간 및 높은 확장성Solace는 극도로 낮은 지연 시간과 높은 확장성을 제공하여 수백만 개의 연결과 수백 GB의 데이터 처리를 지원합니다.다양한 메시징 프로토콜 지원Solace는 AMQP, MQTT, STOMP, JMS 등 다양한 메시징 프로토콜을 지원하여 기존 시스템과의 호환성을 유지합니다.높은 가용성 및 안정성Solace는 클러스터 구성을 통해 높은 가용성과 안정성을 제공하며, 데이터 손실 없이 서비스 지속성을 보장합니다.풍부한 기능Solace는 메시지 라우팅, 변환, 필터링, 보안 등 다양한 기능을 제공하..
[데이터] CDC (Change Data Capture)란 무엇인가?! CDC(Change Data Capture)는 데이터베이스 시스템에서 데이터 변경을 실시간으로 감지하고 기록하는 기술이나 방법론을 가리킵니다. 이 기술은 데이터베이스의 변경 로그를 사용하여 데이터의 추가, 수정, 삭제 등의 변경사항을 실시간으로 감지하고, 이를 다른 시스템이나 응용프로그램에 반영하는 데 사용됩니다. CDC를 통해 데이터의 변경사항을 실시간으로 파악할 수 있어서 데이터 웨어하우스, 비즈니스 인텔리전스, 데이터 통합 등 다양한 분야에서 활용됩니다.CDC의 주요 특징구분내용실시간 데이터 변화 감지데이터베이스 내의 변경 사항을 즉시 감지하여 실시간으로 전송합니다.가벼운 데이터 추출변경된 데이터만 추출하기 때문에 ETL 방식보다 가벼우며 빠릅니다.다양한 데이터 소스 지원관계형 데이터베이스, NoS..
Grafana Loki 개념 잡기! Loki는 Grafana Labs에서 개발한 오픈 소스 로그 수집 및 분석 도구입니다. 로키는 분산 시스템에서 생성된 로그 및 이벤트 데이터를 수집, 저장 및 조회할 수 있도록 설계되었습니다. 이를 통해 개발자 및 시스템 운영자는 대규모 시스템에서 발생하는 로그 데이터를 효율적으로 관리하고 분석할 수 있습니다. 또한 Grafana와 통합되어 로그 데이터를 시각적으로 표현하고 대시보드로 모니터링할 수 있습니다. Grafana Loki는 클라우드 환경 및 마이크로서비스 아키텍처와 같은 현대적인 시스템에서 유용하게 사용됩니다.Loki의 주요 기능구분내용로그 수집다양한 소스(컨테이너, 애플리케이션, 시스템 등)로부터 로그를 수집합니다.로그 저장장기간 로그를 저장할 수 있는 확장 가능한 스토리지를 제공합니다.로그..
OpenTelemetry 알아보기!! OpenTelemetry는 소프트웨어 응용 프로그램을 계기, 감시 및 관리하는 데 도움이 되도록 설계된 관찰 가능성 프레임워크입니다. 이는 분산 시스템에서 추적하고 모니터링을 원활하게하기 위한 API, 라이브러리, 에이전트, 계측 및 계측 표준 세트를 제공합니다. OpenTelemetry의 주요 구성 요소는 다음과 같습니다. 추적: OpenTelemetry는 다양한 프로그래밍 언어를 포함하여 분산 시스템 내에서 요청이 통과 할 때 추적할 수 있도록 돕는다. 이는 성능 병목 현상을 식별하고 문제를 해결하며 전반적인 시스템을 최적화하는 데 도움이됩니다. 메트릭: OpenTelemetry는 응용 프로그램에서 성능 메트릭을 수집하고 모니터링하는 기능을 지원합니다. 이는 핵심 성능 지표 및 메트릭을 캡처하여 소프..
빅데이터 파일 형식 알아보기(Parquet, ORC, AVRO) 빅데이터를 처리하고 관리하는데 있어 가장 중요한 관점은 어떻게 비용 효율적으로 데이터를 저장하고 관리 할지에 대한 부분과 어떻게 하면 빠르게 많은 데이터를 처리할 수 있는지에 대한 영역으로 나눌 수 있을 것 입니다. 적은 비용으로 많은 데이터를 저장 할 수 있고 이어서 적은 컴퓨팅 파워로 빠르게 데이터를 처리할 수 있는 이 두가지 내용을 모두 만족하는 솔루션이 있으면 좋겠지만, 아쉽게도 두가지를 모두 최적으로 만족하는 방법은 없습니다. 그렇다면 저희가 기술을 선택할 때는 어떠한 관점으로 접근을 해야 할까요? 우리가 만들고자 하는 시스템과 주변 상황을 잘 이해할 필요가 있습니다. 즉, 우리 시스템의 요구사항에 맞게 어떠한 영역에 장점은 살리고 어떤 부분에서는 조금 손해를 보는 것이죠. 그렇게 저희에게 맞는..
[빅데이터] 데이터 품질 검증 알아보기(AWS Deequ & Glue Data Quality) 데이터 품질이란? 일반적인 문제 Raw Data를 항상 신뢰할 수는 없다. 데이터 소스마다 품질 수준이 상이 하다. 대부분 데이터 레이크 설계시에 수집 데이터의 통제 수준을 결정하지 않기 때문에 위 문제가 발생 가능 하다. 문제로 인해 발생 가능한 이슈 누락된 값으로 인해 프로덕션 시스템에서 널이 아닌 값을 필요로 하는 오류(NullPointerException)가 발생할 수 있습니다. 데이터 분포의 변화로 인해 머신 러닝 모델에서 예기치 않은 출력이 발생할 수 있습니다. 잘못된 데이터의 집계는 잘못된 비즈니스 의사 결정으로 이어질 수 있습니다. 위 문제를 해결하기 위해 데이터 처리 파이프라인의 단계 중 하나로, 필요한 품질 검사를 구현해야 한다. 구분 내용 공통 품질 검사 항목 특정 컬럼에 대한 값의 ..
[빅데이터] 데이터 플랫폼 스키마 관리 하기 데이터 플랫폼에서 스키마 관리는 SW에 다양한 분야에서 다루는 인터페이스를 관리하는 개념과 유사하다. 다양한 시스템 또는 모듈로 이루어진 솔루션은 안정적으로 서비스를 하기 위해서 인터페이스 관리가 아주 중요하다. 인터페이스는 서비스간의 약속이고 서비스간 연동할 수 있는 방법이기 때문에 인터페이스의 설계 뿐만 아니라 유지 관리, 프로세스 또한 중요하다. 데이터 분야에서는 스키마가 이와 같은 인터페이스 역할을 하게된다. 올바른 스키마를 알아야, 각 단계별로 정확한 동작을 할 수 있게 되므로 아주 중요한 분야라고 할 수 있다. 데이터 플랫폼에서는 스키마 레지스트리(스키마 저장소)를 활용하여 스키마를 관리한다. 이 스키마 레지스트리는 데이터 소스별 전체 스키마의 모든 버전을 포함하게 된다. - 특정 데이터 소스..
[빅데이터] 메타데이터에 대해 알아보자 메타데이터 개념 메타데이터는 간단히 말해 "다른 데이터에 대한 정보를 제공하고 설명하는 데이터의 집합"을 의미합니다. 데이터 플랫폼과 데이터 관리 영역에서의 메타데이터는 자체 데이터를 더 잘 관리하는 데 도움이 되는 정보라고 할 수 있습니다. 데이터 플랫폼에는 두 가지 유형의 메타 데이터가 존재 합니다. 1. 비즈니스 메타데이터 2. 파이프라인 메타데이터 (데이터 플랫폼 내부 메타데이터) 비즈니스 메타데이터 데이터 관리 측면에서의 메타데이터를 의미합니다. 여기서 말하는 메타데이터는 데이터의 발생 조직(세일즈 부서, HR), 데이터 소유자, 생성 일자 및 시간, 파일 크기, 데이터의 용도 등을 설명하는 정보가 해당되게 됩니다. 비즈니스 메타데이터의 주요 역할은 최종 사용자에게 데이터 검색을 용이하게 하는 ..