본문 바로가기

빅데이터

(30)
[빅데이터] Data Mesh란 무엇인가? 데이터 메쉬(Data Mesh) 개념데이터 메쉬는 기존의 중앙집중식 데이터 아키텍처의 한계를 극복하기 위해 제안된 분산 데이터 아키텍처 패턴입니다. 주로 대규모 조직에서 데이터 관리 및 분석의 복잡성을 해결하기 위한 방법론으로 등장했습니다. 데이터 메쉬는 다음 네 가지 주요 원칙에 기반합니다:도메인 중심의 데이터 소유 및 아키텍처(Domain-Oriented Decentralized Data Ownership and Architecture): 각 도메인이 자율적으로 데이터를 소유하고 관리합니다. 예를 들어, 마케팅 팀은 고객 행동 데이터에 대해 책임을 지고, 재무 팀은 금융 데이터를 관리합니다. 이는 도메인 전문가들이 데이터의 맥락을 잘 이해하고 있어 더 효과적인 데이터 관리와 활용이 가능하도록 합니다...
[Fluentbit] Fluentbit에서 지원하는 Parser 모두 알아보기! Fluent Bit에서 사용되는 파서(parser)는 로그 데이터를 특정 형식으로 변환하여 처리할 수 있도록 도와줍니다. 다양한 파서 종류와 각 파서의 특징을 표로 정리해 보겠습니다. 구분내용사용 예시Configuring Parser사전 구성된 구문 분석기 세트를 제공합니다. ApacheNginxDockerSyslog rfc5424Syslog rfc3164아래와 같이 parsers.conf 파일에 사전 정의되어 있기 때문에 사용자는 parser name으로 사용하시면 됩니다. [PARSER]     Name        docker     Format      json     Time_Key    time     Time_Format %Y-%m-%dT%H:%M:%S.%L     Time_Keep   On..
[Message Queue] Solace 개념 잡기! <Kafka 비교> Solace는 엔터프라이즈 메시징 플랫폼으로서, 실시간 데이터 스트리밍을 통해 기업 애플리케이션 간의 통신을 원활하게 하고 데이터 교환을 가능하게 합니다.Solace의 주요 특징구분내용낮은 지연 시간 및 높은 확장성Solace는 극도로 낮은 지연 시간과 높은 확장성을 제공하여 수백만 개의 연결과 수백 GB의 데이터 처리를 지원합니다.다양한 메시징 프로토콜 지원Solace는 AMQP, MQTT, STOMP, JMS 등 다양한 메시징 프로토콜을 지원하여 기존 시스템과의 호환성을 유지합니다.높은 가용성 및 안정성Solace는 클러스터 구성을 통해 높은 가용성과 안정성을 제공하며, 데이터 손실 없이 서비스 지속성을 보장합니다.풍부한 기능Solace는 메시지 라우팅, 변환, 필터링, 보안 등 다양한 기능을 제공하..
[데이터] CDC (Change Data Capture)란 무엇인가?! CDC(Change Data Capture)는 데이터베이스 시스템에서 데이터 변경을 실시간으로 감지하고 기록하는 기술이나 방법론을 가리킵니다. 이 기술은 데이터베이스의 변경 로그를 사용하여 데이터의 추가, 수정, 삭제 등의 변경사항을 실시간으로 감지하고, 이를 다른 시스템이나 응용프로그램에 반영하는 데 사용됩니다. CDC를 통해 데이터의 변경사항을 실시간으로 파악할 수 있어서 데이터 웨어하우스, 비즈니스 인텔리전스, 데이터 통합 등 다양한 분야에서 활용됩니다.CDC의 주요 특징구분내용실시간 데이터 변화 감지데이터베이스 내의 변경 사항을 즉시 감지하여 실시간으로 전송합니다.가벼운 데이터 추출변경된 데이터만 추출하기 때문에 ETL 방식보다 가벼우며 빠릅니다.다양한 데이터 소스 지원관계형 데이터베이스, NoS..
Grafana Loki 개념 잡기! Loki는 Grafana Labs에서 개발한 오픈 소스 로그 수집 및 분석 도구입니다. 로키는 분산 시스템에서 생성된 로그 및 이벤트 데이터를 수집, 저장 및 조회할 수 있도록 설계되었습니다. 이를 통해 개발자 및 시스템 운영자는 대규모 시스템에서 발생하는 로그 데이터를 효율적으로 관리하고 분석할 수 있습니다. 또한 Grafana와 통합되어 로그 데이터를 시각적으로 표현하고 대시보드로 모니터링할 수 있습니다. Grafana Loki는 클라우드 환경 및 마이크로서비스 아키텍처와 같은 현대적인 시스템에서 유용하게 사용됩니다.Loki의 주요 기능구분내용로그 수집다양한 소스(컨테이너, 애플리케이션, 시스템 등)로부터 로그를 수집합니다.로그 저장장기간 로그를 저장할 수 있는 확장 가능한 스토리지를 제공합니다.로그..
OpenTelemetry 알아보기!! OpenTelemetry는 소프트웨어 응용 프로그램을 계기, 감시 및 관리하는 데 도움이 되도록 설계된 관찰 가능성 프레임워크입니다. 이는 분산 시스템에서 추적하고 모니터링을 원활하게하기 위한 API, 라이브러리, 에이전트, 계측 및 계측 표준 세트를 제공합니다. OpenTelemetry의 주요 구성 요소는 다음과 같습니다. 추적: OpenTelemetry는 다양한 프로그래밍 언어를 포함하여 분산 시스템 내에서 요청이 통과 할 때 추적할 수 있도록 돕는다. 이는 성능 병목 현상을 식별하고 문제를 해결하며 전반적인 시스템을 최적화하는 데 도움이됩니다. 메트릭: OpenTelemetry는 응용 프로그램에서 성능 메트릭을 수집하고 모니터링하는 기능을 지원합니다. 이는 핵심 성능 지표 및 메트릭을 캡처하여 소프..
빅데이터 파일 형식 알아보기(Parquet, ORC, AVRO) 빅데이터를 처리하고 관리하는데 있어 가장 중요한 관점은 어떻게 비용 효율적으로 데이터를 저장하고 관리 할지에 대한 부분과 어떻게 하면 빠르게 많은 데이터를 처리할 수 있는지에 대한 영역으로 나눌 수 있을 것 입니다. 적은 비용으로 많은 데이터를 저장 할 수 있고 이어서 적은 컴퓨팅 파워로 빠르게 데이터를 처리할 수 있는 이 두가지 내용을 모두 만족하는 솔루션이 있으면 좋겠지만, 아쉽게도 두가지를 모두 최적으로 만족하는 방법은 없습니다. 그렇다면 저희가 기술을 선택할 때는 어떠한 관점으로 접근을 해야 할까요? 우리가 만들고자 하는 시스템과 주변 상황을 잘 이해할 필요가 있습니다. 즉, 우리 시스템의 요구사항에 맞게 어떠한 영역에 장점은 살리고 어떤 부분에서는 조금 손해를 보는 것이죠. 그렇게 저희에게 맞는..
[빅데이터] 데이터 품질 검증 알아보기(AWS Deequ & Glue Data Quality) 데이터 품질이란? 일반적인 문제 Raw Data를 항상 신뢰할 수는 없다. 데이터 소스마다 품질 수준이 상이 하다. 대부분 데이터 레이크 설계시에 수집 데이터의 통제 수준을 결정하지 않기 때문에 위 문제가 발생 가능 하다. 문제로 인해 발생 가능한 이슈 누락된 값으로 인해 프로덕션 시스템에서 널이 아닌 값을 필요로 하는 오류(NullPointerException)가 발생할 수 있습니다. 데이터 분포의 변화로 인해 머신 러닝 모델에서 예기치 않은 출력이 발생할 수 있습니다. 잘못된 데이터의 집계는 잘못된 비즈니스 의사 결정으로 이어질 수 있습니다. 위 문제를 해결하기 위해 데이터 처리 파이프라인의 단계 중 하나로, 필요한 품질 검사를 구현해야 한다. 구분 내용 공통 품질 검사 항목 특정 컬럼에 대한 값의 ..