본문 바로가기

빅데이터

(13)
Apache Iceberg: 데이터 레이크의 새로운 기준 데이터 레이크의 대규모 데이터 처리를 단순화하며, 데이터를 효율적으로 관리할 수 있는 새로운 도구를 찾고 계신가요? Apache Iceberg는 이러한 요구를 충족시키는 혁신적인 오픈 소스 데이터 테이블 형식입니다. 대규모 데이터 세트를 빠르고 효율적으로 처리하며, 데이터의 정확성과 일관성을 유지할 수 있는 방법을 제공합니다. 이번 블로그에서는 Apache Iceberg의 주요 기능과 장점, 그리고 실제로 어떻게 사용되는지에 대해 알아보겠습니다.Apache Iceberg란 무엇인가요?Apache Iceberg는 Apache 2.0 라이선스 하에 개발된 100% 오픈 소스 프로젝트로, 데이터 레이크에 저장된 대규모 데이터 세트를 간편하게 관리하고 처리할 수 있도록 설계되었습니다. Apache Spark, ..
데이터 사일로: 비즈니스의 숨겨진 함정과 해결책 데이터 사일로란 무엇인가?오늘날의 데이터 중심 시대에서, 데이터는 기업의 가장 중요한 자산 중 하나입니다. 그러나 이 데이터를 효과적으로 활용하기 위해서는 조직 내 모든 부서와 팀이 자유롭게 데이터에 접근하고 공유할 수 있어야 합니다. 하지만 많은 기업에서는 특정 부서나 팀이 자신들만의 데이터를 독점적으로 관리하고 다른 부서와 공유하지 않는 현상이 발생합니다. 이러한 현상을 **'데이터 사일로(Data Silo)'**라고 합니다.데이터 사일로는 부서 간 협업을 저해하고, 데이터의 중복 및 불일치를 야기하며, 나아가 조직 전체의 의사결정을 왜곡할 수 있습니다. 이는 기업의 효율성을 저하시키고, 데이터 기반 전략 수립에 어려움을 초래합니다.데이터 사일로의 원인데이터 사일로가 발생하는 주요 원인은 다음과 같습..
[데이터 거버넌스] 데이터 거버넌스란 무엇인가? 데이터 거버넌스란 무엇인가?데이터 거버넌스(Data Governance)는 조직 내 데이터의 품질, 보안, 사용, 관리 정책을 수립하고 운영하는 체계를 의미합니다. 데이터는 오늘날 기업의 가장 중요한 자산 중 하나로 자리 잡고 있으며, 이를 효과적으로 관리하고 보호하기 위해 데이터 거버넌스가 필수적입니다. 이 글에서는 데이터 거버넌스의 중요성, 주요 구성 요소, 그리고 이를 구현하는 방법에 대해 알아보겠습니다.데이터 거버넌스의 중요성데이터 품질 향상: 데이터 거버넌스는 데이터의 정확성, 완전성, 일관성을 보장하여 신뢰할 수 있는 데이터를 제공합니다. 이는 비즈니스 의사결정의 정확성을 높이고 경쟁력을 강화하는 데 중요한 역할을 합니다.데이터 보안 강화: 데이터 거버넌스를 통해 데이터 접근 권한을 관리하고 ..
[객체 스토리지] Object Storage(객체 스토리지)란 무엇인가? 객체 스토리지는 대규모 데이터를 저장하고 관리하기 위한 스토리지 아키텍처입니다. 이 스토리지 방식은 데이터를 개별 객체 단위로 저장하며, 각각의 객체는 고유한 식별자와 메타데이터를 포함합니다. 주요 특징유연한 데이터 관리: 객체 스토리지는 파일과 메타데이터를 함께 저장하여, 데이터를 관리하는 데 필요한 부가 정보를 쉽게 사용할 수 있습니다. 각 객체는 고유한 식별자(예: URL)를 가지므로 접근이 용이합니다.확장성: 객체 스토리지는 대규모 데이터 저장에 적합하며, 수 페타바이트 이상의 데이터를 효율적으로 관리할 수 있습니다. 용량을 확장하는 것이 용이하여 클라우드 서비스와 잘 어울립니다.내구성 및 가용성: 클라우드 서비스 제공자들은 데이터의 중복 저장과 분산을 통해 높은 내구성과 가용성을 보장합니다. 이..
[Fluentbit] Fluentbit에서 지원하는 Parser 모두 알아보기! Fluent Bit에서 사용되는 파서(parser)는 로그 데이터를 특정 형식으로 변환하여 처리할 수 있도록 도와줍니다. 다양한 파서 종류와 각 파서의 특징을 표로 정리해 보겠습니다. 구분내용사용 예시Configuring Parser사전 구성된 구문 분석기 세트를 제공합니다. ApacheNginxDockerSyslog rfc5424Syslog rfc3164아래와 같이 parsers.conf 파일에 사전 정의되어 있기 때문에 사용자는 parser name으로 사용하시면 됩니다. [PARSER]     Name        docker     Format      json     Time_Key    time     Time_Format %Y-%m-%dT%H:%M:%S.%L     Time_Keep   On..
[Message Queue] Solace 개념 잡기! <Kafka 비교> Solace는 엔터프라이즈 메시징 플랫폼으로서, 실시간 데이터 스트리밍을 통해 기업 애플리케이션 간의 통신을 원활하게 하고 데이터 교환을 가능하게 합니다.Solace의 주요 특징구분내용낮은 지연 시간 및 높은 확장성Solace는 극도로 낮은 지연 시간과 높은 확장성을 제공하여 수백만 개의 연결과 수백 GB의 데이터 처리를 지원합니다.다양한 메시징 프로토콜 지원Solace는 AMQP, MQTT, STOMP, JMS 등 다양한 메시징 프로토콜을 지원하여 기존 시스템과의 호환성을 유지합니다.높은 가용성 및 안정성Solace는 클러스터 구성을 통해 높은 가용성과 안정성을 제공하며, 데이터 손실 없이 서비스 지속성을 보장합니다.풍부한 기능Solace는 메시지 라우팅, 변환, 필터링, 보안 등 다양한 기능을 제공하..
[데이터] CDC (Change Data Capture)란 무엇인가?! CDC(Change Data Capture)는 데이터베이스 시스템에서 데이터 변경을 실시간으로 감지하고 기록하는 기술이나 방법론을 가리킵니다. 이 기술은 데이터베이스의 변경 로그를 사용하여 데이터의 추가, 수정, 삭제 등의 변경사항을 실시간으로 감지하고, 이를 다른 시스템이나 응용프로그램에 반영하는 데 사용됩니다. CDC를 통해 데이터의 변경사항을 실시간으로 파악할 수 있어서 데이터 웨어하우스, 비즈니스 인텔리전스, 데이터 통합 등 다양한 분야에서 활용됩니다.CDC의 주요 특징구분내용실시간 데이터 변화 감지데이터베이스 내의 변경 사항을 즉시 감지하여 실시간으로 전송합니다.가벼운 데이터 추출변경된 데이터만 추출하기 때문에 ETL 방식보다 가벼우며 빠릅니다.다양한 데이터 소스 지원관계형 데이터베이스, NoS..
빅데이터 파일 형식 알아보기(Parquet, ORC, AVRO) 빅데이터를 처리하고 관리하는데 있어 가장 중요한 관점은 어떻게 비용 효율적으로 데이터를 저장하고 관리 할지에 대한 부분과 어떻게 하면 빠르게 많은 데이터를 처리할 수 있는지에 대한 영역으로 나눌 수 있을 것 입니다. 적은 비용으로 많은 데이터를 저장 할 수 있고 이어서 적은 컴퓨팅 파워로 빠르게 데이터를 처리할 수 있는 이 두가지 내용을 모두 만족하는 솔루션이 있으면 좋겠지만, 아쉽게도 두가지를 모두 최적으로 만족하는 방법은 없습니다. 그렇다면 저희가 기술을 선택할 때는 어떠한 관점으로 접근을 해야 할까요? 우리가 만들고자 하는 시스템과 주변 상황을 잘 이해할 필요가 있습니다. 즉, 우리 시스템의 요구사항에 맞게 어떠한 영역에 장점은 살리고 어떤 부분에서는 조금 손해를 보는 것이죠. 그렇게 저희에게 맞는..