본문 바로가기

반응형

빅데이터

(59)
SQL로 Spark를 쉽게? Apache Kyuubi가 답입니다 대용량 데이터를 다뤄야 할 때 Spark는 강력한 도구입니다. 하지만 강력함 뒤에는 복잡함이 숨어 있습니다. 특히 여러 사용자가 동시에 접근하거나 보안, 자원 격리 같은 요소까지 고려해야 한다면, Spark의 기본 구조는 큰 장벽이 됩니다.Apache Kyuubi는 이 복잡함을 감춰주는 솔루션입니다. SQL 인터페이스 하나만으로도 Spark의 성능을 그대로 활용할 수 있게 해주며, 멀티테넌시, 자원 분리, 서버리스 실행 환경까지 제공합니다. 이 글에서는 Apache Kyuubi의 구조, 특징, 주요 활용 시나리오를 통해 왜 지금 Kyuubi가 주목받고 있는지 설명합니다.Apache Kyuubi란 무엇인가?Apache Kyuubi는 서버리스 SQL 환경을 제공하는 분산형 멀티테넌트 게이트웨이입니다. Spa..
실시간 로그 수집의 핵심, Fluent Bit란 무엇인가? 운영 중인 시스템에서 장애가 발생했을 때, 가장 먼저 확인하는 것은 로그입니다. 하지만 로그는 흩어져 있고, 메트릭은 실시간으로 들어오지 않으며, 트레이스 정보는 누락되기 일쑤입니다. 이런 상황에서 신속하게 문제를 진단하고 대응하기란 결코 쉽지 않습니다.이 글에서는 이러한 문제를 해결할 수 있는 이벤트 기반 데이터 수집 도구, Fluent Bit에 대해 자세히 살펴봅니다. Fluent Bit는 단순한 로그 수집기를 넘어, 시스템 상태를 실시간으로 파악하고 대응할 수 있도록 돕는 강력한 도구입니다.Fluent Bit란?Fluent Bit는 로그, 메트릭, 트레이스와 같은 이벤트 데이터를 수집하고 분배하는 데 특화된 도구입니다.이 도구는 경량화된 구조로 설계되어, 다양한 소스에서 발생하는 데이터를 거의 실시..
DuckLake: 데이터 레이크하우스를 넘는 초경량 통합 포맷의 탄생 데이터 웨어하우스와 레이크하우스를 구축할 때마다 복잡한 설정과 무거운 아키텍처에 부담을 느꼈다면, DuckLake는 이 문제에 대한 깔끔한 해답이 될 수 있습니다.DuckLake는 SQL 데이터베이스와 Parquet 파일만으로 가볍고 유연한 데이터 레이크 환경을 구축할 수 있게 해주는 오픈 포맷입니다. DuckDB 팀이 만든 이 새로운 기술은 스냅샷, 시점 조회, 파티셔닝 같은 고급 기능은 유지하면서도, 동시성 처리와 간결함을 동시에 챙긴 솔루션입니다.이 글에서는 DuckLake가 어떤 배경에서 등장했고, 어떤 기술적 특징을 갖고 있으며, 이를 활용하면 어떤 장점이 있는지 자세히 설명합니다.1. DuckLake란 무엇인가?DuckLake는 단순한 데이터 저장 포맷을 넘어, 사양(Specification)..
WASM기반의 재실행 가능한 워크플로의 미래, Obelisk Runtime이 바꾸는 자동화의 기준 자동화 시스템의 골칫거리, 이제는 끝낼 수 있다자동화 시스템을 운영하다 보면 가장 곤란한 순간은 예기치 못한 오류가 발생했을 때입니다. 백그라운드 태스크 중 하나라도 실패하면 전체 프로세스가 꼬이고, 복구는 수작업으로 진행해야 하며, 재시도를 위해 코드 전반을 다시 손봐야 하는 경우도 흔합니다. 특히, 복잡한 워크플로 구조일수록 문제가 더 심각해집니다.이런 상황에서 결정론적(Deterministic) 실행과 재실행 가능한 워크플로를 기반으로 설계된 솔루션은 큰 의미를 가집니다. Obelisk Runtime은 바로 이 지점을 정확히 겨냥한 시스템입니다. WASM 컴포넌트 모델을 활용해 하나의 바이너리로 실행되며, 재실행, 에러 복구, 자동 재시도까지 지원하는 자동화 워크플로 엔진입니다.이번 블로그에서는 O..
AI 시대의 검색 인프라, OpenSearch 3.0이 바꿔놓은 것들 - 벡터 검색에 최적화된 성능, AI 에이전트 연동, 데이터 처리 효율까지 새롭게 진화한 오픈소스 검색 플랫폼 OpenSearch 3.0의 시대가 시작됐다AI 검색, 추천 시스템, RAG(검색 기반 생성 AI)처럼 점점 더 많은 시스템이 대규모 벡터 데이터를 처리해야 하는 시대다. 이런 변화 속에서 성능은 선택이 아닌 필수 조건이 되고 있다.OpenSearch는 오픈소스 검색 플랫폼으로서 검색 인프라의 핵심 역할을 해왔지만, 이번 3.0 버전에서는 단순한 업그레이드 수준을 넘어 벡터 DB, AI 검색 플랫폼으로서 완전히 새로운 수준의 진화를 보여준다.이 블로그에서는 OpenSearch 3.0에서 달라진 핵심 기능들을 성능, AI 연동, 저장소 최적화, 개발 효율성 등 주요 주제별로 정리해 실제 도입 시 고려할 만한 가치와 실무 활용 포인트를 짚어본다.기존 대비 최대 9.5배 성능 향상OpenSearch 3.0의 ..
드디어 나왔다! Apache Airflow 3.0 — 4년을 기다린 대형 업데이트의 모든 것 왜 지금 Airflow 3.0을 주목해야 할까?Airflow를 사용하면서 이런 생각 해보신 적 있나요?“DAG 버전이 바뀌면 기존 DAG은 어떻게 관리하지?”“백필(Backfill)이 너무 느리고, 자주 실패해서 골치야.”“ML 워크플로도 Airflow로 관리하고 싶은데 무리겠지?”그동안 꾸준히 제기되어 왔던 이런 요구사항들을 한꺼번에 해결해줄 Airflow 3.0이 드디어 공식 출시됐습니다. 이번 버전은 단순한 소소한 업그레이드가 아닙니다. 아키텍처부터 UI, 실행 방식까지 근본적인 변화가 있었고, 사용자 중심의 개선이 본격화됐습니다.Airflow를 지금 사용 중이거나, 데이터 파이프라인을 더 유연하게 관리하고 싶다면, 이번 업데이트는 반드시 알아두셔야 합니다.이 글을 통해 Airflow 3.0의 핵심..
HDFS도 Ceph도 넘는 성능? DeepSeek의 고성능 분산 파일 시스템 ‘3FS’ 완전 정복 대용량 데이터를 처리하다 보면, 늘 부딪히는 문제가 있습니다. “파일 시스템이 병목이다.” 아무리 빠른 연산을 해도, 저장소가 느리면 속도가 안 나옵니다. 기존 HDFS나 CephFS를 써봤지만 운영의 복잡함, 일관성 문제, 확장성의 한계를 느꼈다면 이 글에 주목하세요.이번 글에서는 DeepSeek가 공개한 고성능 오픈소스 분산 파일 시스템 3FS(Fire-Flyer File System) 를 소개합니다. 왜 3FS가 주목받고 있는지, 어떤 구조로 동작하는지, 그리고 실제로 어떤 강점이 있는지를 알기 쉽게 풀어드릴게요.🔍 3FS란 무엇인가?3FS는 DeepSeek가 개발한 고성능 분산 파일 시스템입니다. 오픈소스로 공개되었으며, 대규모 데이터 환경에서 높은 처리량과 강한 일관성을 제공합니다.표면적으로는..
ElasticSearch에도 드디어 JOIN이 생겼다? LOOKUP JOIN 기능 소개 “JOIN은 무조건 느리고, Elasticsearch에서는 안 되는 줄 알았는데… 이젠 가능하다고?”네, 맞습니다. 드디어 Elasticsearch에서도 JOIN이 됩니다. 그리고 생각보다 훨씬 간단하고 쓸만합니다.LOOKUP JOIN이 뭔가요?Elasticsearch 8.18에서 도입된 LOOKUP JOIN은 말 그대로 SQL 스타일의 JOIN 기능입니다.정확히는 LEFT OUTER JOIN 구조로 동작하며, 기존의 복잡한 ENRICH 방식보다 훨씬 쉽게 데이터를 조합할 수 있게 도와줍니다.핵심 개념은 이렇습니다:JOIN을 하기 위해서는 새로운 인덱스가 필요합니다. 이름하여 lookup index.이 lookup index는 JOIN 시 '우측 테이블' 역할을 하며, 단일 샤드로 구성됩니다.ES|QL ..

반응형