본문 바로가기

분류 전체보기

(478)
[강릉 맛집] 기다림이 아깝지 않은 카페 툇마루!! 훌쩍 일상을 떠나고 싶으실 때가 있죠?그런 순간은 항상 예고 없이 찾아오는 것 같습니다. (어쩌면 몇 번이고 우리에게 알려줬지만 미처 느끼지 못한 것 일 수도 있을 것 같습니다.)여러분들은 이런 날이면 무엇을 하시나요?  쇼핑? 산책? 독서?저는 언제나 그렇듯 훌쩍 떠나보았습니다. 이렇게 떠나온 곳이 조금 멀어요. 오늘은 바로 강릉이랍니다.  강릉 왠지 이름만 들어도 맛있는 커피가 있을 것 같지 않습니까?저의 근거 없는 자신감은 적중하고 말았습니다.  크게 어렵지 않게 찾았거든요. 그만큼 맛있고 많은 사람이 찾는 곳이니까요. 그곳을 이제 소개해드리려고 합니다. 그곳은 ~ 바로 ~ 카페 툇마루!흑임자 라떼로 유명 유명 아주 ~ 유명한 곳이랍니다.  #인테리어 : 목재 느낌에 따뜻한 느낌의 인테리어입니다. ..
ETL vs ELT - 데이터 처리 접근 방식 차이점 알아보기 ETL과 ELT의 차이점은 무엇인가요?ETL(Extract, Transform, Load)과 ELT(Extract, Load, Transform)는 데이터 통합과 변환을 위한 두 가지 주요 접근 방식입니다. 이들은 데이터 처리를 위한 기본 원칙은 동일하지만, 데이터 변환 단계가 어디에서 수행되는지에 따라 차이가 있습니다.ETL (Extract, Transform, Load)ETL은 데이터를 추출(Extract)하고, 데이터 웨어하우스나 데이터 마트로 로드하기 전에 변환(Transform) 단계를 수행한 후 적재(Load)하는 방식입니다.Extract (추출):다양한 소스 시스템(예: 데이터베이스, 파일, API)에서 원시 데이터를 추출합니다.Transform (변환):데이터를 중앙 저장소로 로드하기 전에..
[dbt] dbt란 무엇인가? dbt(Data Build Tool)는 데이터 트랜스포메이션을 관리하고 자동화하는 오픈 소스 툴입니다. dbt는 데이터 팀이 SQL로 데이터를 변환, 모델링, 테스트 및 문서화할 수 있도록 도와줍니다. 주로 ELT(Extract, Load, Transform) 방식에서 트랜스포메이션(T) 부분을 담당합니다.dbt의 주요 특징SQL 중심의 트랜스포메이션:dbt는 SQL을 사용하여 데이터 트랜스포메이션을 수행합니다. 이는 SQL을 이미 알고 있는 데이터 분석가와 엔지니어에게 매우 친숙한 환경을 제공합니다.버전 관리 및 협업:dbt프로젝트는 Git과 같은 버전 관리 시스템과 통합되어 코드 변경 사항을 추적하고 여러 팀원이 협업할 수 있습니다.테스트 및 검증:dbt는 데이터 품질을 유지하기 위한 테스트 기능을 ..
[Airflow] Airflow란 무엇인가? Apache Airflow는 워크플로우 관리 플랫폼으로, 데이터 엔지니어링 작업에서 자주 사용됩니다. Airflow는 워크플로우를 작성, 스케줄링, 모니터링할 수 있는 기능을 제공하여, 복잡한 데이터 파이프라인을 효율적으로 관리할 수 있도록 돕습니다. 주요 특징DAG (Directed Acyclic Graph):Airflow의 워크플로우는 DAG로 정의됩니다. DAG는 작업(Task)들 간의 의존성을 명확히 나타내는 유향 비순환 그래프입니다. 이를 통해 작업의 실행 순서를 제어하고 모니터링할 수 있습니다.모듈화 및 확장성:Airflow는 Python 코드로 작성되어 매우 유연하고 확장 가능합니다. 사용자는 다양한 연산자(Operators)와 센서(Sensors)를 활용해 복잡한 워크플로우를 정의할 수 있..
[강릉 여행] 아르떼 뮤지엄! 가족, 커플, 육아 여행 추천! 빠르게 변화는 세상에 적응해가시는 여러분! 힘드시죠? 힘든 만큼 쉬는 것도 잘 쉬어줘야 하는데... 힘들다고 한 번뿐인 우리의 소중한 시간을 그냥 흘려보낼 수는 없잖아요?힘들다면 더 열심히 쉬어보아야 합니다.  그래서 저는 이번 주 큰맘 먹고 강릉으로 훌쩍 떠났습니다. 강릉!왠지 더 시원하게 느껴지지 않으시나요? 그래서인지 제 마음도 시원해지는 것 같습니다.  예전에는 서울에서 강릉까지 가는 길이 엄청나게 멀었거든요? 그런데 이게 웬일!내비게이션으로 찍었더니 2시간 반이면 가더라고요!이 정도면 당일치기도 가능하겠죠?  강릉 하면 뭐가 떠오르세요? 커피? 양? 겨울 바다? 물회? 순두부? 다 좋지만 이번 여행의 목적은 눈 호강! 이랍니다. 제가 어디 갔는지 궁금하시죠?   제가 향한 곳은 아르떼 뮤지엄!제..
[GitOps] GitOps란 무엇인가? GitOps는 Git을 중심으로 한 운영 방식으로, 인프라 및 애플리케이션 배포를 코드로 관리하는 DevOps의 한 방법론입니다. GitOps는 모든 변경 사항을 Git 리포지토리에 저장하고, 이를 기반으로 시스템 상태를 관리 및 배포합니다. 이 접근 방식은 일관성, 추적 가능성, 자동화된 배포, 협업 강화 등을 통해 소프트웨어 개발 및 운영의 효율성을 높입니다.GitOps의 핵심 원칙GitOps의 핵심 원칙은 선언적 인프라 관리, 버전 관리 시스템으로서의 Git, 자동 동기화 및 배포, 모니터링 및 검증으로 구성됩니다. 이 원칙들은 GitOps의 효율적이고 일관된 운영을 보장하며, DevOps 문화의 발전을 촉진합니다. 아래에 각각의 원칙을 자세히 설명하겠습니다.1. 선언적 인프라 관리 (Declara..
[Flink] Apache Flink란 무엇인가? Apache Flink란 무엇인가?Apache Flink는 대규모 데이터 스트림 처리와 배치 처리 작업을 수행할 수 있는 오픈 소스 분산 데이터 처리 엔진입니다. 특히 실시간 데이터 스트림 처리에 강점을 가지고 있으며, 이벤트 기반 데이터 파이프라인과 분석 애플리케이션을 위한 강력한 도구로 널리 사용됩니다.스트림 프로세싱의 개념스트림 프로세싱(Stream Processing)은 실시간으로 연속적으로 들어오는 데이터를 처리하는 방식입니다. 이는 데이터를 저장한 후 나중에 처리하는 배치 프로세싱(Batch Processing)과는 다릅니다. 스트림 프로세싱은 데이터가 생성됨과 동시에 처리되므로, 지연 시간이 매우 낮고 실시간 분석 및 대응이 필요할 때 매우 유용합니다. 데이터 스트림(Data Stream):..
[Spark] Apache Spark란 무엇인가? Apache Spark란 무엇인가?Apache Spark는 대규모 데이터 처리를 위해 설계된 오픈 소스 분산 데이터 처리 프레임워크입니다. 주로 빅데이터 처리를 위한 빠르고 일반적인 엔진으로 사용됩니다. Spark는 Hadoop MapReduce와 같은 분산 컴퓨팅 시스템의 대안으로 개발되었으며, 대규모 데이터를 효율적으로 처리하기 위해 인메모리(메모리 내) 컴퓨팅을 활용합니다.주요 특징속도: Spark는 인메모리 컴퓨팅을 통해 디스크 기반 처리보다 최대 100배 더 빠른 성능을 제공합니다. 이는 데이터를 메모리에 유지하여 반복 작업에서 성능 저하를 방지합니다.확장성: Spark는 클러스터의 수천 대의 노드에서 작업을 실행할 수 있어 대규모 데이터 세트를 처리하는 데 매우 효율적입니다.다양한 언어 지원:..