본문 바로가기

전체 글

(564)
[글공유] 행동 데이터 분석 플로랑 뷔송의 『행동 데이터 분석』은 사용자 행동 데이터를 수집, 분석, 시각화하는 방법을 설명하는 책입니다. 이 책은 사용자 행동 데이터의 개념에서부터 데이터 수집, 분석, 시각화 방법, 그리고 실제 사례까지 다양한 내용을 다루고 있습니다. 이 책은 사용자 행동 데이터를 분석하여 사용자 경험을 개선하고, 마케팅 효과를 높이고, 비즈니스 전략을 수립하는 데 도움이 될 것입니다. 이 책은 다음과 같은 장점이 있습니다. 사용자 행동 데이터의 개념을 이해하기 쉽게 설명합니다. 데이터 수집, 분석, 시각화 방법을 자세하게 설명합니다. 다양한 실제 사례를 통해 사용자 행동 데이터를 분석하는 방법을 보여줍니다. 이 책은 사용자 행동 데이터를 분석하는 데 관심이 있는 모든 사람에게 도움이 될 것입니다. 특히, 마케팅..
[글공유] AWS 기반 데이터 과학을 읽고 AWS 기반 데이터 과학은 AWS에서 제공하는 AI와 ML 기능을 활용하여 데이터 과학 프로젝트를 구축하고 배포하는 방법을 다룬 실전 지침서입니다. 아마존 EC2, 아마존 EBS, 아마존 다이나모DB, AWS 람다, AWS IAM을 비롯한 다양한 AWS 서비스를 사용하여 데이터 수집 및 처리, 머신러닝, 보안을 다룹니다. 또한 AWS에서 데이터 과학 프로젝트의 비용을 절감하고 성능을 향상시키는 팁도 소개합니다. 이 책은 데이터 과학에 대한 기본 지식이 있는 독자라면 누구나 쉽게 이해하고 따라 할 수 있습니다. 또한 AWS를 처음 접하는 독자라도 책에 제공된 튜토리얼을 통해 AWS를 빠르게 익힐 수 있습니다. 이 책은 데이터 과학 프로젝트를 계획하고 실행하는 데 필요한 모든 정보를 제공합니다. 데이터 수집..
빅데이터 파일 형식 알아보기(Parquet, ORC, AVRO) 빅데이터를 처리하고 관리하는데 있어 가장 중요한 관점은 어떻게 비용 효율적으로 데이터를 저장하고 관리 할지에 대한 부분과 어떻게 하면 빠르게 많은 데이터를 처리할 수 있는지에 대한 영역으로 나눌 수 있을 것 입니다. 적은 비용으로 많은 데이터를 저장 할 수 있고 이어서 적은 컴퓨팅 파워로 빠르게 데이터를 처리할 수 있는 이 두가지 내용을 모두 만족하는 솔루션이 있으면 좋겠지만, 아쉽게도 두가지를 모두 최적으로 만족하는 방법은 없습니다. 그렇다면 저희가 기술을 선택할 때는 어떠한 관점으로 접근을 해야 할까요? 우리가 만들고자 하는 시스템과 주변 상황을 잘 이해할 필요가 있습니다. 즉, 우리 시스템의 요구사항에 맞게 어떠한 영역에 장점은 살리고 어떤 부분에서는 조금 손해를 보는 것이죠. 그렇게 저희에게 맞는..
[글공유] 개발자를 위한 머신러닝&딥러닝 요즘 들어 인공지능에 대한 인기가 더욱 높아져 가는 것 같습니다. 딥러닝과 인공지능은 이제 학문의 세상을 벗어나 상용화 또는 인간의 삶에 완전 녹아 들고 있는 것 같습니다. 개발의 속도 또한 어마어마 하죠. 역시나 SW의 트렌드는 빠르게 변화하는 것 같습니다. 그렇다면 개발자들이 머신러닝 또는 딥러닝을 이해하기 위해 어떠한 것이 필요할까요? 그래서 이 책을 살펴 보았습니다. 제목부터 개발자를 위한 느낌과 배려가 느껴지죠? 머신러닝과 인공지능은 쉬워보이지만, 막상시작하려면 무엇부터 시작해야 할지 곤란한 경우가 많습니다. 인공지능과 머신러닝에 관심이 있고 데이터에서 학습하는 모델을 빠르게 구축하고 싶다면 이 책을 보세요. 일반적인 인공지능 및 머신러닝 개념을 배우는 데 관심이 있고 이 분야의 문제를 해결하기..
[빅데이터] 데이터 품질 검증 알아보기(AWS Deequ & Glue Data Quality) 데이터 품질이란? 일반적인 문제 Raw Data를 항상 신뢰할 수는 없다. 데이터 소스마다 품질 수준이 상이 하다. 대부분 데이터 레이크 설계시에 수집 데이터의 통제 수준을 결정하지 않기 때문에 위 문제가 발생 가능 하다. 문제로 인해 발생 가능한 이슈 누락된 값으로 인해 프로덕션 시스템에서 널이 아닌 값을 필요로 하는 오류(NullPointerException)가 발생할 수 있습니다. 데이터 분포의 변화로 인해 머신 러닝 모델에서 예기치 않은 출력이 발생할 수 있습니다. 잘못된 데이터의 집계는 잘못된 비즈니스 의사 결정으로 이어질 수 있습니다. 위 문제를 해결하기 위해 데이터 처리 파이프라인의 단계 중 하나로, 필요한 품질 검사를 구현해야 한다. 구분 내용 공통 품질 검사 항목 특정 컬럼에 대한 값의 ..
[빅데이터] 데이터 플랫폼 스키마 관리 하기 데이터 플랫폼에서 스키마 관리는 SW에 다양한 분야에서 다루는 인터페이스를 관리하는 개념과 유사하다. 다양한 시스템 또는 모듈로 이루어진 솔루션은 안정적으로 서비스를 하기 위해서 인터페이스 관리가 아주 중요하다. 인터페이스는 서비스간의 약속이고 서비스간 연동할 수 있는 방법이기 때문에 인터페이스의 설계 뿐만 아니라 유지 관리, 프로세스 또한 중요하다. 데이터 분야에서는 스키마가 이와 같은 인터페이스 역할을 하게된다. 올바른 스키마를 알아야, 각 단계별로 정확한 동작을 할 수 있게 되므로 아주 중요한 분야라고 할 수 있다. 데이터 플랫폼에서는 스키마 레지스트리(스키마 저장소)를 활용하여 스키마를 관리한다. 이 스키마 레지스트리는 데이터 소스별 전체 스키마의 모든 버전을 포함하게 된다. - 특정 데이터 소스..
[빅데이터] 메타데이터에 대해 알아보자 메타데이터 개념 메타데이터는 간단히 말해 "다른 데이터에 대한 정보를 제공하고 설명하는 데이터의 집합"을 의미합니다. 데이터 플랫폼과 데이터 관리 영역에서의 메타데이터는 자체 데이터를 더 잘 관리하는 데 도움이 되는 정보라고 할 수 있습니다. 데이터 플랫폼에는 두 가지 유형의 메타 데이터가 존재 합니다. 1. 비즈니스 메타데이터 2. 파이프라인 메타데이터 (데이터 플랫폼 내부 메타데이터) 비즈니스 메타데이터 데이터 관리 측면에서의 메타데이터를 의미합니다. 여기서 말하는 메타데이터는 데이터의 발생 조직(세일즈 부서, HR), 데이터 소유자, 생성 일자 및 시간, 파일 크기, 데이터의 용도 등을 설명하는 정보가 해당되게 됩니다. 비즈니스 메타데이터의 주요 역할은 최종 사용자에게 데이터 검색을 용이하게 하는 ..
TLS 1.3에 대해 알아보자 TLS 1.3이란? TLS 1.3 (Transport Layer Security 1.3)은 인터넷에서 안전한 통신을 위해 사용되는 프로토콜 중 하나입니다. 이전 버전의 TLS/SSL에 비해 보안성이 향상되어 있으며, 보안 알고리즘 및 핸드쉐이크 프로세스 등이 개선되어 더욱 안전한 통신이 가능합니다. TLS 1.3은 2018년 8월에 RFC 8446으로 표준화되었습니다. 이전 버전의 TLS와 달리 더욱 간결한 디자인을 채택하여 보안성을 강화하면서도 연결 시간을 줄이는 데 주력하였습니다. TLS 1.3의 핵심적인 개선 사항으로는 다음과 같은 것들이 있습니다. 핸드쉐이크 과정 최적화: 기존의 2라운드 핸드쉐이크 과정에서 1라운드로 간소화되어 연결 시간이 크게 단축됩니다. 암호화 강화: 보안성이 더욱 강화된 새..
UUID와 ULID 차이점 알아보기 UUID란 무엇인가? UUID는 "Universally Unique Identifier"의 약어로, 고유한 식별자를 생성하기 위한 포맷 중 하나입니다. UUID는 128비트의 식별자로, 일반적으로 16진수로 표현된 32개의 문자열로 구성됩니다. UUID는 대규모 분산 시스템에서 개체나 엔티티를 고유하게 식별하기 위해 사용됩니다. UUID는 시간, 컴퓨터의 MAC 주소, 임의의 값을 조합하여 생성됩니다. 이를 통해 고유성이 보장됩니다. UUID는 표준으로서, 다양한 프로그래밍 언어와 플랫폼에서 지원되며, 많은 개발자들이 사용하고 있습니다. 그러나, UUID는 생성된 순서나 시간순으로 정렬이 되지 않으므로, 대규모 분산 시스템에서 빠른 검색이나 정렬이 필요한 경우에는 적합하지 않을 수 있습니다. 또한, UU..
데이터 플랫폼 - 스토리지 설계 및 구축 방법 데이터 플랫폼의 데이터 저장소 구성시, 명확하고 일관된 원칙을 갖는 것이 중요하다. 이 일관된 원칙은 표준화된 파이프라인 구축이 가능하게 하고 대규모 파이프라인을 효율적으로 관리 할 수 있게 도와준다. 아래 그림은 많은 유스케이스를 충족시킬 수 있는 스토리지 구성 패턴이다. (1) 수집 계층에 데이터는 랜딩(Landing) 영역에 저장된다.랜딩 영역은 원시 데이터가 처리될 때까지 저장돼 있는 곳이다. (랜딩 영역에 기록할 수 있는 계층은 오직 수집 계층이다.) (2) 원시 데이터는 일련의 공통 변환 과정을 거치게 된다. 그리고 스테이징 영역에 저장된다. (3) 원시 데이터는 랜딩 영역에서 아카이브 영역으로 복제된다. 아카이브 영역에 원시 데이터의 활용 목적은 재처리가 필요한 경우, 파이프라인 디버깅을 해..