본문 바로가기

전체 글

(564)
[AWS] Lake Formation 알아보기 Lake Formation 데이터레이크(Data Lake)란? 데이터레이크는 정형 혹은 비정형 데이터에 상관 없이 어떤 규모에서도 저장 및 분석이 가능한 단일 저장소를 이야기 한다. 주요하게 기억해야 할 사항 데이터 형식에 제약이 없어야 한다. (정형, 비정형, 반정형 모두 지원되어야 한다) 규모에 제약이 없어야 한다. (다양한 규모의 데이터를 지원할 수 있어야 한다) 단일 저장소 형태여야 한다. 데이터레이크를 위한 필수 사항 : 모든 규모의 정형 및 비정형 데이터를 관리, 탐색, 공유, 분석 할 수 있는 유연하고 안전한 저장소 구분 내용 데이터 저장소 단일 지점에서 모든 데이터를 활용할 수 있어야 한다. 데이터 형식 다양한 데이터 형식을 모두 지원 가능해야 한다. 정형, 반정형, 비정형, 원시 데이터 ..
[글공유] 파이썬 라이브러리를 활용한 텍스트 분석 오늘은 자연어 처리 분야 입문에 많은 도움이 될 수 있는 책을 소개할까 합니다. 이 책은 데이터 과학자와 개발자가 텍스트 분석 및 자연어 처리를 비즈니스에 쉽게 도입할 수 있도록 안내하는 서적 입니다. 인공지능 기술이 많이 성숙화 되면서, 이제 연구를 넘어 실제 서비스로 많이 도입되고 있는 것 같습니다. 그래서인지 인공지능 분야에 엔지니어와 관련된 내용과 연구에 대한 양쪽 모두에 대한 내용이 다양한게 많이 보이는 것 같습니다. 그 중 이 책은 자연어 처리의 엔지니어 적인 기술적 내용과 연구를 하기 위해 필요한 기본적인 내용을 다룬 책입니다. 데이터와 인공지능 분야에 몸담고 있다면 파이썬이라는 개발 언어는 이제 너무나 익숙할 텐데요. 이와 같이 익숙한 파이썬 언어를 통해 텍스트를 어떻게 다루고 분석하고 활..
[데이터 플랫폼] 클라우드 데이터 플랫폼 설계 및 구축 데이터 플랫폼 빌딩 블록 : 상위 레벨 아키텍처 구분 내용 데이터 플랫폼의 빌딩 블록 데이터 플랫폼의 목적 분석에 활용될 수 있도록 어떤 유형의 데이터든 최대한 비용 효과적인 방식으로 데이터를 수집, 저장, 처리해서 활용할 수 있도록 제공하는 것 계층간 느슨하게 결합돼 있는 형태의 아키텍처를 지향한다. 각 계층은 각가의 특정 역할을 담당하고, 잘 정의된 API를 통해 각 계층간 상호교류한다. 수집 계층 (Ingestion Layer) 데이터를 데이터 플랫폼으로 가져오는 역할 관계형 데이터베이스, NoSQL 데이터베이스, 파일 스토리지, 사내 API, 타사 API 등..에 접속해 데이터를 추출하는 역할을 담당 유연성이 높아야 한다. >> 활용하고자 하는 데이터 소스가 다양해 지고 있음 대부분 오픈 소스 툴..
[글공유] 시맨틱 데이터 모형화를 읽고 시간이 지날수록 데이터의 중요성은 점점 더 커져가는 것 같습니다. 지금 이 시점에서 빅데이터의 필요성을 아직 의심하는 사람은 없을 것 입니다. 인공지능에 대한 기대와 데이터가 주는 가치를 빠르게, 알고 이미 많은 기업들이 많은 데이터를 확보하고 있습니다. 하지만 조금 더 한발자국 깊이있게 들어가보면 제대로 데이터를 잘 활용하는 경우는 그리 많지 않습니다. 아직 대부분 데이터를 수집하는 것에 집중하고 있으며, 수집한 데이터를 어떻게 사용해야 하는지 방황해 하는 기업들이 많은 것 같습니다. 그렇다면, 이제 우리는 어디에 집중하고 많이 고민해야 할까요? 저는 데이터를 어떻게 사용하고, 시장을 바꿀 수 있는 방향에 대해 더 많이 고민하는 것이 어떨까? 라고 제안해봅니다. 그리고 수집을 하는 것에 더해, 활용할 ..
[글공유] 러닝 Go를 읽고 프로젝트에 어떤 프로그램 언어를 사용하시나요? 현재 공부하고 계신분들이라면, 어떤 기준으로 첫 언어를 선택 하셨나요? 프로그램 언어를 선택하거나, 프로젝트에 기술을 선택하는 기준은 정말 다양할 것입니다. 팀원들에 스킬을 반영하여, 선정이 될 수도 있구요. 프로젝트의 일정과 주어진 자원이 먼저 고려가 되는 경우도 많을 것 입니다. 또 어떤 경우가 있을까요? 팀 리더라면, 개발자를 쉽게 구할 수 있는 트렌디한 기술을 선택할 수도 있겠죠? 위에 말씀 드린 내용들은 기술을 검토하고 선정할 때, 모두 중요한 요소이며, 검토 되어야 할 항목들 임은 틀림 없습니다. 하지만 IT 개발자라면, 무엇보다도 중요하게 생각되는 녀석이 바로 성능일 것 입니다. 적은 비용으로, 최고의 성능을 낼 수 있는 기술이 곧 시장을 앞서 ..
[글공유] Kubeflow Operation Guide 소개 MLOps라는 말 많이 들어보셨죠? 아마 처음 듣는 분들도 있으실 거예요. 그렇다면 DevOps는 들어보셨나요? DevOps가 소프트웨어 개발과 운영의 합성어인 것 처럼 MLOps는 MachineLearning과 운영의 합성어 입니다. 인공지능 기술의 발전이 엄청나게 빠르게 이루어지고 다양한 분야의 인공지능 기술들이 고도화 됨으로써, 더 빠르고 효율적으로 머신러닝 서비스를 관리할 수 있는 기술 또한 지속적으로 발전해나가고 있습니다. 소프트웨어 개발과 운영의 프로세스를 단순화하고 많은 부분이 자동화 함으로써 소프트웨어 애플리케이션 개발 생산성이 엄청나게 올라갔듯이, 머신러닝 분야에서도 이와 같은 노력이 당연하게 이루어지고 있습니다. 이런 노력이 결국 MLOps로 모여드는 것이죠. 오늘은 제가 관심을 많이 ..
JPA + Hibernate 설치 및 구성 알아보기! JPA 구현체로 하이버네이트를 사용하기 위해 필요한 lib는 아래와 같다. 구분 내용 gradle 참고용 hibernate-core 하이버네이트 라이브러리 * hibernate-entitymanager를 라이브러리로 지정하면 hibernate-core도 함께 내려 받는다. hibernate-entitymanager 하이버네이트가 JPA 구현체로 동작하도록 JPA 표준을 구현한 라이브러리 implementation group: 'org.hibernate', name: 'hibernate-entitymanager', version: '5.5.2.Final' hibernate-jpa-2.1-api JPA 2.1 표준 API를 모아둔 라이브러리 * hibernate-entitymanager를 라이브러리로 지정하..
[글 공유] 쿼커스 쿡북 컨테이너와 쿠버네티스는 이제 새로운 기술이라기 보다 많은 개발자들이 활용하는 익숙한 기술이 되어버린 듯 하다. 그만큼 쉽고 효율적이며 학습에 대한 비용보다 개발자들이 얻는 이득이 많은 기술이기 때문일 것이다. 쿠버네티스를 보면 그 발전 속도에 놀라지 않을 수 없다. 하루가 지나면 새로운 기술이 추가되고 변경되며 진화해 나간다. 보다 더 효율적인 방법으로 더 좋은 방향으로 나아간다. 뒤쫒아가는 개발자들은 힘들지만 따라가는 재미가 있다. 현재도 쿠버네티스는 발전하고 있고 쿠버네티스 생태계는 이미 커질대로 커져버렸다. 쿠버네티스 생태계의 활성화는 한동안 지속될 것으로 보인다. 이미 많은 개발자들이 그 편안함에 익숙해져버렸으며 다양한 컨테이너 오케스트레이션 도구중 쿠버네티스의 점유율이 가장 높은 것으로 보이기 ..
Kubernetes On premise 설치하기! 요약 정리! "이제는 Kubernetes를 모르면 안되는 시점이 된 것 같습니다." 어느정도 규모 있는 서비스를 개발하고 확장하여 운영하다보면 Container 활용을 자연스레 검토하게 되지요. 시스템 규모가 커져 Container의 개수가 많아지면 자연스레 효율적으로 관리하기 위한 Orchastration도구를 찾게되고 결국 Kubernetes를 만나게 될 것 입니다. 모두가 그렇다고 말할 수는 없지만 보다 효율적인 방법을 찾다보면 결국 쿠버네티스를 만나게 되는 것 같습니다. 그렇게 저도 쿠버네티스를 만나게 되었습니다. 물론 많은 Public Cloud사에서 쿠버네티스 서비스를 제공하고 있고 그 것을 활용하는 것이 여러모로 정신건강에 좋다곤 하지만 제가 직접! 제 손으로 설치는 해봐야 하지 않을까요? 라는 생각으로..
Cybersecurity Ops with bash 읽고 요즘 들어 부쩍 보안에 대한 중요성을 많이 느끼게 된다. 몇 년전부터 IT 서비스들은 개인의 삶을 보다 윤택하게 해주겠다는 명목으로 생활 깊숙히에 자리잡고 있다. 그리고 다양한 기업들이 인공지능과 빅데이터 기술을 기반으로 개인 맞춤식 서비스를 해주겠다며 나와 관련된 데이터들을 무자비하게 흡수하기 시작했다. 이와 같은 변화속에 개인의 데이터가 아무 동의 없이 외부에 유출되거나 개인의 권한을 해커로부터 도용당하는 사례가 쏟아져 나오기 시작하였다. 변화가 빠를 수록 문제는 다양하고 많이 발생하기 마련이다. 급변하는 이 사회에 보안이라고 하는 부분이 조명을 받아야하는 이유이기도 하다. 개발을 하다보면 바쁜 일정에 보안적인 부분까지 미처 고려하지 못하는 경우가 있다. 이런 아쉬운 상황은 사고로 이어지기 마련이다...