본문 바로가기

분산 데이터 처리

(1)

[Spark] Apache Spark란 무엇인가? Apache Spark란 무엇인가?Apache Spark는 대규모 데이터 처리를 위해 설계된 오픈 소스 분산 데이터 처리 프레임워크입니다. 주로 빅데이터 처리를 위한 빠르고 일반적인 엔진으로 사용됩니다. Spark는 Hadoop MapReduce와 같은 분산 컴퓨팅 시스템의 대안으로 개발되었으며, 대규모 데이터를 효율적으로 처리하기 위해 인메모리(메모리 내) 컴퓨팅을 활용합니다.주요 특징속도: Spark는 인메모리 컴퓨팅을 통해 디스크 기반 처리보다 최대 100배 더 빠른 성능을 제공합니다. 이는 데이터를 메모리에 유지하여 반복 작업에서 성능 저하를 방지합니다.확장성: Spark는 클러스터의 수천 대의 노드에서 작업을 실행할 수 있어 대규모 데이터 세트를 처리하는 데 매우 효율적입니다.다양한 언어 지원:..

이전 1 다음

티스토리툴바