소개
오늘날의 세계에서 데이터는 놀라운 속도와 규모로 생성됩니다. 소셜 미디어 활동, 온라인 쇼핑, 금융 거래 또는 스마트 디바이스의 센서에 대해 생각해 보세요. 이 모든 정보를 처리하고 분석하여 인사이트를 추출해야 합니다. Hadoop MapReduce와 같은 기존 시스템은 한때 go-to 솔루션이었지만 디스크에 중간 결과를 쓰는 데 크게 의존했기 때문에 속도에 어려움을 겪었습니다.
Apache Spark 는 이러한 제한을 극복하도록 설계되었습니다. RAM(메모리)에서 가능한 한 많이 유지하면서 많은 컴퓨터에서 대량의 데이터를 처리하는 오픈 소스 분산 컴퓨팅 시스템입니다. 이 디자인 선택을 통해 Spark는 빠르고확장성이 뛰어나며 랩톱의 작은 데이터 세트부터 대규모 클러스터의 페타바이트 데이터까지 모든 것을 처리할 수 있습니다.