다음을 통해 공유


Apache Spark 개요

Apache Spark는 Azure Databricks의 컴퓨팅 클러스터 및 SQL 웨어하우스를 구동하는 기술입니다.

이 페이지에서는 이 섹션의 설명서 개요를 제공합니다.

시작하기

Databricks에서 Apache Spark 작업을 시작합니다.

주제 Description
Azure Databricks의 Apache Spark Azure Databricks의 Apache Spark에 대한 질문과 대답을 가져옵니다.
자습서: Apache Spark DataFrames를 사용하여 데이터 로드 및 변환 데이터 로드 및 변환을 위해 Python, R 또는 Scala에서 Spark DataFrames를 사용하기 위한 단계별 가이드를 따릅니다.
PySpark 기본 사항 간단한 예제를 통해 PySpark를 사용하는 기본 사항을 알아봅니다.

추가 리소스

다른 Spark 기능 및 설명서를 살펴보세요.

주제 Description
Spark Connect와 Spark 클래식 비교 코드를 마이그레이션할 때 예기치 않은 동작 및 성능 문제를 방지하기 위해 실행 및 분석 동작에서 Spark Connect와 Spark 클래식 간의 주요 차이점에 대해 알아봅니다.
Azure Databricks에서 Spark 구성 속성 설정 Spark 구성 속성을 설정하여 컴퓨팅 환경에서 설정을 사용자 지정하고 성능을 최적화합니다.
구조적 스트리밍 거의 실시간 처리 엔진인 구조적 스트리밍에 대한 개요를 읽어보십시오.
Spark UI를 사용하여 비용 및 성능 문제 진단 Spark 작업의 성능 튜닝, 디버깅 및 비용 최적화에 Spark UI를 사용하는 방법을 알아봅니다.
Azure Databricks에서 Apache Spark MLlib 사용 Spark MLlib를 사용한 분산 기계 학습 및 인기 있는 ML 프레임워크와의 통합

Spark API

기본 프로그래밍 언어를 사용하여 Spark로 작업합니다.

주제 Description
Apache Spark API에 대한 참조 지원되는 언어에서 Spark SQL, DataFrames 및 RDD 작업에 대한 참조 링크를 포함하여 Apache Spark에 대한 API 참조 개요입니다.
PySpark PySpark 기본 사항, 사용자 지정 데이터 원본 및 Python 관련 최적화를 포함하여 Spark와 함께 Python을 사용합니다.
Spark의 Pandas API 분산 데이터 처리를 위해 Spark의 확장성과 친숙한 pandas 구문을 활용합니다.
Spark용 R 통계 컴퓨팅 및 데이터 분석을 위해 SparkR 및 sparklyr 패키지를 사용하여 R과 Spark를 함께 활용합니다.
Spark용 Scala 네이티브 Spark API 및 형식 안전성이 있는 Scala를 사용하여 고성능 Spark 애플리케이션을 빌드합니다.