Apache Spark는 Azure Databricks의 컴퓨팅 클러스터 및 SQL 웨어하우스를 구동하는 기술입니다.
이 페이지에서는 이 섹션의 설명서 개요를 제공합니다.
시작하기
Databricks에서 Apache Spark 작업을 시작합니다.
| 주제 | Description |
|---|---|
| Azure Databricks의 Apache Spark | Azure Databricks의 Apache Spark에 대한 질문과 대답을 가져옵니다. |
| 자습서: Apache Spark DataFrames를 사용하여 데이터 로드 및 변환 | 데이터 로드 및 변환을 위해 Python, R 또는 Scala에서 Spark DataFrames를 사용하기 위한 단계별 가이드를 따릅니다. |
| PySpark 기본 사항 | 간단한 예제를 통해 PySpark를 사용하는 기본 사항을 알아봅니다. |
추가 리소스
다른 Spark 기능 및 설명서를 살펴보세요.
| 주제 | Description |
|---|---|
| Spark Connect와 Spark 클래식 비교 | 코드를 마이그레이션할 때 예기치 않은 동작 및 성능 문제를 방지하기 위해 실행 및 분석 동작에서 Spark Connect와 Spark 클래식 간의 주요 차이점에 대해 알아봅니다. |
| Azure Databricks에서 Spark 구성 속성 설정 | Spark 구성 속성을 설정하여 컴퓨팅 환경에서 설정을 사용자 지정하고 성능을 최적화합니다. |
| 구조적 스트리밍 | 거의 실시간 처리 엔진인 구조적 스트리밍에 대한 개요를 읽어보십시오. |
| Spark UI를 사용하여 비용 및 성능 문제 진단 | Spark 작업의 성능 튜닝, 디버깅 및 비용 최적화에 Spark UI를 사용하는 방법을 알아봅니다. |
| Azure Databricks에서 Apache Spark MLlib 사용 | Spark MLlib를 사용한 분산 기계 학습 및 인기 있는 ML 프레임워크와의 통합 |
Spark API
기본 프로그래밍 언어를 사용하여 Spark로 작업합니다.
| 주제 | Description |
|---|---|
| Apache Spark API에 대한 참조 | 지원되는 언어에서 Spark SQL, DataFrames 및 RDD 작업에 대한 참조 링크를 포함하여 Apache Spark에 대한 API 참조 개요입니다. |
| PySpark | PySpark 기본 사항, 사용자 지정 데이터 원본 및 Python 관련 최적화를 포함하여 Spark와 함께 Python을 사용합니다. |
| Spark의 Pandas API | 분산 데이터 처리를 위해 Spark의 확장성과 친숙한 pandas 구문을 활용합니다. |
| Spark용 R | 통계 컴퓨팅 및 데이터 분석을 위해 SparkR 및 sparklyr 패키지를 사용하여 R과 Spark를 함께 활용합니다. |
| Spark용 Scala | 네이티브 Spark API 및 형식 안전성이 있는 Scala를 사용하여 고성능 Spark 애플리케이션을 빌드합니다. |