Freigeben über


Apache Spark (Übersicht)

Apache Spark ist die Technologie, die Computecluster und SQL Warehouses in Azure Databricks unterstützt.

Diese Seite enthält eine Übersicht über die Dokumentation in diesem Abschnitt.

Get started

Beginnen Sie mit der Arbeit mit Apache Spark auf Databricks.

Thema Description
Apache Spark auf Azure Databricks Erhalten Sie Antworten auf häufig gestellte Fragen zu Apache Spark auf Azure Databricks.
Tutorial: Laden und Transformieren von Daten mithilfe von Apache Spark-DataFrames Befolgen Sie eine schrittweise Anleitung für die Arbeit mit Spark DataFrames in Python, R oder Scala zum Laden und Transformieren von Daten.
PySpark Grundlagen Lernen Sie die Grundlagen der Verwendung von PySpark kennen, indem Sie durch einfache Beispiele gehen.

Weitere Ressourcen

Erkunden Sie weitere Spark-Funktionen und -Dokumentationen.

Thema Description
Vergleichen von Spark Connect mit Spark Classic Erfahren Sie mehr über wichtige Unterschiede zwischen Spark Connect und Spark Classic bei ausführungs- und Analyseverhalten, um unerwartete Verhaltensweisen und Leistungsprobleme beim Migrieren von Code zu vermeiden.
Festlegen von Spark-Konfigurationseigenschaften für Azure Databricks Legen Sie Spark-Konfigurationseigenschaften fest, um Einstellungen in Ihrer Computeumgebung anzupassen und die Leistung zu optimieren.
Strukturiertes Streaming Lesen Sie eine Übersicht über Strukturiertes Streaming, eine nahezu echtzeitbasierte Verarbeitungs-Engine.
Diagnostizieren von Kosten- und Leistungsproblemen mithilfe der Spark-Benutzeroberfläche Hier erfahren Sie, wie Sie die Spark-Benutzeroberfläche für Leistungsoptimierung, Debugging und Kostenoptimierung von Spark-Aufträgen verwenden.
Verwenden von Apache Spark MLlib auf Azure Databricks Verteiltes maschinelles Lernen mit Spark MLlib und Integration mit beliebten ML-Frameworks.

Spark-APIs

Arbeiten Sie mit Spark mit Ihrer bevorzugten Programmiersprache.

Thema Description
Referenz für Apache Spark-APIs API-Referenzübersicht für Apache Spark, einschließlich Links zum Verweisen auf Spark SQL-, DataFrames- und RDD-Vorgänge in unterstützten Sprachen.
PySpark Verwenden Sie Python mit Spark, einschließlich PySpark-Grundlagen, benutzerdefinierten Datenquellen und Python-spezifischen Optimierungen.
Pandas-API für Spark Nutzen Sie die vertraute Pandas-Syntax mit der Skalierbarkeit von Spark für die verteilte Datenverarbeitung.
R für Spark Arbeiten Sie mit R- und Spark-Frameworks, darunter SparkR und Sparklyr, für statistische Berechnungen und Datenanalysen.
Skala für Spark Erstellen Sie leistungsstarke Spark-Anwendungen mit Scala mit nativen Spark-APIs und Typsicherheit.