Apache Spark (Übersicht)

Apache Spark ist die Technologie, die Computecluster und SQL Warehouses in Azure Databricks unterstützt.

Diese Seite enthält eine Übersicht über die Dokumentation in diesem Abschnitt.

Get started

Beginnen Sie mit der Arbeit mit Apache Spark auf Databricks.

Thema	Description
Apache Spark auf Azure Databricks	Erhalten Sie Antworten auf häufig gestellte Fragen zu Apache Spark auf Azure Databricks.
Tutorial: Laden und Transformieren von Daten mithilfe von Apache Spark-DataFrames	Befolgen Sie eine schrittweise Anleitung für die Arbeit mit Spark DataFrames in Python, R oder Scala zum Laden und Transformieren von Daten.
PySpark Grundlagen	Lernen Sie die Grundlagen der Verwendung von PySpark kennen, indem Sie durch einfache Beispiele gehen.

Erkunden Sie weitere Spark-Funktionen und -Dokumentationen.

Thema	Description
Vergleichen von Spark Connect mit Spark Classic	Erfahren Sie mehr über wichtige Unterschiede zwischen Spark Connect und Spark Classic bei ausführungs- und Analyseverhalten, um unerwartete Verhaltensweisen und Leistungsprobleme beim Migrieren von Code zu vermeiden.
Festlegen von Spark-Konfigurationseigenschaften für Azure Databricks	Legen Sie Spark-Konfigurationseigenschaften fest, um Einstellungen in Ihrer Computeumgebung anzupassen und die Leistung zu optimieren.
Strukturiertes Streaming	Lesen Sie eine Übersicht über Strukturiertes Streaming, eine nahezu echtzeitbasierte Verarbeitungs-Engine.
Diagnostizieren von Kosten- und Leistungsproblemen mithilfe der Spark-Benutzeroberfläche	Hier erfahren Sie, wie Sie die Spark-Benutzeroberfläche für Leistungsoptimierung, Debugging und Kostenoptimierung von Spark-Aufträgen verwenden.
Verwenden von Apache Spark MLlib auf Azure Databricks	Verteiltes maschinelles Lernen mit Spark MLlib und Integration mit beliebten ML-Frameworks.

Arbeiten Sie mit Spark mit Ihrer bevorzugten Programmiersprache.

Thema	Description
Referenz für Apache Spark-APIs	API-Referenzübersicht für Apache Spark, einschließlich Links zum Verweisen auf Spark SQL-, DataFrames- und RDD-Vorgänge in unterstützten Sprachen.
PySpark	Verwenden Sie Python mit Spark, einschließlich PySpark-Grundlagen, benutzerdefinierten Datenquellen und Python-spezifischen Optimierungen.
Pandas-API für Spark	Nutzen Sie die vertraute Pandas-Syntax mit der Skalierbarkeit von Spark für die verteilte Datenverarbeitung.
R für Spark	Arbeiten Sie mit R- und Spark-Frameworks, darunter SparkR und Sparklyr, für statistische Berechnungen und Datenanalysen.
Skala für Spark	Erstellen Sie leistungsstarke Spark-Anwendungen mit Scala mit nativen Spark-APIs und Typsicherheit.

War diese Seite hilfreich?