Spark Submit (alte Version, veraltet, wird Mitte 2026 eingestellt)

Der Spark Submit-Vorgangsart ist ein Vorversionsmuster zum Konfigurieren von JARs als Aufgaben.

Warnung

Die Spark Submit-Aufgabe ist veraltet und soll Mitte 2026 entfernt werden. Die Verwendung dieses Vorgangstyps ist für neue Anwendungsfälle unzulässig und wird für bestehende Kunden dringend abgeraten. Databricks empfiehlt stattdessen die Verwendung der JAR-Aufgabe für JVM-Workloads. Siehe JAR-Task für Aufträge.

Einschränkungen

Sie können Spark-Submit-Aufgaben nur auf neuen Clustern ausführen.
Sie müssen Ihre JAR-Datei an einen Speicherort oder ein Maven-Repository hochladen, das mit Ihrer Compute-Konfiguration kompatibel ist. Weitere Informationen finden Sie unter Java- und Scala-Bibliotheksunterstützung.
Sie können nicht auf JAR-Dateien zugreifen, die in Volumes gespeichert sind.
„spark-submit“ unterstützt keine automatische Clusterskalierung. Weitere Informationen zur automatischen Skalierung finden Sie unter Automatische Clusterskalierung.
Spark-submit unterstützt die automatische Beendigung des Clusters nicht. Spark-Anwendungen, die mit Spark-submit gestartet wurden, sollten nach Abschluss explizit System.exit aufrufen.
Spark-submit unterstützt keine Databricks Utilities (dbutils) Referenz. Verwenden Sie stattdessen JAR-Aufgaben, um Databricks-Hilfsprogramme zu verwenden.
Wenn Sie einen Unity-Katalogfähigen Cluster verwenden, wird spark-submit nur unterstützt, wenn der Cluster den dedizierten Zugriffsmodus verwendet. Der Standardzugriffsmodus wird nicht unterstützt. Weitere Informationen finden Sie unter Zugriffsmodi.
Für strukturierte Streaming-Jobs sollte die maximale Anzahl gleichzeitiger Ausführungen nie auf einen Wert von mehr als 1 festgelegt werden. Streamingaufträge sollten so festgelegt werden, dass sie mithilfe des Cron-Ausdrucks "* * * * * ?" (jede Minute) ausgeführt werden. Da eine Streamingaufgabe kontinuierlich ausgeführt wird, sollte sie immer die letzte Task in einem Auftrag sein.

Konfigurieren einer Spark Submit-Aufgabe

Fügen Sie eine Spark Submit-Aufgabe auf der Registerkarte Aufgaben in der Benutzeroberfläche Jobs hinzu, indem Sie wie folgt vorgehen:

Klicken Sie auf "Aufgabe hinzufügen".
Geben Sie einen Namen in das Feld " Vorgangsname " ein.
Wählen Sie im Dropdownmenü Typ die Option Spark Submit aus.
Verwenden Sie Compute, um einen Cluster zu konfigurieren, der die Logik Ihrer Aufgabe unterstützt.
Verwenden Sie das Textfeld Parameter, um alle Argumente und Konfigurationen bereitzustellen, die zum Ausführen Ihrer Aufgabe als JSON-Matrix von Zeichenketten erforderlich sind.
- Die ersten drei Argumente werden verwendet, um die Hauptklasse zu identifizieren, die in einem JAR auf einem angegebenen Pfad ausgeführt werden soll, wie im folgenden Beispiel:
```
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]
```
- Sie können die Einstellungen master, deploy-mode und executor-cores, die von Azure Databricks konfigurierten sind, nicht außer Kraft setzen
- Verwenden Sie --jars und --py-files, um abhängige Java-, Scala- und Python-Bibliotheken hinzuzufügen.
- Verwenden Sie --conf, um Spark-Konfigurationen festzulegen.
- Die Argumente --jars, --py-files und --files unterstützen DBFS-Pfade.
- Der spark submit-Auftrag verwendet standardmäßig den gesamten verfügbaren Arbeitsspeicher mit Ausnahme des für Azure Databricks-Dienste reservierten Arbeitsspeichers. Sie können --driver-memory und --executor-memory auf einen kleineren Wert festlegen, um etwas Puffer für die Verwendung außerhalb des Heaps zu haben.
Klicken Sie auf Aufgabe speichern.

Feedback

War diese Seite hilfreich?

Last updated on 2025-10-22

Freigeben über

Spark Submit (alte Version, veraltet, wird Mitte 2026 eingestellt)

Einschränkungen

Konfigurieren einer Spark Submit-Aufgabe

Feedback

Zusätzliche Ressourcen