Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Der Spark Submit-Vorgangsart ist ein Vorversionsmuster zum Konfigurieren von JARs als Aufgaben.
Warnung
Die Spark Submit-Aufgabe ist veraltet und soll Mitte 2026 entfernt werden. Die Verwendung dieses Vorgangstyps ist für neue Anwendungsfälle unzulässig und wird für bestehende Kunden dringend abgeraten. Databricks empfiehlt stattdessen die Verwendung der JAR-Aufgabe für JVM-Workloads. Siehe JAR-Task für Aufträge.
Einschränkungen
- Sie können Spark-Submit-Aufgaben nur auf neuen Clustern ausführen.
- Sie müssen Ihre JAR-Datei an einen Speicherort oder ein Maven-Repository hochladen, das mit Ihrer Compute-Konfiguration kompatibel ist. Weitere Informationen finden Sie unter Java- und Scala-Bibliotheksunterstützung.
- Sie können nicht auf JAR-Dateien zugreifen, die in Volumes gespeichert sind.
- „spark-submit“ unterstützt keine automatische Clusterskalierung. Weitere Informationen zur automatischen Skalierung finden Sie unter Automatische Clusterskalierung.
- Spark-submit unterstützt die automatische Beendigung des Clusters nicht. Spark-Anwendungen, die mit Spark-submit gestartet wurden, sollten nach Abschluss explizit
System.exitaufrufen. - Spark-submit unterstützt keine Databricks Utilities (
dbutils) Referenz. Verwenden Sie stattdessen JAR-Aufgaben, um Databricks-Hilfsprogramme zu verwenden. - Wenn Sie einen Unity-Katalogfähigen Cluster verwenden, wird spark-submit nur unterstützt, wenn der Cluster den dedizierten Zugriffsmodus verwendet. Der Standardzugriffsmodus wird nicht unterstützt. Weitere Informationen finden Sie unter Zugriffsmodi.
- Für strukturierte Streaming-Jobs sollte die maximale Anzahl gleichzeitiger Ausführungen nie auf einen Wert von mehr als 1 festgelegt werden. Streamingaufträge sollten so festgelegt werden, dass sie mithilfe des Cron-Ausdrucks
"* * * * * ?"(jede Minute) ausgeführt werden. Da eine Streamingaufgabe kontinuierlich ausgeführt wird, sollte sie immer die letzte Task in einem Auftrag sein.
Konfigurieren einer Spark Submit-Aufgabe
Fügen Sie eine Spark Submit-Aufgabe auf der Registerkarte Aufgaben in der Benutzeroberfläche Jobs hinzu, indem Sie wie folgt vorgehen:
Klicken Sie auf "Aufgabe hinzufügen".
Geben Sie einen Namen in das Feld " Vorgangsname " ein.
Wählen Sie im Dropdownmenü Typ die Option
Spark Submitaus.Verwenden Sie Compute, um einen Cluster zu konfigurieren, der die Logik Ihrer Aufgabe unterstützt.
Verwenden Sie das Textfeld Parameter, um alle Argumente und Konfigurationen bereitzustellen, die zum Ausführen Ihrer Aufgabe als JSON-Matrix von Zeichenketten erforderlich sind.
Die ersten drei Argumente werden verwendet, um die Hauptklasse zu identifizieren, die in einem JAR auf einem angegebenen Pfad ausgeführt werden soll, wie im folgenden Beispiel:
["--class", "org.apache.spark.mainClassName", "dbfs:/Filestore/libraries/jar_path.jar"]Sie können die Einstellungen
master,deploy-modeundexecutor-cores, die von Azure Databricks konfigurierten sind, nicht außer Kraft setzenVerwenden Sie
--jarsund--py-files, um abhängige Java-, Scala- und Python-Bibliotheken hinzuzufügen.Verwenden Sie
--conf, um Spark-Konfigurationen festzulegen.Die Argumente
--jars,--py-filesund--filesunterstützen DBFS-Pfade.Der spark submit-Auftrag verwendet standardmäßig den gesamten verfügbaren Arbeitsspeicher mit Ausnahme des für Azure Databricks-Dienste reservierten Arbeitsspeichers. Sie können
--driver-memoryund--executor-memoryauf einen kleineren Wert festlegen, um etwas Puffer für die Verwendung außerhalb des Heaps zu haben.
Klicken Sie auf Aufgabe speichern.