Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Von Bedeutung
Databricks Connect für Scala auf serverlosem Compute befindet sich in Der Betaversion.
Dieses Lernprogramm bietet eine Übersicht über die ersten Schritte mit Databricks Connect für Scala mithilfe von serverlosem Compute. Es erklärt die Erstellung einer berechenbaren Datei mit Unity Catalog-Unterstützung, die mit einer kompatiblen Scala JAR-Datei funktioniert, entweder in klassischem Compute im Standardzugriffsmodus oder in serverlosem Computing.
Tipp
Um ein Scala-Projekt zu erstellen, das vollständig für die Bereitstellung und Ausführung eines JAR auf serverloser Berechnung konfiguriert ist, können Sie Databricks Asset Bundles verwenden. Siehe Erstellen eines Scala JAR mit Databricks Asset Bundles.
Anforderungen
Ihre lokale Entwicklungsumgebung muss die Anforderungen für Databricks Connect für Scala erfüllen. Siehe Databricks Connect-Nutzungsanforderungen, die Folgendes umfassen:
Java Development Kit (JDK)
sbt
Databricks CLI, für serverlose Berechnung konfiguriert:
databricks auth login --configure-serverless --host <workspace-url>
Schritt 1: Erstellen eines Scala-Projekts
Erstellen Sie zuerst ein Scala-Projekt. Wenn Sie dazu aufgefordert werden, geben Sie einen Projektnamen ein, my-spark-appz. B. .
sbt new scala/scala-seed.g8
Schritt 2: Aktualisieren der Scala- und JDK-Versionen
Stellen Sie vor dem Erstellen ihres JAR sicher, dass die Version von Java Development Kit (JDK) und Scala, die Sie zum Kompilieren des Codes verwenden, für serverloses Berechnen unterstützt werden. Ausführliche Informationen zu dieser Anforderung finden Sie unter Festlegen von JDK- und Scala-Versionen.
Kompatible Versionen finden Sie in der Versionsunterstützungsmatrix.
Die folgende Konfiguration gilt für Scala 2.13 und JDK 17, die mit dedizierten oder standardmäßigen Zugriff auf Rechenressourcen unter Databricks Runtime Version 17 und einer serverlosen Umgebung in Version 4 kompatibel ist.
scalaVersion := "2.13.16"
javacOptions ++= Seq("-source", "17", "-target", "17")
scalacOptions ++= Seq("-release", "17")
Schritt 3: Hinzufügen von Databricks Connect als Abhängigkeit
Fügen Sie Databricks Connect als Abhängigkeit hinzu, um Scala JARs zu erstellen. Weitere Informationen finden Sie unter Spark-Abhängigkeiten.
Fügen Sie in der Builddatei Ihres Scala-Projekts build.sbt den folgenden Verweis auf Databricks Connect hinzu.
scalaVersion := "2.13.16"
libraryDependencies += "com.databricks" %% "databricks-connect" % "17.0.+"
// To run with new JVM options, a fork is required, otherwise it uses the same options as the sbt process.
fork := true
javaOptions += "--add-opens=java.base/java.nio=ALL-UNNAMED"
Schritt 4: Hinzufügen weiterer Abhängigkeiten
Databricks empfiehlt, Ihre Anwendung und alle abhängigen Bibliotheken in eine einzige JAR-Datei zu verpacken, auch bekannt als über JAR oder fat JAR. Alternativ können Sie abhängige Bibliotheken als computebezogene Bibliotheken oder in Ihrer serverlosen Umgebung installieren. Weitere Informationen finden Sie unter Anwendungsabhängigkeiten.
Von Bedeutung
Entfernen Sie alle Abhängigkeiten von Spark. Spark-APIs werden von Databricks Connect bereitgestellt. Weitere Informationen finden Sie unter Spark-Abhängigkeiten.
Schritt 5: Hinzufügen von Spark-Code
Erstellen Sie Ihre Hauptklasse in src/main/scala/example/DatabricksExample.scala. Ausführliche Informationen zur Verwendung der Spark-Sitzung in Ihrem Scala-Code finden Sie unter Verwenden der Databricks Spark-Sitzung.
package com.examples
import com.databricks.connect.DatabricksSession
import org.apache.spark.sql.{SparkSession}
object SparkJar {
def main(args: Array[String]): Unit = {
val spark: SparkSession = DatabricksSession.builder()
.validateSession(false)
.addCompiledArtifacts(SparkJar.getClass.getProtectionDomain.getCodeSource.getLocation.toURI)
.getOrCreate()
println(spark.version)
println(spark.range(10).limit(3).collect().mkString(" "))
}
}
Schritt 6: Ausführen und Erstellen des Codes
Führen Sie als Nächstes Ihren Code aus:
sbt run
Erstellen Sie nun eine project/assembly.sbt Datei mit der folgenden Zeile, und erstellen Sie dann das Projekt:
addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "2.3.1")
sbt assembly
Schritt 7: Bereitstellen Ihres JAR
Stellen Sie nun Ihre JAR-Datei mithilfe einer JAR-Aufgabe über die Benutzeroberfläche oder mithilfe von Databricks-Objektbündeln bereit:
Hinweis
Das von Ihnen erstellte JAR wird auch auf der Standardberechnung unterstützt. Für die Standardberechnung muss ein Administrator jedoch Maven-Koordinaten und Pfade für JAR-Bibliotheken zu einer Zulassungsliste hinzufügen. Weitere Informationen finden Sie unter Setzen von Bibliotheken und Inititalisierungsskripts auf Computeressourcen im Standardzugriffsmodus (ehemals freigegebener Zugriffsmodus) auf die Positivliste.
Databricks empfiehlt das Hinzufügen eines ganzen Volumes anstelle einzelner JARs zur Zulassungsliste.