Lernprogramm: Ausführen von Scala-Code auf serverlosem Compute

Von Bedeutung

Databricks Connect für Scala auf serverlosem Compute befindet sich in Der Betaversion.

Dieses Lernprogramm bietet eine Übersicht über die ersten Schritte mit Databricks Connect für Scala mithilfe von serverlosem Compute. Es erklärt die Erstellung einer berechenbaren Datei mit Unity Catalog-Unterstützung, die mit einer kompatiblen Scala JAR-Datei funktioniert, entweder in klassischem Compute im Standardzugriffsmodus oder in serverlosem Computing.

Tipp

Um ein Scala-Projekt zu erstellen, das vollständig für die Bereitstellung und Ausführung eines JAR auf serverloser Berechnung konfiguriert ist, können Sie Databricks Asset Bundles verwenden. Siehe Erstellen eines Scala JAR mit Databricks Asset Bundles.

Anforderungen

Ihre lokale Entwicklungsumgebung muss die Anforderungen für Databricks Connect für Scala erfüllen. Siehe Databricks Connect-Nutzungsanforderungen, die Folgendes umfassen:

Java Development Kit (JDK)
sbt

Databricks CLI, für serverlose Berechnung konfiguriert:

databricks auth login --configure-serverless --host <workspace-url>

Schritt 1: Erstellen eines Scala-Projekts

Erstellen Sie zuerst ein Scala-Projekt. Wenn Sie dazu aufgefordert werden, geben Sie einen Projektnamen ein, my-spark-appz. B. .

sbt new scala/scala-seed.g8

Schritt 2: Aktualisieren der Scala- und JDK-Versionen

Stellen Sie vor dem Erstellen ihres JAR sicher, dass die Version von Java Development Kit (JDK) und Scala, die Sie zum Kompilieren des Codes verwenden, für serverloses Berechnen unterstützt werden. Ausführliche Informationen zu dieser Anforderung finden Sie unter Festlegen von JDK- und Scala-Versionen.

Kompatible Versionen finden Sie in der Versionsunterstützungsmatrix.

Die folgende Konfiguration gilt für Scala 2.13 und JDK 17, die mit dedizierten oder standardmäßigen Zugriff auf Rechenressourcen unter Databricks Runtime Version 17 und einer serverlosen Umgebung in Version 4 kompatibel ist.

scalaVersion := "2.13.16"

javacOptions ++= Seq("-source", "17", "-target", "17")
scalacOptions ++= Seq("-release", "17")

Schritt 3: Hinzufügen von Databricks Connect als Abhängigkeit

Fügen Sie Databricks Connect als Abhängigkeit hinzu, um Scala JARs zu erstellen. Weitere Informationen finden Sie unter Spark-Abhängigkeiten.

Fügen Sie in der Builddatei Ihres Scala-Projekts build.sbt den folgenden Verweis auf Databricks Connect hinzu.

scalaVersion := "2.13.16"
libraryDependencies += "com.databricks" %% "databricks-connect" % "17.0.+"

// To run with new JVM options, a fork is required, otherwise it uses the same options as the sbt process.
fork := true
javaOptions += "--add-opens=java.base/java.nio=ALL-UNNAMED"

Schritt 4: Hinzufügen weiterer Abhängigkeiten

Databricks empfiehlt, Ihre Anwendung und alle abhängigen Bibliotheken in eine einzige JAR-Datei zu verpacken, auch bekannt als über JAR oder fat JAR. Alternativ können Sie abhängige Bibliotheken als computebezogene Bibliotheken oder in Ihrer serverlosen Umgebung installieren. Weitere Informationen finden Sie unter Anwendungsabhängigkeiten.

Von Bedeutung

Entfernen Sie alle Abhängigkeiten von Spark. Spark-APIs werden von Databricks Connect bereitgestellt. Weitere Informationen finden Sie unter Spark-Abhängigkeiten.

Schritt 5: Hinzufügen von Spark-Code

Erstellen Sie Ihre Hauptklasse in src/main/scala/example/DatabricksExample.scala. Ausführliche Informationen zur Verwendung der Spark-Sitzung in Ihrem Scala-Code finden Sie unter Verwenden der Databricks Spark-Sitzung.

package com.examples

import com.databricks.connect.DatabricksSession
import org.apache.spark.sql.{SparkSession}

object SparkJar {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = DatabricksSession.builder()
      .validateSession(false)
      .addCompiledArtifacts(SparkJar.getClass.getProtectionDomain.getCodeSource.getLocation.toURI)
      .getOrCreate()

    println(spark.version)
    println(spark.range(10).limit(3).collect().mkString(" "))
  }
}

Schritt 6: Ausführen und Erstellen des Codes

Führen Sie als Nächstes Ihren Code aus:

sbt run

Erstellen Sie nun eine project/assembly.sbt Datei mit der folgenden Zeile, und erstellen Sie dann das Projekt:

addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "2.3.1")

sbt assembly

Schritt 7: Bereitstellen Ihres JAR

Stellen Sie nun Ihre JAR-Datei mithilfe einer JAR-Aufgabe über die Benutzeroberfläche oder mithilfe von Databricks-Objektbündeln bereit:

Hinweis

Das von Ihnen erstellte JAR wird auch auf der Standardberechnung unterstützt. Für die Standardberechnung muss ein Administrator jedoch Maven-Koordinaten und Pfade für JAR-Bibliotheken zu einer Zulassungsliste hinzufügen. Weitere Informationen finden Sie unter Setzen von Bibliotheken und Inititalisierungsskripts auf Computeressourcen im Standardzugriffsmodus (ehemals freigegebener Zugriffsmodus) auf die Positivliste.

Databricks empfiehlt das Hinzufügen eines ganzen Volumes anstelle einzelner JARs zur Zulassungsliste.

Feedback

War diese Seite hilfreich?

Last updated on 2025-11-13