Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Importante
O Databricks Connect para Scala na computação sem servidor está em Beta.
Este tutorial fornece uma visão geral de como começar a usar o Databricks Connect para Scala usando computação sem servidor. Ele detalha a construção de um arquivo JAR Scala compatível com uma computação habilitada para o Catálogo do Unity, seja uma computação clássica no modo de acesso padrão ou uma computação sem servidor.
Dica
Para criar um projeto Scala totalmente configurado para implantar e executar um JAR na computação sem servidor, você pode usar Pacotes de Ativos do Databricks. Consulte Criar um Scala JAR usando Pacotes de Ativos do Databricks.
Requirements
Seu ambiente de desenvolvimento local deve atender aos requisitos do Databricks Connect para Scala. Consulte os requisitos de uso do Databricks Connect, que incluem o seguinte:
JDK (Java Development Kit)
sbt
CLI do Databricks, configurada para computação sem servidor:
databricks auth login --configure-serverless --host <workspace-url>
Etapa 1: Criar um projeto scala
Primeiro, crie um projeto Scala. Quando solicitado, insira um nome de projeto, por exemplo, my-spark-app.
sbt new scala/scala-seed.g8
Etapa 2: Atualizar as versões do Scala e do JDK
Antes de criar seu JAR, verifique se a versão do JDK (Java Development Kit) e do Scala que você usa para compilar seu código tem suporte para computação sem servidor. Para obter detalhes sobre esse requisito, consulte Definir versões do JDK e scala.
Para versões compatíveis, consulte a matriz de suporte de versão.
A configuração a seguir é para o Scala 2.13 e o JDK 17, que é compatível com a computação de acesso dedicado ou padrão com o Databricks Runtime versão 17 e o ambiente sem servidor versão 4.
scalaVersion := "2.13.16"
javacOptions ++= Seq("-source", "17", "-target", "17")
scalacOptions ++= Seq("-release", "17")
Etapa 3: Adicionar o Databricks Connect como uma dependência
Adicione o Databricks Connect como uma dependência para criar JARs Scala. Para obter mais informações, consulte as dependências do Spark.
No arquivo de build do build.sbt projeto Scala, adicione a referência a seguir ao Databricks Connect.
scalaVersion := "2.13.16"
libraryDependencies += "com.databricks" %% "databricks-connect" % "17.0.+"
// To run with new JVM options, a fork is required, otherwise it uses the same options as the sbt process.
fork := true
javaOptions += "--add-opens=java.base/java.nio=ALL-UNNAMED"
Etapa 4: Adicionar outras dependências
O Databricks recomenda empacotar seu aplicativo e todas as bibliotecas dependentes em um único arquivo JAR, também conhecido como JAR über ou fat. Como alternativa, você pode instalar bibliotecas dependentes como bibliotecas com escopo de computação ou em seu ambiente sem servidor. Para obter mais informações, consulte Dependências do aplicativo.
Importante
Remova qualquer dependência do Spark. As APIs do Spark são fornecidas pelo Databricks Connect. Para obter mais informações, consulte as dependências do Spark.
Etapa 5: Adicionar código do Spark
Crie sua classe principal em src/main/scala/example/DatabricksExample.scala. Para obter detalhes sobre como usar a sessão do Spark em seu código Scala, consulte Usar a sessão do Databricks Spark.
package com.examples
import com.databricks.connect.DatabricksSession
import org.apache.spark.sql.{SparkSession}
object SparkJar {
def main(args: Array[String]): Unit = {
val spark: SparkSession = DatabricksSession.builder()
.validateSession(false)
.addCompiledArtifacts(SparkJar.getClass.getProtectionDomain.getCodeSource.getLocation.toURI)
.getOrCreate()
println(spark.version)
println(spark.range(10).limit(3).collect().mkString(" "))
}
}
Etapa 6: Executar e compilar seu código
Em seguida, execute seu código:
sbt run
Agora, crie um project/assembly.sbt arquivo com a seguinte linha e, em seguida, compile o projeto:
addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "2.3.1")
sbt assembly
Etapa 7: Implantar seu JAR
Agora, implante o arquivo JAR usando uma tarefa JAR da interface do usuário ou usando pacotes de ativos do Databricks:
- Tarefa JAR para trabalhos
- Tarefa JAR.
Observação
O JAR criado também tem suporte na computação padrão. No entanto, para computação padrão, um administrador deve adicionar coordenadas maven e caminhos para bibliotecas JAR a uma lista de permissões. Veja Bibliotecas da lista de permitidos e scripts de inicialização na computação com modo de acesso padrão (antigo modo de acesso compartilhado).
O Databricks recomenda adicionar um volume inteiro em vez de JARs individuais à lista de permissões.