Gerenciamento de biblioteca do Spark

Aplica-se a:SQL Server 2019 (15.x)

Important

Os Clusters de Big Data do Microsoft SQL Server 2019 foram desativados. O suporte para clusters de Big Data do SQL Server 2019 terminou em 28 de fevereiro de 2025. Para obter mais informações, consulte a postagem no blog de anúncios e as opções de Big Data na plataforma microsoft SQL Server.

Este artigo fornece diretrizes sobre como importar e instalar pacotes para uma sessão do Spark por meio de configurações de sessão e notebook.

Built-in tools

Pacotes base Scala Spark (Scala 2.12) e Hadoop.

PySpark (Python 3.8). Pandas, Sklearn, Numpy e outros pacotes de processamento de dados e machine learning.

Pacotes MRO 3.5.2. Cargas de trabalho sparklyr e SparkR para R Spark.

Instalar pacotes de um repositório Maven no cluster Spark em runtime

Os pacotes do Maven podem ser instalados no cluster Spark usando a configuração da célula do notebook no início da sessão do Spark. Antes de iniciar uma sessão do Spark no Azure Data Studio, execute o seguinte código:

%%configure -f \
{"conf": {"spark.jars.packages": "com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1"}}

Vários pacotes e configurações adicionais do Spark

Na célula de notebook de exemplo a seguir, vários pacotes são definidos.

%%configure -f \
{
    "conf": {
        "spark.jars.packages": "com.microsoft.azure:synapseml_2.12:0.9.4,com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1",
        "spark.jars.repositories":"https://mmlspark.azureedge.net/maven"
    }
}

Instalar pacotes do Python no PySpark em runtime

O gerenciamento de pacotes de nível de sessão e trabalho garante a consistência e o isolamento da biblioteca. A configuração é uma configuração de biblioteca padrão do Spark que pode ser aplicada em sessões do Livy. o azdata Spark dá suporte a essas configurações. Os exemplos a seguir são apresentados como notebooks do Azure Data Studio configuram células que precisam ser executadas após a anexação a um cluster com o kernel PySpark.

Se a configuração "spark.pyspark.virtualenv.enabled" : "true" não estiver definida, a sessão usará o python padrão do cluster e as bibliotecas instaladas.

Configuração de sessão/trabalho com requirements.txt

Especifique o caminho para um arquivo requirements.txt no HDFS a ser usado como referência para a instalação de pacotes.

%%configure -f \
{
    "conf": {
        "spark.pyspark.virtualenv.enabled" : "true",
        "spark.pyspark.virtualenv.python_version": "3.8",
        "spark.pyspark.virtualenv.requirements" : "hdfs://user/project-A/requirements.txt"
    }
}

Configuração de sessão/trabalho com diferentes versões do Python

Crie um virtualenv conda sem um arquivo de requisitos e adicione pacotes dinamicamente durante a sessão do Spark.

%%configure -f \
{
    "conf": {
        "spark.pyspark.virtualenv.enabled" : "true",
        "spark.pyspark.virtualenv.python_version": "3.7"
    }
}

Library installation

Execute o sc.install_packages para instalar bibliotecas dinamicamente em sua sessão. As bibliotecas serão instaladas no driver e em todos os nós do executor.

sc.install_packages("numpy==1.11.0")
import numpy as np

Também é possível instalar várias bibliotecas no mesmo comando usando uma matriz.

sc.install_packages(["numpy==1.11.0", "xgboost"])
import numpy as np
import xgboost as xgb

Importar .jar do HDFS para uso em runtime

Importe jar em runtime por meio da configuração da célula do notebook do Azure Data Studio.

%%configure -f
{"conf": {"spark.jars": "/jar/mycodeJar.jar"}}

Next steps

Para obter mais informações sobre o cluster de Big Data do SQL Server e cenários relacionados, consulte clusters de Big Data do SQL Server.

Last updated on 2021-12-01

Partilhar via