Administración de bibliotecas de Spark

Se aplica a: SQL Server 2019 (15.x)

Important

Los clústeres de macrodatos de Microsoft SQL Server 2019 se retiran. La compatibilidad con clústeres de macrodatos de SQL Server 2019 finalizó a partir del 28 de febrero de 2025. Para obtener más información, consulte la entrada de blog del anuncio y las opciones de macrodatos en la plataforma de Microsoft SQL Server.

En este artículo se proporcionan instrucciones sobre cómo importar e instalar paquetes para una sesión de Spark mediante configuraciones de sesión y cuadernos.

Built-in tools

Paquetes base de Scala Spark (Scala 2.12) y Hadoop.

PySpark (Python 3.8). Pandas, Sklearn, Numpy y otros paquetes de procesamiento de datos y aprendizaje automático.

Paquetes MRO 3.5.2. Sparklyr y SparkR para cargas de trabajo de R Spark.

Instalación de paquetes desde un repositorio de Maven en el clúster de Spark en tiempo de ejecución

Los paquetes de Maven se pueden instalar en el clúster de Spark mediante la configuración de celda del cuaderno al principio de la sesión de Spark. Antes de iniciar una sesión de Spark en Azure Data Studio, ejecute el código siguiente:

%%configure -f \
{"conf": {"spark.jars.packages": "com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1"}}

Varios paquetes y configuraciones adicionales de Spark

En la siguiente celda del cuaderno de ejemplo, se definen varios paquetes.

%%configure -f \
{
    "conf": {
        "spark.jars.packages": "com.microsoft.azure:synapseml_2.12:0.9.4,com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1",
        "spark.jars.repositories":"https://mmlspark.azureedge.net/maven"
    }
}

Instalación de paquetes de Python en PySpark en tiempo de ejecución

La administración de paquetes de nivel de trabajo y sesión garantiza la coherencia y el aislamiento de la biblioteca. La configuración es una configuración de biblioteca estándar de Spark que se puede aplicar en sesiones de Livy. azdata spark admite estas configuraciones. Los ejemplos siguientes se presentan como cuadernos de Azure Data Studio Notebooks para configurar las celdas que deben ejecutarse después de asociarse a un clúster con el kernel de PySpark.

Si no se establece la configuración "spark.pyspark.virtualenv.enabled" : "true", la sesión usará el python predeterminado del clúster y las bibliotecas instaladas.

Configuración de sesión o trabajo con requirements.txt

Especifique la ruta de acceso a un archivo requirements.txt en HDFS que se usará como referencia para que los paquetes se instalen.

%%configure -f \
{
    "conf": {
        "spark.pyspark.virtualenv.enabled" : "true",
        "spark.pyspark.virtualenv.python_version": "3.8",
        "spark.pyspark.virtualenv.requirements" : "hdfs://user/project-A/requirements.txt"
    }
}

Configuración de sesión o trabajo con diferentes versiones de Python

Cree un archivo virtualenv de Conda sin un archivo de requisitos y agregue paquetes dinámicamente durante la sesión de Spark.

%%configure -f \
{
    "conf": {
        "spark.pyspark.virtualenv.enabled" : "true",
        "spark.pyspark.virtualenv.python_version": "3.7"
    }
}

Library installation

Ejecute el sc.install_packages para instalar bibliotecas dinámicamente en la sesión. Las bibliotecas se instalarán en el controlador y en todos los nodos del ejecutor.

sc.install_packages("numpy==1.11.0")
import numpy as np

También es posible instalar varias bibliotecas en el mismo comando mediante una matriz.

sc.install_packages(["numpy==1.11.0", "xgboost"])
import numpy as np
import xgboost as xgb

Importación de .jar desde HDFS para su uso en tiempo de ejecución

Importe jar en tiempo de ejecución a través de la configuración de celdas del cuaderno de Azure Data Studio.

%%configure -f
{"conf": {"spark.jars": "/jar/mycodeJar.jar"}}

Next steps

Para obtener más información sobre el clúster de macrodatos de SQL Server y los escenarios relacionados, consulte Clústeres de macrodatos de SQL Server.

Last updated on 2021-12-01

Compartir a través de