Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Se aplica a: SQL Server 2019 (15.x)
Important
Los clústeres de macrodatos de Microsoft SQL Server 2019 se retiran. La compatibilidad con clústeres de macrodatos de SQL Server 2019 finalizó a partir del 28 de febrero de 2025. Para obtener más información, consulte la entrada de blog del anuncio y las opciones de macrodatos en la plataforma de Microsoft SQL Server.
En este artículo se proporcionan instrucciones sobre cómo importar e instalar paquetes para una sesión de Spark mediante configuraciones de sesión y cuadernos.
Built-in tools
Paquetes base de Scala Spark (Scala 2.12) y Hadoop.
PySpark (Python 3.8). Pandas, Sklearn, Numpy y otros paquetes de procesamiento de datos y aprendizaje automático.
Paquetes MRO 3.5.2. Sparklyr y SparkR para cargas de trabajo de R Spark.
Instalación de paquetes desde un repositorio de Maven en el clúster de Spark en tiempo de ejecución
Los paquetes de Maven se pueden instalar en el clúster de Spark mediante la configuración de celda del cuaderno al principio de la sesión de Spark. Antes de iniciar una sesión de Spark en Azure Data Studio, ejecute el código siguiente:
%%configure -f \
{"conf": {"spark.jars.packages": "com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1"}}
Varios paquetes y configuraciones adicionales de Spark
En la siguiente celda del cuaderno de ejemplo, se definen varios paquetes.
%%configure -f \
{
"conf": {
"spark.jars.packages": "com.microsoft.azure:synapseml_2.12:0.9.4,com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1",
"spark.jars.repositories":"https://mmlspark.azureedge.net/maven"
}
}
Instalación de paquetes de Python en PySpark en tiempo de ejecución
La administración de paquetes de nivel de trabajo y sesión garantiza la coherencia y el aislamiento de la biblioteca. La configuración es una configuración de biblioteca estándar de Spark que se puede aplicar en sesiones de Livy. azdata spark admite estas configuraciones. Los ejemplos siguientes se presentan como cuadernos de Azure Data Studio Notebooks para configurar las celdas que deben ejecutarse después de asociarse a un clúster con el kernel de PySpark.
Si no se establece la configuración "spark.pyspark.virtualenv.enabled" : "true", la sesión usará el python predeterminado del clúster y las bibliotecas instaladas.
Configuración de sesión o trabajo con requirements.txt
Especifique la ruta de acceso a un archivo requirements.txt en HDFS que se usará como referencia para que los paquetes se instalen.
%%configure -f \
{
"conf": {
"spark.pyspark.virtualenv.enabled" : "true",
"spark.pyspark.virtualenv.python_version": "3.8",
"spark.pyspark.virtualenv.requirements" : "hdfs://user/project-A/requirements.txt"
}
}
Configuración de sesión o trabajo con diferentes versiones de Python
Cree un archivo virtualenv de Conda sin un archivo de requisitos y agregue paquetes dinámicamente durante la sesión de Spark.
%%configure -f \
{
"conf": {
"spark.pyspark.virtualenv.enabled" : "true",
"spark.pyspark.virtualenv.python_version": "3.7"
}
}
Library installation
Ejecute el sc.install_packages para instalar bibliotecas dinámicamente en la sesión. Las bibliotecas se instalarán en el controlador y en todos los nodos del ejecutor.
sc.install_packages("numpy==1.11.0")
import numpy as np
También es posible instalar varias bibliotecas en el mismo comando mediante una matriz.
sc.install_packages(["numpy==1.11.0", "xgboost"])
import numpy as np
import xgboost as xgb
Importación de .jar desde HDFS para su uso en tiempo de ejecución
Importe jar en tiempo de ejecución a través de la configuración de celdas del cuaderno de Azure Data Studio.
%%configure -f
{"conf": {"spark.jars": "/jar/mycodeJar.jar"}}
Next steps
Para obtener más información sobre el clúster de macrodatos de SQL Server y los escenarios relacionados, consulte Clústeres de macrodatos de SQL Server.