Envoyer des travaux Spark à l’aide d’outils en ligne de commande

S’applique à : SQL Server 2019 (15.x)

Cet article fournit des conseils sur l’utilisation d’outils en ligne de commande pour exécuter des travaux Spark sur des clusters Big Data SQL Server.

Important

Les clusters Big Data Microsoft SQL Server 2019 sont mis hors service. La prise en charge des clusters Big Data SQL Server 2019 a pris fin le 28 février 2025. Pour plus d’informations, consultez le billet de blog d’annonce et les options Big Data sur la plateforme Microsoft SQL Server.

Prerequisites

Outils Big Data SQL Server 2019 configurés et connectés au cluster :
- azdata
- Application curl permettant d’effectuer des appels d’API REST à Livy

Travaux Spark qui utilisent azdata ou Livy

Cet article fournit des exemples d’utilisation de modèles de ligne de commande pour envoyer des applications Spark à des clusters Big Data SQL Server.

Les commandes Azure Data CLI azdata bdc spark affichent toutes les fonctionnalités de SQL Server Big Data Clusters Spark sur la ligne de commande. Cet article se concentre sur la soumission de travaux. Mais azdata bdc spark prend également en charge les modes interactifs pour Python, Scala, SQL et R via la azdata bdc spark session commande.

Si vous avez besoin d’une intégration directe avec une API REST, utilisez des appels Livy standard pour envoyer des travaux. Cet article utilise l’outil curl en ligne de commande dans les exemples Livy pour exécuter l’appel d’API REST. Pour obtenir un exemple détaillé montrant comment interagir avec le point de terminaison Spark Livy à l’aide du code Python, consultez Utiliser Spark à partir du point de terminaison Livy sur GitHub.

ETL simple qui utilise Des clusters Big Data Spark

Cette application d’extraction, de transformation et de chargement (ETL) suit un modèle d’ingénierie des données commun. Il charge des données tabulaires à partir d’un chemin d’atterrissage hdFS (Apache Hadoop Distributed File System). Il utilise ensuite un format de tableau pour écrire dans un chemin de zone traité par HDFS.

Téléchargez le jeu de données de l’exemple d’application. Créez ensuite des applications PySpark à l’aide de PySpark, Spark Scala ou Spark SQL.

Dans les sections suivantes, vous trouverez des exemples d’exercices pour chaque solution. Sélectionnez l’onglet de votre plateforme. Vous allez exécuter l’application à l’aide azdata ou curl.

Cet exemple utilise l’application PySpark suivante. Il est enregistré sous la forme d’un fichier Python nommé parquet_etl_sample.py sur l’ordinateur local.

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

# Read clickstream_data from storage pool HDFS into a Spark data frame. Applies column renames.
df = spark.read.option("inferSchema", "true").csv('/securelake/landing/criteo/test.txt', sep='\t', 
    header=False).toDF("feat1","feat2","feat3","feat4","feat5","feat6","feat7","feat8",
    "feat9","feat10","feat11","feat12","feat13","catfeat1","catfeat2","catfeat3","catfeat4",
    "catfeat5","catfeat6","catfeat7","catfeat8","catfeat9","catfeat10","catfeat11","catfeat12",
    "catfeat13","catfeat14","catfeat15","catfeat16","catfeat17","catfeat18","catfeat19",
    "catfeat20","catfeat21","catfeat22","catfeat23","catfeat24","catfeat25","catfeat26")

# Print the data frame inferred schema
df.printSchema()

tot_rows = df.count()
print("Number of rows:", tot_rows)

# Drop the managed table
spark.sql("DROP TABLE dl_clickstream")

# Write data frame to HDFS managed table by using optimized Delta Lake table format
df.write.format("parquet").mode("overwrite").saveAsTable("dl_clickstream")

print("Sample ETL pipeline completed")

Copier l’application PySpark dans HDFS

Stockez l’application dans HDFS afin que le cluster puisse y accéder pour l’exécution. En guise de meilleure pratique, standardisez et régissez les emplacements d’application au sein du cluster pour simplifier l’administration.

Dans cet exemple d’utilisation, toutes les applications de pipeline ETL sont stockées sur le chemin hdfs :/apps/ETL-Pipelines . L’exemple d’application est stocké sur hdfs :/apps/ETL-Pipelines/parquet_etl_sample.py.

Exécutez la commande suivante pour charger parquet_etl_sample.py à partir de l’ordinateur de développement local ou de préproduction sur le cluster HDFS.

azdata bdc hdfs cp --from-path parquet_etl_sample.py  --to-path "hdfs:/apps/ETL-Pipelines/parquet_etl_sample.py"

Cet exemple utilise une application Spark écrite dans Scala Spark.

import org.apache.spark.sql.SparkSession

object ParquetETLSample {
    def main(args: Array[String]) {
        val spark = SparkSession.builder.getOrCreate()
        
        val df = spark.read.
            option("inferSchema", "true").
            option("header", "false").
            option("delimiter", "\t").
            csv("/securelake/landing/criteo/test.txt").
            toDF("feat1","feat2","feat3","feat4","feat5","feat6","feat7","feat8","feat9","feat10","feat11","feat12","feat13","catfeat1","catfeat2","catfeat3","catfeat4","catfeat5","catfeat6","catfeat7","catfeat8","catfeat9","catfeat10","catfeat11","catfeat12","catfeat13","catfeat14","catfeat15","catfeat16","catfeat17","catfeat18","catfeat19","catfeat20","catfeat21","catfeat22","catfeat23","catfeat24","catfeat25","catfeat26")
        
        val tot_rows = df.count()
        println(s"Number of rows: $tot_rows")

        spark.sql("DROP TABLE dl_clickstream")

        df.write.format("parquet").mode("overwrite").saveAsTable("dl_clickstream")

        println("Sample ETL pipeline completed")
        
        spark.stop()
    }
}

Regrouper et copier l’application Spark dans HDFS

La documentation Spark recommande de créer un fichier JAR d’assembly (ou bundle) qui contient votre application et toutes les dépendances. Cette étape est nécessaire pour envoyer le bundle d’applications au cluster pour l’exécution.

La configuration d’un environnement de développement Scala Spark complet dépasse la portée de cet article. Pour plus d’informations, consultez la documentation Spark pour la création d’applications autonomes.

Cet exemple suppose qu’un bundle JAR d’application nommé parquet-etl-sample.jar est compilé et disponible. Exécutez la commande suivante pour charger le bundle à partir de l’ordinateur de développement local ou de préproduction sur le cluster HDFS.

azdata bdc hdfs cp --from-path parquet-etl-sample.jar  --to-path "hdfs:/apps/ETL-Pipelines/parquet-etl-sample.jar"

Cet exemple utilise Spark SQL pour la logique d’ingestion. Il utilise des tables et des vues pour fournir une approche centrée sur SQL pour ETL.

DROP VIEW IF EXISTS etl_clickstream;

CREATE TEMPORARY VIEW etl_clickstream
USING CSV
OPTIONS (path "/securelake/landing/criteo/test.txt", header "false", delimiter "\t", mode "FAILFAST");

DROP TABLE IF EXISTS dl_clickstream;

CREATE TABLE dl_clickstream (
    feat1 integer,
    feat2 integer,
    feat3 integer,
    feat4 integer,
    feat5 integer,
    feat6 integer,
    feat7 integer,
    feat8 integer,
    feat9 integer,
    feat10 integer,
    feat11 integer,
    feat12 integer,
    feat13 integer,
    catfeat1 string,
    catfeat2 string,
    catfeat3 string,
    catfeat4 string,
    catfeat5 string,
    catfeat6 string,
    catfeat7 string,
    catfeat8 string,
    catfeat9 string,
    catfeat10 string,
    catfeat11 string,
    catfeat12 string,
    catfeat13 string,
    catfeat14 string,
    catfeat15 string,
    catfeat16 string,
    catfeat17 string,
    catfeat18 string,
    catfeat19 string,
    catfeat20 string,
    catfeat21 string,
    catfeat22 string,
    catfeat23 string,
    catfeat24 string,
    catfeat25 string,
    catfeat26 string
) 
USING PARQUET
AS SELECT * FROM etl_clickstream;

Copier l’application Spark SQL dans HDFS

Exécutez la commande suivante pour charger le fichier parquet-etl-sample.sql à partir de l’ordinateur de développement local ou de préproduction sur le cluster HDFS.

azdata bdc hdfs cp --from-path parquet-etl-sample.sql --to-path "hdfs:/apps/ETL-Pipelines/parquet-etl-sample.sql"

Exécuter l’application Spark

Utilisez la commande suivante pour envoyer l’application à SQL Server Big Data Clusters Spark pour l’exécution.

La azdata commande exécute l’application à l’aide de paramètres couramment spécifiés. Pour obtenir les options de paramètre complètes pour azdata bdc spark batch create, consultez azdata bdc spark.

Cette application nécessite le spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation paramètre de configuration. Par conséquent, la commande utilise l’option --config . Cette configuration montre comment transmettre des configurations à la session Spark.

Vous pouvez utiliser l’option --config pour spécifier plusieurs paramètres de configuration. Vous pouvez également les spécifier à l’intérieur de la session d’application en définissant la configuration dans l’objet SparkSession .

azdata bdc spark batch create -f hdfs:/apps/ETL-Pipelines/parquet_etl_sample.py \
--config '{"spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"}' \
-n MyETLPipelinePySpark --executor-count 2 --executor-cores 2 --executor-memory 1664m

Warning

Le paramètre « name » ou « n » pour le nom de lot doit être unique chaque fois qu’un nouveau lot est créé.

La curl commande exécute l’application à l’aide de Livy. Remplacez USER, PASSWORDet LIVY_ENDPOINT reflètez votre environnement.

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches \
-H 'Content-Type: application/json; charset=utf-8' \
--data-binary @- << EOF
{
    "file": "/apps/ETL-Pipelines/parquet_etl_sample.py",
    "name": "MyETLPipelinePySpark",
    "numExecutors": 2,
    "executorCores": 2,
    "executorMemory": "1664m",
    "conf": {
        "spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"
    }
}
EOF

Warning

Le paramètre « name » doit être unique chaque fois qu’un nouveau lot est créé.

L’application nécessite le spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation paramètre de configuration. Par conséquent, la commande utilise l’option --config . Cette configuration montre comment transmettre des configurations à la session Spark.

azdata bdc spark batch create -f hdfs:/apps/ETL-Pipelines/parquet-etl-sample.jar \
--class "ParquetETLSample" \
--config '{"spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"}' \
-n MyETLPipeline --executor-count 2 --executor-cores 2 --executor-memory 1664m

Warning

Le paramètre « name » ou « n » pour le nom de lot doit être unique chaque fois qu’un nouveau lot est créé.

La curl commande exécute l’application à l’aide de Livy. Remplacez USER, PASSWORDet LIVY_ENDPOINT reflètez votre environnement.

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches \
-H 'Content-Type: application/json; charset=utf-8' \
--data-binary @- << EOF
{
    "file": "/apps/ETL-Pipelines/parquet-etl-sample.jar",
    "class": "ParquetETLSample",
    "name": "MyETLPipeline",
    "numExecutors": 2,
    "executorCores": 2,
    "executorMemory": "1664m",
    "conf": {
        "spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"
    }
}
EOF

Warning

Le paramètre « name » pour le nom de lot doit être unique chaque fois qu’un nouveau lot est créé.

Comme l’exemple PySpark, cette application nécessite également le spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation paramètre de configuration. Par conséquent, la commande utilise l’option --config . Cette configuration montre comment transmettre des configurations à la session Spark.

azdata bdc spark batch create -f hdfs:/apps/ETL-Pipelines/parquet_etl_sample.sql \
--config '{"spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"}' \
-n MyETLPipelineSQL --executor-count 2 --executor-cores 2 --executor-memory 1664m

Warning

Le paramètre « name » ou « n » pour le nom de lot doit être unique chaque fois qu’un nouveau lot est créé.

La curl commande exécute l’application à l’aide de Livy. Remplacez USER, PASSWORDet LIVY_ENDPOINT reflètez votre environnement.

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches \
-H 'Content-Type: application/json; charset=utf-8' \
--data-binary @- << EOF
{
    "file": "/apps/ETL-Pipelines/parquet_etl_sample.sql",
    "name": "MyETLPipelineSQL",
    "numExecutors": 2,
    "executorCores": 2,
    "executorMemory": "1664m",
    "conf": {
        "spark.sql.legacy.allowCreatingManagedTableUsingNonemptyLocation":"true"
    }
}
EOF

Warning

Le paramètre « name » doit être unique chaque fois qu’un nouveau lot est créé.

Surveiller les travaux Spark

Les azdata bdc spark batch commandes fournissent des actions de gestion pour les travaux de traitement par lots Spark.

Pour répertorier tous les travaux en cours d’exécution, exécutez la commande suivante.

La commande azdata :
```
azdata bdc spark batch list -o table
```

Commande curl , à l’aide de Livy :

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches

Pour obtenir des informations sur un lot Spark avec l’ID donné, exécutez la commande suivante. Le batch id résultat est retourné par spark batch create.

La commande azdata :

azdata bdc spark batch info --batch-id 0

Commande curl , à l’aide de Livy :

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches/<BATCH_ID>

Pour obtenir des informations d’état pour un lot Spark avec l’ID donné, exécutez la commande suivante.

La commande azdata :

azdata bdc spark batch state --batch-id 0

Commande curl , à l’aide de Livy :

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches/<BATCH_ID>/state

Pour obtenir les journaux d’activité d’un lot Spark avec l’ID donné, exécutez la commande suivante.

La commande azdata :

azdata bdc spark batch log --batch-id 0

Commande curl , à l’aide de Livy :

curl -k -u <USER>:<PASSWORD> -X POST <LIVY_ENDPOINT>/batches/<BATCH_ID>/log

Next steps

Pour plus d’informations sur la résolution des problèmes de code Spark, consultez Résoudre les problèmes d’un notebook PySpark.

Un exemple de code Spark complet est disponible sur des exemples Spark de clusters Big Data SQL Server sur GitHub.

Pour plus d’informations sur Clusters Big Data SQL Server et les scénarios associés, consultez Clusters Big Data SQL Server.

Last updated on 2021-04-01

Partager via

Envoyer des travaux Spark à l’aide d’outils en ligne de commande

Prerequisites

Travaux Spark qui utilisent azdata ou Livy

ETL simple qui utilise Des clusters Big Data Spark

Copier l’application PySpark dans HDFS

Exécuter l’application Spark

Surveiller les travaux Spark

Next steps

Ressources supplémentaires