AdlaStep Classe

Crée une étape de pipeline Azure ML pour exécuter un script U-SQL avec Azure Data Lake Analytics.

Pour obtenir un exemple d’utilisation de cet AdlaStep, consultez le notebook https://aka.ms/pl-adla.

Créez une étape de pipeline Azure ML pour exécuter un script U-SQL avec Azure Data Lake Analytics.

Constructeur

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Paramètres

Nom	Description
script_name Obligatoire	str [Obligatoire] Nom d’un script U-SQL, relatif à `source_directory`.
name	str Nom de l’étape. S’il n’est pas spécifié, `script_name` est utilisé. Valeur par défaut: None
inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Liste des liaisons de port d’entrée. Valeur par défaut: None
outputs	list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]] Liste des liaisons de port de sortie. Valeur par défaut: None
params	dict Dictionnaire de paires nom-valeur. Valeur par défaut: None
degree_of_parallelism	int Degré de parallélisme à utiliser pour ce travail. Cela doit être supérieur à 0. Si la valeur est inférieure à 0, la valeur par défaut est 1. Valeur par défaut: None
priority	int Valeur de priorité à utiliser pour le travail en cours. Les nombres inférieurs ont une priorité plus élevée. Par défaut, un travail a une priorité de 1 000. La valeur que vous spécifiez doit être supérieure à 0. Valeur par défaut: None
runtime_version	str Version du runtime du moteur Data Lake Analytics. Valeur par défaut: None
compute_target	AdlaCompute, str [Obligatoire] Calcul ADLA à utiliser pour ce travail. Valeur par défaut: None
source_directory	str Dossier qui contient le script, les assemblys, etc. Valeur par défaut: None
allow_reuse	bool Indique si l’étape doit réutiliser les résultats précédents lors de la réexécutation avec les mêmes paramètres. La réutilisation est activée par défaut. Si le contenu de l’étape (scripts/dépendances) ainsi que les entrées et les paramètres restent inchangés, la sortie de l’exécution précédente de cette étape est réutilisée. Lors de la réutilisation de l’étape, au lieu de soumettre le travail au calcul, les résultats de l’exécution précédente sont immédiatement mis à la disposition des étapes suivantes. Si vous utilisez des jeux de données Azure Machine Learning comme entrées, la réutilisation est déterminée par la modification de la définition du jeu de données, et non par la modification des données sous-jacentes. Valeur par défaut: True
version	str Balise de version facultative pour indiquer une modification des fonctionnalités de l’étape. Valeur par défaut: None
hash_paths	list DÉCONSEILLÉ : n’est plus nécessaire. Liste des chemins d’accès au hachage lors de la vérification des modifications apportées au contenu de l’étape. S’il n’y a aucune modification détectée, le pipeline réutilise le contenu de l’étape à partir d’une exécution précédente. Par défaut, le contenu de `source_directory` l’objet est haché à l’exception des fichiers répertoriés dans .amlignore ou .gitignore. Valeur par défaut: None
script_name Obligatoire	str [Obligatoire] Nom d’un script U-SQL, relatif à `source_directory`.
name Obligatoire	str Nom de l’étape. S’il n’est pas spécifié, `script_name` est utilisé.
inputs Obligatoire	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Liste des liaisons de port d’entrée
outputs Obligatoire	list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]] Liste des liaisons de port de sortie.
params Obligatoire	dict Dictionnaire de paires nom-valeur.
degree_of_parallelism Obligatoire	int Degré de parallélisme à utiliser pour ce travail. Cela doit être supérieur à 0. Si la valeur est inférieure à 0, la valeur par défaut est 1.
priority Obligatoire	int Valeur de priorité à utiliser pour le travail en cours. Les nombres inférieurs ont une priorité plus élevée. Par défaut, un travail a une priorité de 1 000. La valeur que vous spécifiez doit être supérieure à 0.
runtime_version Obligatoire	str Version du runtime du moteur Data Lake Analytics.
compute_target Obligatoire	AdlaCompute, str [Obligatoire] Calcul ADLA à utiliser pour ce travail.
source_directory Obligatoire	str Dossier qui contient le script, les assemblys, etc.
allow_reuse Obligatoire	bool Indique si l’étape doit réutiliser les résultats précédents lors de la réexécutation avec les mêmes paramètres. La réutilisation est activée par défaut. Si le contenu de l’étape (scripts/dépendances) ainsi que les entrées et les paramètres restent inchangés, la sortie de l’exécution précédente de cette étape est réutilisée. Lors de la réutilisation de l’étape, au lieu de soumettre le travail au calcul, les résultats de l’exécution précédente sont immédiatement mis à la disposition des étapes suivantes. Si vous utilisez des jeux de données Azure Machine Learning comme entrées, la réutilisation est déterminée par la modification de la définition du jeu de données, et non par la modification des données sous-jacentes.
version Obligatoire	str Balise de version facultative pour indiquer une modification des fonctionnalités de l’étape.
hash_paths Obligatoire	list DÉCONSEILLÉ : n’est plus nécessaire. Liste des chemins d’accès au hachage lors de la vérification des modifications apportées au contenu de l’étape. S’il n’y a aucune modification détectée, le pipeline réutilise le contenu de l’étape à partir d’une exécution précédente. Par défaut, le contenu de `source_directory` l’objet est haché à l’exception des fichiers répertoriés dans .amlignore ou .gitignore.

Remarques

Vous pouvez utiliser @@name@@ syntaxe dans votre script pour faire référence aux entrées, sorties et paramètres.

si le nom est le nom d’une liaison de port d’entrée ou de sortie, toutes les occurrences de @@name@@ dans le script sont remplacées par le chemin de données réel d’une liaison de port correspondante.
si le nom correspond à une clé dans la dictée params , toutes les occurrences de @@name@@ seront remplacées par la valeur correspondante dans dict.

AdlaStep fonctionne uniquement avec les données stockées dans data Lake Storage par défaut du compte Data Lake Analytics. Si les données se situent dans un stockage non par défaut, utilisez une DataTransferStep option pour copier les données dans le stockage par défaut. Vous pouvez trouver le stockage par défaut en ouvrant votre compte Data Lake Analytics dans le portail Azure, puis en accédant à l’élément « Sources de données » sous Paramètres dans le volet gauche.

L’exemple suivant montre comment utiliser AdlaStep dans un pipeline Azure Machine Learning.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

L’exemple complet est disponible à partir de https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Méthodes

create_node

Créez un nœud à partir de l’étape AdlaStep et ajoutez-le au graphe spécifié.

Cette méthode n’est pas destinée à être utilisée directement. Lorsqu’un pipeline est instancié avec cette étape, Azure ML transmet automatiquement les paramètres requis par cette méthode afin que cette étape puisse être ajoutée à un graphique de pipeline qui représente le flux de travail.

create_node

Créez un nœud à partir de l’étape AdlaStep et ajoutez-le au graphe spécifié.

create_node(graph, default_datastore, context)

Paramètres

Nom	Description
graph Obligatoire	Graph Objet graph.
default_datastore Obligatoire	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] Magasin de données par défaut.
context Obligatoire	<xref:azureml.pipeline.core._GraphContext> Contexte de graphe.

Retours

Type	Description
Node	Objet node.

Commentaires

Cette page a-t-elle été utile ?

Partager via

AdlaStep Classe

Constructeur

Paramètres

Remarques

Méthodes

create_node

Paramètres

Retours

Commentaires