AdlaStep Classe

Cria uma etapa do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.

Para obter um exemplo de como usar este AdlaStep, consulte o bloco de anotações https://aka.ms/pl-adla.

Crie uma etapa do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.

Construtor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parâmetros

Nome	Description
script_name Obrigatório	str [Obrigatório] O nome de um script U-SQL em relação a `source_directory`.
name	str O nome da etapa. Se não for especificado, `script_name` será usado. Valor padrão: None
inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Uma lista de associações de porta de entrada. Valor padrão: None
outputs	list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]] Uma lista de associações de porta de saída. Valor padrão: None
params	dict Um dicionário de pares nome-valor. Valor padrão: None
degree_of_parallelism	int O grau de paralelismo a ser usado para este trabalho. Isso deve ser maior que 0. Se definido como menor que 0, o padrão será 1. Valor padrão: None
priority	int O valor da prioridade a ser usado para o trabalho atual. Números mais baixos têm uma prioridade maior. Por padrão, um trabalho tem uma prioridade de 1000. O valor especificado deve ser maior que 0. Valor padrão: None
runtime_version	str A versão de tempo de execução do mecanismo de Data Lake Analytics. Valor padrão: None
compute_target	AdlaCompute, str [Obrigatório] A computação do ADLA a ser usada para este trabalho. Valor padrão: None
source_directory	str Uma pasta que contém o script, assemblies etc. Valor padrão: None
allow_reuse	bool Indica se a etapa deve reutilizar os resultados anteriores ao executar novamente com as mesmas configurações. A reutilização é habilitada por padrão. Se o conteúdo da etapa (scripts/dependências), bem como entradas e parâmetros permanecerem inalterados, a saída da execução anterior desta etapa será reutilizado. Ao reutilizar a etapa, em vez de enviar o trabalho para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer etapas subsequentes. Se você usar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada, não se os dados subjacentes foram alterados. Valor padrão: True
version	str Marca de versão opcional para indicar uma alteração na funcionalidade da etapa. Valor padrão: None
hash_paths	list PRETERIDO: não é mais necessário. Uma lista de caminhos para o hash ao verificar se há alterações no conteúdo da etapa. Se não houver alterações detectadas, o pipeline reutilizará o conteúdo da etapa de uma execução anterior. Por padrão, o conteúdo é `source_directory` hash, exceto para arquivos listados em .amlignore ou .gitignore. Valor padrão: None
script_name Obrigatório	str [Obrigatório] O nome de um script U-SQL em relação a `source_directory`.
name Obrigatório	str O nome da etapa. Se não for especificado, `script_name` será usado.
inputs Obrigatório	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Lista de associações de porta de entrada
outputs Obrigatório	list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]] Uma lista de associações de porta de saída.
params Obrigatório	dict Um dicionário de pares nome-valor.
degree_of_parallelism Obrigatório	int O grau de paralelismo a ser usado para este trabalho. Isso deve ser maior que 0. Se definido como menor que 0, o padrão será 1.
priority Obrigatório	int O valor da prioridade a ser usado para o trabalho atual. Números mais baixos têm uma prioridade maior. Por padrão, um trabalho tem uma prioridade de 1000. O valor especificado deve ser maior que 0.
runtime_version Obrigatório	str A versão de tempo de execução do mecanismo de Data Lake Analytics.
compute_target Obrigatório	AdlaCompute, str [Obrigatório] A computação do ADLA a ser usada para este trabalho.
source_directory Obrigatório	str Uma pasta que contém o script, assemblies etc.
allow_reuse Obrigatório	bool Indica se a etapa deve reutilizar os resultados anteriores ao executar novamente com as mesmas configurações. A reutilização é habilitada por padrão. Se o conteúdo da etapa (scripts/dependências), bem como entradas e parâmetros permanecerem inalterados, a saída da execução anterior desta etapa será reutilizado. Ao reutilizar a etapa, em vez de enviar o trabalho para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer etapas subsequentes. Se você usar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada, não se os dados subjacentes foram alterados.
version Obrigatório	str Uma marca de versão opcional para indicar uma alteração na funcionalidade da etapa.
hash_paths Obrigatório	list PRETERIDO: não é mais necessário. Uma lista de caminhos para o hash ao verificar se há alterações no conteúdo da etapa. Se não houver alterações detectadas, o pipeline reutilizará o conteúdo da etapa de uma execução anterior. Por padrão, o conteúdo é `source_directory` hash, exceto para arquivos listados em .amlignore ou .gitignore.

Comentários

Você pode usar @@name@@ sintaxe em seu script para se referir a entradas, saídas e parâmetros.

se o nome for o nome de uma associação de porta de entrada ou saída, todas as ocorrências de @@name@@ no script serão substituídas pelo caminho de dados real de uma associação de porta correspondente.
se o nome corresponder a qualquer chave no ditado params , todas as ocorrências de @@name@@ serão substituídas pelo valor correspondente no ditado.

O AdlaStep funciona apenas com dados armazenados no Data Lake Storage padrão da conta do Data Lake Analytics. Se os dados estiverem em um armazenamento não padrão, use um DataTransferStep para copiar os dados para o armazenamento padrão. Você pode encontrar o armazenamento padrão abrindo sua conta do Data Lake Analytics no portal do Azure e navegando até o item 'Fontes de dados' em Configurações no painel esquerdo.

O exemplo a seguir mostra como usar o AdlaStep em um Pipeline do Azure Machine Learning.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

O exemplo completo está disponível em https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Métodos

create_node

Crie um nó a partir da etapa AdlaStep e adicione-o ao grafo especificado.

Esse método não se destina a ser usado diretamente. Quando um pipeline é instanciado com essa etapa, o Azure ML passa automaticamente os parâmetros necessários por meio desse método para que essa etapa possa ser adicionada a um grafo de pipeline que representa o fluxo de trabalho.

create_node

Crie um nó a partir da etapa AdlaStep e adicione-o ao grafo especificado.

create_node(graph, default_datastore, context)

Parâmetros

Nome	Description
graph Obrigatório	Graph O objeto graph.
default_datastore Obrigatório	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] O armazenamento de dados padrão.
context Obrigatório	<xref:azureml.pipeline.core._GraphContext> O contexto do grafo.

Retornos

Tipo	Description
Node	O objeto do nó.

Comentários

Esta página foi útil?

Compartilhar via

AdlaStep Classe

Construtor

Parâmetros

Comentários

Métodos

create_node

Parâmetros

Retornos

Comentários