Compartilhar via


AdlaStep Classe

Cria uma etapa do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.

Para obter um exemplo de como usar este AdlaStep, consulte o bloco de anotações https://aka.ms/pl-adla.

Crie uma etapa do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.

Construtor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parâmetros

Nome Description
script_name
Obrigatório
str

[Obrigatório] O nome de um script U-SQL em relação a source_directory.

name
str

O nome da etapa. Se não for especificado, script_name será usado.

Valor padrão: None
inputs

Uma lista de associações de porta de entrada.

Valor padrão: None
outputs

Uma lista de associações de porta de saída.

Valor padrão: None
params

Um dicionário de pares nome-valor.

Valor padrão: None
degree_of_parallelism
int

O grau de paralelismo a ser usado para este trabalho. Isso deve ser maior que 0. Se definido como menor que 0, o padrão será 1.

Valor padrão: None
priority
int

O valor da prioridade a ser usado para o trabalho atual. Números mais baixos têm uma prioridade maior. Por padrão, um trabalho tem uma prioridade de 1000. O valor especificado deve ser maior que 0.

Valor padrão: None
runtime_version
str

A versão de tempo de execução do mecanismo de Data Lake Analytics.

Valor padrão: None
compute_target

[Obrigatório] A computação do ADLA a ser usada para este trabalho.

Valor padrão: None
source_directory
str

Uma pasta que contém o script, assemblies etc.

Valor padrão: None
allow_reuse

Indica se a etapa deve reutilizar os resultados anteriores ao executar novamente com as mesmas configurações. A reutilização é habilitada por padrão. Se o conteúdo da etapa (scripts/dependências), bem como entradas e parâmetros permanecerem inalterados, a saída da execução anterior desta etapa será reutilizado. Ao reutilizar a etapa, em vez de enviar o trabalho para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer etapas subsequentes. Se você usar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada, não se os dados subjacentes foram alterados.

Valor padrão: True
version
str

Marca de versão opcional para indicar uma alteração na funcionalidade da etapa.

Valor padrão: None
hash_paths

PRETERIDO: não é mais necessário.

Uma lista de caminhos para o hash ao verificar se há alterações no conteúdo da etapa. Se não houver alterações detectadas, o pipeline reutilizará o conteúdo da etapa de uma execução anterior. Por padrão, o conteúdo é source_directory hash, exceto para arquivos listados em .amlignore ou .gitignore.

Valor padrão: None
script_name
Obrigatório
str

[Obrigatório] O nome de um script U-SQL em relação a source_directory.

name
Obrigatório
str

O nome da etapa. Se não for especificado, script_name será usado.

inputs
Obrigatório

Lista de associações de porta de entrada

outputs
Obrigatório
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]

Uma lista de associações de porta de saída.

params
Obrigatório

Um dicionário de pares nome-valor.

degree_of_parallelism
Obrigatório
int

O grau de paralelismo a ser usado para este trabalho. Isso deve ser maior que 0. Se definido como menor que 0, o padrão será 1.

priority
Obrigatório
int

O valor da prioridade a ser usado para o trabalho atual. Números mais baixos têm uma prioridade maior. Por padrão, um trabalho tem uma prioridade de 1000. O valor especificado deve ser maior que 0.

runtime_version
Obrigatório
str

A versão de tempo de execução do mecanismo de Data Lake Analytics.

compute_target
Obrigatório

[Obrigatório] A computação do ADLA a ser usada para este trabalho.

source_directory
Obrigatório
str

Uma pasta que contém o script, assemblies etc.

allow_reuse
Obrigatório

Indica se a etapa deve reutilizar os resultados anteriores ao executar novamente com as mesmas configurações. A reutilização é habilitada por padrão. Se o conteúdo da etapa (scripts/dependências), bem como entradas e parâmetros permanecerem inalterados, a saída da execução anterior desta etapa será reutilizado. Ao reutilizar a etapa, em vez de enviar o trabalho para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer etapas subsequentes. Se você usar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada, não se os dados subjacentes foram alterados.

version
Obrigatório
str

Uma marca de versão opcional para indicar uma alteração na funcionalidade da etapa.

hash_paths
Obrigatório

PRETERIDO: não é mais necessário.

Uma lista de caminhos para o hash ao verificar se há alterações no conteúdo da etapa. Se não houver alterações detectadas, o pipeline reutilizará o conteúdo da etapa de uma execução anterior. Por padrão, o conteúdo é source_directory hash, exceto para arquivos listados em .amlignore ou .gitignore.

Comentários

Você pode usar @@name@@ sintaxe em seu script para se referir a entradas, saídas e parâmetros.

  • se o nome for o nome de uma associação de porta de entrada ou saída, todas as ocorrências de @@name@@ no script serão substituídas pelo caminho de dados real de uma associação de porta correspondente.

  • se o nome corresponder a qualquer chave no ditado params , todas as ocorrências de @@name@@ serão substituídas pelo valor correspondente no ditado.

O AdlaStep funciona apenas com dados armazenados no Data Lake Storage padrão da conta do Data Lake Analytics. Se os dados estiverem em um armazenamento não padrão, use um DataTransferStep para copiar os dados para o armazenamento padrão. Você pode encontrar o armazenamento padrão abrindo sua conta do Data Lake Analytics no portal do Azure e navegando até o item 'Fontes de dados' em Configurações no painel esquerdo.

O exemplo a seguir mostra como usar o AdlaStep em um Pipeline do Azure Machine Learning.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

O exemplo completo está disponível em https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Métodos

create_node

Crie um nó a partir da etapa AdlaStep e adicione-o ao grafo especificado.

Esse método não se destina a ser usado diretamente. Quando um pipeline é instanciado com essa etapa, o Azure ML passa automaticamente os parâmetros necessários por meio desse método para que essa etapa possa ser adicionada a um grafo de pipeline que representa o fluxo de trabalho.

create_node

Crie um nó a partir da etapa AdlaStep e adicione-o ao grafo especificado.

Esse método não se destina a ser usado diretamente. Quando um pipeline é instanciado com essa etapa, o Azure ML passa automaticamente os parâmetros necessários por meio desse método para que essa etapa possa ser adicionada a um grafo de pipeline que representa o fluxo de trabalho.

create_node(graph, default_datastore, context)

Parâmetros

Nome Description
graph
Obrigatório

O objeto graph.

default_datastore
Obrigatório

O armazenamento de dados padrão.

context
Obrigatório
<xref:azureml.pipeline.core._GraphContext>

O contexto do grafo.

Retornos

Tipo Description

O objeto do nó.