AdlaStep Classe
Cria uma etapa do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.
Para obter um exemplo de como usar este AdlaStep, consulte o bloco de anotações https://aka.ms/pl-adla.
Crie uma etapa do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.
Construtor
AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)
Parâmetros
| Nome | Description |
|---|---|
|
script_name
Obrigatório
|
[Obrigatório] O nome de um script U-SQL em relação a |
|
name
|
O nome da etapa. Se não for especificado, Valor padrão: None
|
|
inputs
|
Uma lista de associações de porta de entrada. Valor padrão: None
|
|
outputs
|
Uma lista de associações de porta de saída. Valor padrão: None
|
|
params
|
Um dicionário de pares nome-valor. Valor padrão: None
|
|
degree_of_parallelism
|
O grau de paralelismo a ser usado para este trabalho. Isso deve ser maior que 0. Se definido como menor que 0, o padrão será 1. Valor padrão: None
|
|
priority
|
O valor da prioridade a ser usado para o trabalho atual. Números mais baixos têm uma prioridade maior. Por padrão, um trabalho tem uma prioridade de 1000. O valor especificado deve ser maior que 0. Valor padrão: None
|
|
runtime_version
|
A versão de tempo de execução do mecanismo de Data Lake Analytics. Valor padrão: None
|
|
compute_target
|
[Obrigatório] A computação do ADLA a ser usada para este trabalho. Valor padrão: None
|
|
source_directory
|
Uma pasta que contém o script, assemblies etc. Valor padrão: None
|
|
allow_reuse
|
Indica se a etapa deve reutilizar os resultados anteriores ao executar novamente com as mesmas configurações. A reutilização é habilitada por padrão. Se o conteúdo da etapa (scripts/dependências), bem como entradas e parâmetros permanecerem inalterados, a saída da execução anterior desta etapa será reutilizado. Ao reutilizar a etapa, em vez de enviar o trabalho para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer etapas subsequentes. Se você usar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada, não se os dados subjacentes foram alterados. Valor padrão: True
|
|
version
|
Marca de versão opcional para indicar uma alteração na funcionalidade da etapa. Valor padrão: None
|
|
hash_paths
|
PRETERIDO: não é mais necessário. Uma lista de caminhos para o hash ao verificar se há alterações no conteúdo da etapa. Se não houver alterações detectadas, o pipeline reutilizará o conteúdo da etapa de uma execução anterior. Por padrão, o conteúdo é Valor padrão: None
|
|
script_name
Obrigatório
|
[Obrigatório] O nome de um script U-SQL em relação a |
|
name
Obrigatório
|
O nome da etapa. Se não for especificado, |
|
inputs
Obrigatório
|
Lista de associações de porta de entrada |
|
outputs
Obrigatório
|
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]
Uma lista de associações de porta de saída. |
|
params
Obrigatório
|
Um dicionário de pares nome-valor. |
|
degree_of_parallelism
Obrigatório
|
O grau de paralelismo a ser usado para este trabalho. Isso deve ser maior que 0. Se definido como menor que 0, o padrão será 1. |
|
priority
Obrigatório
|
O valor da prioridade a ser usado para o trabalho atual. Números mais baixos têm uma prioridade maior. Por padrão, um trabalho tem uma prioridade de 1000. O valor especificado deve ser maior que 0. |
|
runtime_version
Obrigatório
|
A versão de tempo de execução do mecanismo de Data Lake Analytics. |
|
compute_target
Obrigatório
|
[Obrigatório] A computação do ADLA a ser usada para este trabalho. |
|
source_directory
Obrigatório
|
Uma pasta que contém o script, assemblies etc. |
|
allow_reuse
Obrigatório
|
Indica se a etapa deve reutilizar os resultados anteriores ao executar novamente com as mesmas configurações. A reutilização é habilitada por padrão. Se o conteúdo da etapa (scripts/dependências), bem como entradas e parâmetros permanecerem inalterados, a saída da execução anterior desta etapa será reutilizado. Ao reutilizar a etapa, em vez de enviar o trabalho para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer etapas subsequentes. Se você usar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada, não se os dados subjacentes foram alterados. |
|
version
Obrigatório
|
Uma marca de versão opcional para indicar uma alteração na funcionalidade da etapa. |
|
hash_paths
Obrigatório
|
PRETERIDO: não é mais necessário. Uma lista de caminhos para o hash ao verificar se há alterações no conteúdo da etapa. Se não houver alterações detectadas, o pipeline reutilizará o conteúdo da etapa de uma execução anterior. Por padrão, o conteúdo é |
Comentários
Você pode usar @@name@@ sintaxe em seu script para se referir a entradas, saídas e parâmetros.
se o nome for o nome de uma associação de porta de entrada ou saída, todas as ocorrências de @@name@@ no script serão substituídas pelo caminho de dados real de uma associação de porta correspondente.
se o nome corresponder a qualquer chave no ditado params , todas as ocorrências de @@name@@ serão substituídas pelo valor correspondente no ditado.
O AdlaStep funciona apenas com dados armazenados no Data Lake Storage padrão da conta do Data Lake Analytics. Se os dados estiverem em um armazenamento não padrão, use um DataTransferStep para copiar os dados para o armazenamento padrão. Você pode encontrar o armazenamento padrão abrindo sua conta do Data Lake Analytics no portal do Azure e navegando até o item 'Fontes de dados' em Configurações no painel esquerdo.
O exemplo a seguir mostra como usar o AdlaStep em um Pipeline do Azure Machine Learning.
adla_step = AdlaStep(
name='extract_employee_names',
script_name='sample_script.usql',
source_directory=sample_folder,
inputs=[sample_input],
outputs=[sample_output],
compute_target=adla_compute)
O exemplo completo está disponível em https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb
Métodos
| create_node |
Crie um nó a partir da etapa AdlaStep e adicione-o ao grafo especificado. Esse método não se destina a ser usado diretamente. Quando um pipeline é instanciado com essa etapa, o Azure ML passa automaticamente os parâmetros necessários por meio desse método para que essa etapa possa ser adicionada a um grafo de pipeline que representa o fluxo de trabalho. |
create_node
Crie um nó a partir da etapa AdlaStep e adicione-o ao grafo especificado.
Esse método não se destina a ser usado diretamente. Quando um pipeline é instanciado com essa etapa, o Azure ML passa automaticamente os parâmetros necessários por meio desse método para que essa etapa possa ser adicionada a um grafo de pipeline que representa o fluxo de trabalho.
create_node(graph, default_datastore, context)
Parâmetros
| Nome | Description |
|---|---|
|
graph
Obrigatório
|
O objeto graph. |
|
default_datastore
Obrigatório
|
O armazenamento de dados padrão. |
|
context
Obrigatório
|
<xref:azureml.pipeline.core._GraphContext>
O contexto do grafo. |
Retornos
| Tipo | Description |
|---|---|
|
O objeto do nó. |