Partilhar via


AdlaStep Classe

Cria uma etapa do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.

Para obter um exemplo de utilização deste AdlaStep, consulte o bloco de notas https://aka.ms/pl-adla.

Crie uma etapa do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.

Construtor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parâmetros

Name Description
script_name
Necessário
str

[Obrigatório] O nome de um script U-SQL, relativo a source_directory.

name
str

O nome da etapa. Se não especificado, script_name é usado.

Default value: None
inputs

Uma lista de ligações de porta de entrada.

Default value: None
outputs

Uma lista de ligações de porta de saída.

Default value: None
params

Um dicionário de pares nome-valor.

Default value: None
degree_of_parallelism
int

O grau de paralelismo a utilizar para este trabalho. Este valor deve ser superior a 0. Se definido como menos de 0, o padrão será 1.

Default value: None
priority
int

O valor de prioridade a ser usado para o trabalho atual. Números mais baixos têm uma prioridade maior. Por padrão, um trabalho tem uma prioridade de 1000. O valor especificado deve ser maior que 0.

Default value: None
runtime_version
str

A versão de tempo de execução do mecanismo do Data Lake Analytics.

Default value: None
compute_target

[Obrigatório] O cálculo ADLA a ser usado para este trabalho.

Default value: None
source_directory
str

Uma pasta que contém o script, assemblies etc.

Default value: None
allow_reuse

Indica se a etapa deve reutilizar os resultados anteriores ao ser executada novamente com as mesmas configurações. A reutilização está ativada por predefinição. Se o conteúdo da etapa (scripts/dependências), bem como as entradas e os parâmetros permanecerem inalterados, a saída da execução anterior desta etapa será reutilizada. Ao reutilizar a etapa, em vez de enviar o trabalho para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer etapas subsequentes. Se você usar conjuntos de dados do Aprendizado de Máquina do Azure como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada, não se os dados subjacentes foram alterados.

Default value: True
version
str

Tag de versão opcional para indicar uma alteração na funcionalidade da etapa.

Default value: None
hash_paths

DEPRECATED: não é mais necessário.

Uma lista de caminhos para hash ao verificar alterações no conteúdo da etapa. Se não forem detetadas alterações, o pipeline reutilizará o conteúdo da etapa de uma execução anterior. Por padrão, o conteúdo do source_directory é colocado em hash, exceto para arquivos listados em .amlignore ou .gitignore.

Default value: None
script_name
Necessário
str

[Obrigatório] O nome de um script U-SQL, relativo a source_directory.

name
Necessário
str

O nome da etapa. Se não especificado, script_name é usado.

inputs
Necessário

Lista de ligações de porta de entrada

outputs
Necessário
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]

Uma lista de ligações de porta de saída.

params
Necessário

Um dicionário de pares nome-valor.

degree_of_parallelism
Necessário
int

O grau de paralelismo a utilizar para este trabalho. Este valor deve ser superior a 0. Se definido como menos de 0, o padrão será 1.

priority
Necessário
int

O valor de prioridade a ser usado para o trabalho atual. Números mais baixos têm uma prioridade maior. Por padrão, um trabalho tem uma prioridade de 1000. O valor especificado deve ser maior que 0.

runtime_version
Necessário
str

A versão de tempo de execução do mecanismo do Data Lake Analytics.

compute_target
Necessário

[Obrigatório] O cálculo ADLA a ser usado para este trabalho.

source_directory
Necessário
str

Uma pasta que contém o script, assemblies etc.

allow_reuse
Necessário

Indica se a etapa deve reutilizar os resultados anteriores ao ser executada novamente com as mesmas configurações. A reutilização está ativada por predefinição. Se o conteúdo da etapa (scripts/dependências), bem como as entradas e os parâmetros permanecerem inalterados, a saída da execução anterior desta etapa será reutilizada. Ao reutilizar a etapa, em vez de enviar o trabalho para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer etapas subsequentes. Se você usar conjuntos de dados do Aprendizado de Máquina do Azure como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada, não se os dados subjacentes foram alterados.

version
Necessário
str

Uma tag de versão opcional para indicar uma alteração na funcionalidade da etapa.

hash_paths
Necessário

DEPRECATED: não é mais necessário.

Uma lista de caminhos para hash ao verificar alterações no conteúdo da etapa. Se não forem detetadas alterações, o pipeline reutilizará o conteúdo da etapa de uma execução anterior. Por padrão, o conteúdo do source_directory é colocado em hash, exceto para arquivos listados em .amlignore ou .gitignore.

Observações

Você pode usar @@name@@ sintaxe em seu script para se referir a entradas, saídas e parâmetros.

  • Se Name for o nome de uma ligação de porta de entrada ou saída, todas as ocorrências de @@name@@ no script serão substituídas pelo caminho de dados real de uma ligação de porta correspondente.

  • Se Name corresponder a qualquer chave no params dict, quaisquer ocorrências de @@name@@ serão substituídas pelo valor correspondente no dict.

O AdlaStep funciona apenas com dados armazenados no armazenamento Data Lake padrão da conta do Data Lake Analytics. Se os dados estiverem em um armazenamento não padrão, use a DataTransferStep para copiar os dados para o armazenamento padrão. Você pode encontrar o armazenamento padrão abrindo sua conta do Data Lake Analytics no portal do Azure e navegando até o item 'Fontes de dados' em Configurações no painel esquerdo.

O exemplo a seguir mostra como usar o AdlaStep em um Pipeline do Azure Machine Learning.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

A amostra completa está disponível em https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Métodos

create_node

Crie um nó a partir da etapa AdlaStep e adicione-o ao gráfico especificado.

Este método não se destina a ser utilizado diretamente. Quando um pipeline é instanciado com essa etapa, o Azure ML passa automaticamente os parâmetros necessários por meio desse método para que essa etapa possa ser adicionada a um gráfico de pipeline que representa o fluxo de trabalho.

create_node

Crie um nó a partir da etapa AdlaStep e adicione-o ao gráfico especificado.

Este método não se destina a ser utilizado diretamente. Quando um pipeline é instanciado com essa etapa, o Azure ML passa automaticamente os parâmetros necessários por meio desse método para que essa etapa possa ser adicionada a um gráfico de pipeline que representa o fluxo de trabalho.

create_node(graph, default_datastore, context)

Parâmetros

Name Description
graph
Necessário

O objeto gráfico.

default_datastore
Necessário

O armazenamento de dados padrão.

context
Necessário
<xref:azureml.pipeline.core._GraphContext>

O contexto do gráfico.

Devoluções

Tipo Description

O objeto node.