AdlaStep Classe
Cria uma etapa do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.
Para obter um exemplo de utilização deste AdlaStep, consulte o bloco de notas https://aka.ms/pl-adla.
Crie uma etapa do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.
Construtor
AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)
Parâmetros
| Name | Description |
|---|---|
|
script_name
Necessário
|
[Obrigatório] O nome de um script U-SQL, relativo a |
|
name
|
O nome da etapa. Se não especificado, Default value: None
|
|
inputs
|
Uma lista de ligações de porta de entrada. Default value: None
|
|
outputs
|
Uma lista de ligações de porta de saída. Default value: None
|
|
params
|
Um dicionário de pares nome-valor. Default value: None
|
|
degree_of_parallelism
|
O grau de paralelismo a utilizar para este trabalho. Este valor deve ser superior a 0. Se definido como menos de 0, o padrão será 1. Default value: None
|
|
priority
|
O valor de prioridade a ser usado para o trabalho atual. Números mais baixos têm uma prioridade maior. Por padrão, um trabalho tem uma prioridade de 1000. O valor especificado deve ser maior que 0. Default value: None
|
|
runtime_version
|
A versão de tempo de execução do mecanismo do Data Lake Analytics. Default value: None
|
|
compute_target
|
[Obrigatório] O cálculo ADLA a ser usado para este trabalho. Default value: None
|
|
source_directory
|
Uma pasta que contém o script, assemblies etc. Default value: None
|
|
allow_reuse
|
Indica se a etapa deve reutilizar os resultados anteriores ao ser executada novamente com as mesmas configurações. A reutilização está ativada por predefinição. Se o conteúdo da etapa (scripts/dependências), bem como as entradas e os parâmetros permanecerem inalterados, a saída da execução anterior desta etapa será reutilizada. Ao reutilizar a etapa, em vez de enviar o trabalho para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer etapas subsequentes. Se você usar conjuntos de dados do Aprendizado de Máquina do Azure como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada, não se os dados subjacentes foram alterados. Default value: True
|
|
version
|
Tag de versão opcional para indicar uma alteração na funcionalidade da etapa. Default value: None
|
|
hash_paths
|
DEPRECATED: não é mais necessário. Uma lista de caminhos para hash ao verificar alterações no conteúdo da etapa. Se não forem detetadas alterações, o pipeline reutilizará o conteúdo da etapa de uma execução anterior. Por padrão, o conteúdo do Default value: None
|
|
script_name
Necessário
|
[Obrigatório] O nome de um script U-SQL, relativo a |
|
name
Necessário
|
O nome da etapa. Se não especificado, |
|
inputs
Necessário
|
Lista de ligações de porta de entrada |
|
outputs
Necessário
|
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]
Uma lista de ligações de porta de saída. |
|
params
Necessário
|
Um dicionário de pares nome-valor. |
|
degree_of_parallelism
Necessário
|
O grau de paralelismo a utilizar para este trabalho. Este valor deve ser superior a 0. Se definido como menos de 0, o padrão será 1. |
|
priority
Necessário
|
O valor de prioridade a ser usado para o trabalho atual. Números mais baixos têm uma prioridade maior. Por padrão, um trabalho tem uma prioridade de 1000. O valor especificado deve ser maior que 0. |
|
runtime_version
Necessário
|
A versão de tempo de execução do mecanismo do Data Lake Analytics. |
|
compute_target
Necessário
|
[Obrigatório] O cálculo ADLA a ser usado para este trabalho. |
|
source_directory
Necessário
|
Uma pasta que contém o script, assemblies etc. |
|
allow_reuse
Necessário
|
Indica se a etapa deve reutilizar os resultados anteriores ao ser executada novamente com as mesmas configurações. A reutilização está ativada por predefinição. Se o conteúdo da etapa (scripts/dependências), bem como as entradas e os parâmetros permanecerem inalterados, a saída da execução anterior desta etapa será reutilizada. Ao reutilizar a etapa, em vez de enviar o trabalho para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer etapas subsequentes. Se você usar conjuntos de dados do Aprendizado de Máquina do Azure como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada, não se os dados subjacentes foram alterados. |
|
version
Necessário
|
Uma tag de versão opcional para indicar uma alteração na funcionalidade da etapa. |
|
hash_paths
Necessário
|
DEPRECATED: não é mais necessário. Uma lista de caminhos para hash ao verificar alterações no conteúdo da etapa. Se não forem detetadas alterações, o pipeline reutilizará o conteúdo da etapa de uma execução anterior. Por padrão, o conteúdo do |
Observações
Você pode usar @@name@@ sintaxe em seu script para se referir a entradas, saídas e parâmetros.
Se Name for o nome de uma ligação de porta de entrada ou saída, todas as ocorrências de @@name@@ no script serão substituídas pelo caminho de dados real de uma ligação de porta correspondente.
Se Name corresponder a qualquer chave no params dict, quaisquer ocorrências de @@name@@ serão substituídas pelo valor correspondente no dict.
O AdlaStep funciona apenas com dados armazenados no armazenamento Data Lake padrão da conta do Data Lake Analytics. Se os dados estiverem em um armazenamento não padrão, use a DataTransferStep para copiar os dados para o armazenamento padrão. Você pode encontrar o armazenamento padrão abrindo sua conta do Data Lake Analytics no portal do Azure e navegando até o item 'Fontes de dados' em Configurações no painel esquerdo.
O exemplo a seguir mostra como usar o AdlaStep em um Pipeline do Azure Machine Learning.
adla_step = AdlaStep(
name='extract_employee_names',
script_name='sample_script.usql',
source_directory=sample_folder,
inputs=[sample_input],
outputs=[sample_output],
compute_target=adla_compute)
A amostra completa está disponível em https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb
Métodos
| create_node |
Crie um nó a partir da etapa AdlaStep e adicione-o ao gráfico especificado. Este método não se destina a ser utilizado diretamente. Quando um pipeline é instanciado com essa etapa, o Azure ML passa automaticamente os parâmetros necessários por meio desse método para que essa etapa possa ser adicionada a um gráfico de pipeline que representa o fluxo de trabalho. |
create_node
Crie um nó a partir da etapa AdlaStep e adicione-o ao gráfico especificado.
Este método não se destina a ser utilizado diretamente. Quando um pipeline é instanciado com essa etapa, o Azure ML passa automaticamente os parâmetros necessários por meio desse método para que essa etapa possa ser adicionada a um gráfico de pipeline que representa o fluxo de trabalho.
create_node(graph, default_datastore, context)
Parâmetros
| Name | Description |
|---|---|
|
graph
Necessário
|
O objeto gráfico. |
|
default_datastore
Necessário
|
O armazenamento de dados padrão. |
|
context
Necessário
|
<xref:azureml.pipeline.core._GraphContext>
O contexto do gráfico. |
Devoluções
| Tipo | Description |
|---|---|
|
O objeto node. |