AdlaStep Classe

Cria uma etapa do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.

Para obter um exemplo de utilização deste AdlaStep, consulte o bloco de notas https://aka.ms/pl-adla.

Crie uma etapa do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.

Construtor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parâmetros

Name	Description
script_name Necessário	str [Obrigatório] O nome de um script U-SQL, relativo a `source_directory`.
name	str O nome da etapa. Se não especificado, `script_name` é usado. Default value: None
inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Uma lista de ligações de porta de entrada. Default value: None
outputs	list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]] Uma lista de ligações de porta de saída. Default value: None
params	dict Um dicionário de pares nome-valor. Default value: None
degree_of_parallelism	int O grau de paralelismo a utilizar para este trabalho. Este valor deve ser superior a 0. Se definido como menos de 0, o padrão será 1. Default value: None
priority	int O valor de prioridade a ser usado para o trabalho atual. Números mais baixos têm uma prioridade maior. Por padrão, um trabalho tem uma prioridade de 1000. O valor especificado deve ser maior que 0. Default value: None
runtime_version	str A versão de tempo de execução do mecanismo do Data Lake Analytics. Default value: None
compute_target	AdlaCompute, str [Obrigatório] O cálculo ADLA a ser usado para este trabalho. Default value: None
source_directory	str Uma pasta que contém o script, assemblies etc. Default value: None
allow_reuse	bool Indica se a etapa deve reutilizar os resultados anteriores ao ser executada novamente com as mesmas configurações. A reutilização está ativada por predefinição. Se o conteúdo da etapa (scripts/dependências), bem como as entradas e os parâmetros permanecerem inalterados, a saída da execução anterior desta etapa será reutilizada. Ao reutilizar a etapa, em vez de enviar o trabalho para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer etapas subsequentes. Se você usar conjuntos de dados do Aprendizado de Máquina do Azure como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada, não se os dados subjacentes foram alterados. Default value: True
version	str Tag de versão opcional para indicar uma alteração na funcionalidade da etapa. Default value: None
hash_paths	list DEPRECATED: não é mais necessário. Uma lista de caminhos para hash ao verificar alterações no conteúdo da etapa. Se não forem detetadas alterações, o pipeline reutilizará o conteúdo da etapa de uma execução anterior. Por padrão, o conteúdo do `source_directory` é colocado em hash, exceto para arquivos listados em .amlignore ou .gitignore. Default value: None
script_name Necessário	str [Obrigatório] O nome de um script U-SQL, relativo a `source_directory`.
name Necessário	str O nome da etapa. Se não especificado, `script_name` é usado.
inputs Necessário	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Lista de ligações de porta de entrada
outputs Necessário	list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]] Uma lista de ligações de porta de saída.
params Necessário	dict Um dicionário de pares nome-valor.
degree_of_parallelism Necessário	int O grau de paralelismo a utilizar para este trabalho. Este valor deve ser superior a 0. Se definido como menos de 0, o padrão será 1.
priority Necessário	int O valor de prioridade a ser usado para o trabalho atual. Números mais baixos têm uma prioridade maior. Por padrão, um trabalho tem uma prioridade de 1000. O valor especificado deve ser maior que 0.
runtime_version Necessário	str A versão de tempo de execução do mecanismo do Data Lake Analytics.
compute_target Necessário	AdlaCompute, str [Obrigatório] O cálculo ADLA a ser usado para este trabalho.
source_directory Necessário	str Uma pasta que contém o script, assemblies etc.
allow_reuse Necessário	bool Indica se a etapa deve reutilizar os resultados anteriores ao ser executada novamente com as mesmas configurações. A reutilização está ativada por predefinição. Se o conteúdo da etapa (scripts/dependências), bem como as entradas e os parâmetros permanecerem inalterados, a saída da execução anterior desta etapa será reutilizada. Ao reutilizar a etapa, em vez de enviar o trabalho para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer etapas subsequentes. Se você usar conjuntos de dados do Aprendizado de Máquina do Azure como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada, não se os dados subjacentes foram alterados.
version Necessário	str Uma tag de versão opcional para indicar uma alteração na funcionalidade da etapa.
hash_paths Necessário	list DEPRECATED: não é mais necessário. Uma lista de caminhos para hash ao verificar alterações no conteúdo da etapa. Se não forem detetadas alterações, o pipeline reutilizará o conteúdo da etapa de uma execução anterior. Por padrão, o conteúdo do `source_directory` é colocado em hash, exceto para arquivos listados em .amlignore ou .gitignore.

Observações

Você pode usar @@name@@ sintaxe em seu script para se referir a entradas, saídas e parâmetros.

Se Name for o nome de uma ligação de porta de entrada ou saída, todas as ocorrências de @@name@@ no script serão substituídas pelo caminho de dados real de uma ligação de porta correspondente.
Se Name corresponder a qualquer chave no params dict, quaisquer ocorrências de @@name@@ serão substituídas pelo valor correspondente no dict.

O AdlaStep funciona apenas com dados armazenados no armazenamento Data Lake padrão da conta do Data Lake Analytics. Se os dados estiverem em um armazenamento não padrão, use a DataTransferStep para copiar os dados para o armazenamento padrão. Você pode encontrar o armazenamento padrão abrindo sua conta do Data Lake Analytics no portal do Azure e navegando até o item 'Fontes de dados' em Configurações no painel esquerdo.

O exemplo a seguir mostra como usar o AdlaStep em um Pipeline do Azure Machine Learning.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

A amostra completa está disponível em https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Métodos

create_node

Crie um nó a partir da etapa AdlaStep e adicione-o ao gráfico especificado.

Este método não se destina a ser utilizado diretamente. Quando um pipeline é instanciado com essa etapa, o Azure ML passa automaticamente os parâmetros necessários por meio desse método para que essa etapa possa ser adicionada a um gráfico de pipeline que representa o fluxo de trabalho.

create_node

Crie um nó a partir da etapa AdlaStep e adicione-o ao gráfico especificado.

create_node(graph, default_datastore, context)

Parâmetros

Name	Description
graph Necessário	Graph O objeto gráfico.
default_datastore Necessário	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] O armazenamento de dados padrão.
context Necessário	<xref:azureml.pipeline.core._GraphContext> O contexto do gráfico.

Devoluções

Tipo	Description
Node	O objeto node.

Feedback

Esta página foi útil?

Partilhar via

AdlaStep Classe

Construtor

Parâmetros

Observações

Métodos

create_node

Parâmetros

Devoluções

Feedback