Partilhar via


Estimator Classe

Representa um estimador genérico para treinar dados usando qualquer estrutura fornecida.

PRETERIDO. Use o ScriptRunConfig objeto com seu próprio ambiente definido ou um ambiente com curadoria do Azure ML. Para obter uma introdução à configuração de execuções experimentais com ScriptRunConfig, consulte Configurar e enviar execuções de treinamento.

Esta classe foi projetada para uso com estruturas de aprendizado de máquina que ainda não têm um estimador pré-configurado do Azure Machine Learning. Existem estimadores pré-configurados para Chainer, PyTorch, TensorFlowe SKLearn. Para criar um Estimador que não esteja pré-configurado, consulte Treinar modelos com o Azure Machine Learning usando o estimador.

A classe Estimator encapsula informações de configuração de execução para ajudar a simplificar as tarefas de especificar como um script é executado. Ele suporta execução de nó único e de vários nós. A execução do estimador produz um modelo no diretório de saída especificado no script de treinamento.

Inicialize o estimador.

azureml.core.environment._DEFAULT_SHM_SIZE é utilizado. Para obter mais informações, consulte Referência de execução do Docker. :type shm_size: str :p aram resume_from: o caminho de dados que contém o ponto de verificação ou os arquivos de modelo a partir dos quais retomar o experimento. :type resume_from: azureml.data.datapath.DataPath :p aram max_run_duration_seconds: o tempo máximo permitido para a execução. O Azure ML tentará automaticamente

cancele a execução se demorar mais do que este valor.

Construtor

Estimator(source_directory, *, compute_target=None, vm_size=None, vm_priority=None, entry_script=None, script_params=None, node_count=1, process_count_per_node=1, distributed_backend=None, distributed_training=None, use_gpu=False, use_docker=True, custom_docker_base_image=None, custom_docker_image=None, image_registry_details=None, user_managed=False, conda_packages=None, pip_packages=None, conda_dependencies_file_path=None, pip_requirements_file_path=None, conda_dependencies_file=None, pip_requirements_file=None, environment_variables=None, environment_definition=None, inputs=None, source_directory_data_store=None, shm_size=None, resume_from=None, max_run_duration_seconds=None, _disable_validation=True, _show_lint_warnings=False, _show_package_warnings=False)

Parâmetros

Name Description
source_directory
Necessário
str

Um diretório local contendo configuração de experimento e arquivos de código necessários para um trabalho de treinamento.

compute_target
Necessário

O alvo de computação onde o treinamento acontecerá. Isso pode ser um objeto ou a cadeia de caracteres "local".

vm_size
Necessário
str

O tamanho da VM do destino de computação que será criado para o treinamento. Valores suportados: qualquer tamanho de VM do Azure.

vm_priority
Necessário
str

A prioridade VM do destino de computação que será criado para o treinamento. Se não for especificado, utiliza-se «dedicado».

Valores suportados: 'dedicado' e 'baixa prioridade'.

Isso só entra em vigor quando o vm_size parâmetro é especificado na entrada.

entry_script
Necessário
str

O caminho relativo para o arquivo usado para iniciar o treinamento.

script_params
Necessário

Um dicionário de argumentos de linha de comando a serem passados para o script de treinamento especificado em entry_script.

node_count
Necessário
int

O número de nós no destino de computação usado para treinamento. Se maior que 1, um trabalho distribuído MPI será executado.

process_count_per_node
Necessário
int

O número de processos (ou "trabalhadores") a serem executados em cada nó. Se maior que 1, um trabalho distribuído MPI será executado. Apenas a meta é suportada AmlCompute para trabalhos distribuídos.

distributed_backend
Necessário
str

O backend de comunicação para treinamento distribuído.

PRETERIDO. Use o distributed_training parâmetro.

Valores suportados: 'mpi'. «mpi» representa o IPM/Horovod.

Este parâmetro é necessário quando node_count ou process_count_per_node> 1.

Quando node_count == 1 e process_count_per_node == 1, nenhum back-end será usado a menos que o back-end esteja explicitamente definido. Apenas o alvo é suportado AmlCompute para formação distribuída.

distributed_training
Necessário
Mpi

Parâmetros para executar um trabalho de treinamento distribuído.

Para executar um trabalho distribuído com back-end MPI, use Mpi o objeto para especificar process_count_per_node.

use_gpu
Necessário

Indica se o ambiente para executar o experimento deve suportar GPUs. Se verdadeiro, uma imagem padrão do Docker baseada em GPU será usada no ambiente. Se false, uma imagem baseada em CPU será usada. As imagens padrão do Docker (CPU ou GPU) serão usadas somente se o custom_docker_image parâmetro não estiver definido. Essa configuração é usada somente em destinos de computação habilitados para Docker.

use_docker
Necessário

Especifica se o ambiente para executar o experimento deve ser baseado no Docker.

custom_docker_base_image
Necessário
str

O nome da imagem do Docker a partir da qual a imagem a ser usada para treinamento será construída.

PRETERIDO. Use o custom_docker_image parâmetro.

Se não estiver definida, uma imagem padrão baseada em CPU será usada como imagem base.

custom_docker_image
Necessário
str

O nome da imagem do Docker a partir da qual a imagem a ser usada para treinamento será construída. Se não estiver definida, uma imagem padrão baseada em CPU será usada como imagem base. Especifique apenas as imagens disponíveis em repositórios públicos do docker (Docker Hub). Para usar uma imagem de um repositório privado do docker, use o parâmetro do environment_definition construtor.

image_registry_details
Necessário

Os detalhes do registro de imagem do Docker.

user_managed
Necessário

Especifica se o Azure ML reutiliza um ambiente Python existente. Se false, um ambiente Python é criado com base na especificação conda dependencies.

conda_packages
Necessário

Uma lista de strings que representam pacotes conda a serem adicionados ao ambiente Python para o experimento.

pip_packages
Necessário

Uma lista de strings que representam pacotes pip a serem adicionados ao ambiente Python para o experimento.

conda_dependencies_file_path
Necessário
str

O caminho relativo para o arquivo yaml de dependências conda. Se especificado, o Azure ML não instalará nenhum pacote relacionado à estrutura.

PRETERIDO. Use o conda_dependencies_file paramenter.

Especifique um ou conda_dependencies_file_pathconda_dependencies_file. Se ambos forem especificados, conda_dependencies_file é usado.

pip_requirements_file_path
Necessário
str

O caminho relativo para o arquivo de texto de requisitos pip.

PRETERIDO. Use o pip_requirements_file parâmetro.

Este parâmetro pode ser especificado em combinação com o pip_packages parâmetro. Especifique um ou pip_requirements_file_pathpip_requirements_file. Se ambos forem especificados, pip_requirements_file é usado.

conda_dependencies_file
Necessário
str

O caminho relativo para o arquivo yaml de dependências conda. Se especificado, o Azure ML não instalará nenhum pacote relacionado à estrutura.

pip_requirements_file
Necessário
str

O caminho relativo para o arquivo de texto de requisitos pip. Este parâmetro pode ser especificado em combinação com o pip_packages parâmetro.

environment_variables
Necessário

Um dicionário de nomes e valores de variáveis de ambiente. Essas variáveis de ambiente são definidas no processo onde o script do usuário está sendo executado.

environment_definition
Necessário

A definição do ambiente para o experimento. Ele inclui PythonSection, DockerSection e variáveis de ambiente. Qualquer opção de ambiente não exposta diretamente através de outros parâmetros à construção do Estimador pode ser definida usando este parâmetro. Se esse parâmetro for especificado, ele terá precedência sobre outros parâmetros relacionados ao ambiente, como use_gpu, custom_docker_image, conda_packages, ou pip_packages. Erros serão relatados em combinações inválidas.

inputs
Necessário

Uma lista de DataReference ou DatasetConsumptionConfig objetos para usar como entrada.

source_directory_data_store
Necessário

O armazenamento de dados de suporte para o compartilhamento de projeto.

shm_size
Necessário
str

O tamanho do bloco de memória compartilhada do contêiner do Docker. Se não estiver definido, o azureml.core.environment._DEFAULT_SHM_SIZE padrão será usado. Para obter mais informações, consulte Referência de execução do Docker.

resume_from
Necessário

O caminho de dados que contém o ponto de verificação ou os arquivos de modelo a partir dos quais retomar o experimento.

max_run_duration_seconds
Necessário
int

O tempo máximo permitido para a execução. O Azure ML tentará cancelar automaticamente a execução se demorar mais do que esse valor.

source_directory
Necessário
str

Um diretório local contendo configuração de experimento e arquivos de código necessários para um trabalho de treinamento.

compute_target
Necessário

O alvo de computação onde o treinamento acontecerá. Isso pode ser um objeto ou a cadeia de caracteres "local".

vm_size
Necessário
str

O tamanho da VM do destino de computação que será criado para o treinamento. Valores suportados: qualquer tamanho de VM do Azure.

vm_priority
Necessário
str

A prioridade VM do destino de computação que será criado para o treinamento. Se não for especificado, utiliza-se «dedicado».

Valores suportados: 'dedicado' e 'baixa prioridade'.

Isso só entra em vigor quando o vm_size parâmetro é especificado na entrada.

entry_script
Necessário
str

O caminho relativo para o arquivo usado para iniciar o treinamento.

script_params
Necessário

Um dicionário de argumentos de linha de comando a serem passados para o script de treinamento especificado em entry_script.

node_count
Necessário
int

O número de nós no destino de computação usado para treinamento. Se for maior que 1, um trabalho distribuído MPI será executado. Apenas a meta é suportada AmlCompute para trabalhos distribuídos.

process_count_per_node
Necessário
int

O número de processos por nó. Se for maior que 1, um trabalho distribuído MPI será executado. Apenas a meta é suportada AmlCompute para trabalhos distribuídos.

distributed_backend
Necessário
str

O backend de comunicação para treinamento distribuído.

PRETERIDO. Use o distributed_training parâmetro.

Valores suportados: 'mpi'. «mpi» representa o IPM/Horovod.

Este parâmetro é necessário quando node_count ou process_count_per_node> 1.

Quando node_count == 1 e process_count_per_node == 1, nenhum back-end será usado a menos que o back-end esteja explicitamente definido. Apenas o alvo é suportado AmlCompute para formação distribuída.

distributed_training
Necessário
Mpi

Parâmetros para executar um trabalho de treinamento distribuído.

Para executar um trabalho distribuído com back-end MPI, use Mpi o objeto para especificar process_count_per_node.

use_gpu
Necessário

Especifica se o ambiente para executar o experimento deve suportar GPUs. Se verdadeiro, uma imagem padrão do Docker baseada em GPU será usada no ambiente. Se false, uma imagem baseada em CPU será usada. As imagens padrão do Docker (CPU ou GPU) serão usadas somente se o custom_docker_image parâmetro não estiver definido. Essa configuração é usada somente em destinos de computação habilitados para Docker.

use_docker
Necessário

Especifica se o ambiente para executar o experimento deve ser baseado no Docker.

custom_docker_base_image
Necessário
str

O nome da imagem do Docker a partir da qual a imagem a ser usada para treinamento será construída.

PRETERIDO. Use o custom_docker_image parâmetro.

Se não estiver definida, uma imagem padrão baseada em CPU será usada como imagem base.

custom_docker_image
Necessário
str

O nome da imagem do Docker a partir da qual a imagem a ser usada para treinamento será construída. Se não estiver definida, uma imagem padrão baseada em CPU será usada como imagem base. Especifique apenas as imagens disponíveis em repositórios públicos do docker (Docker Hub). Para usar uma imagem de um repositório privado do docker, use o parâmetro do environment_definition construtor.

image_registry_details
Necessário

Os detalhes do registro de imagem do Docker.

user_managed
Necessário

Especifica se o Azure ML reutiliza um ambiente Python existente. Se false, um ambiente Python é criado com base na especificação conda dependencies.

conda_packages
Necessário

Uma lista de strings que representam pacotes conda a serem adicionados ao ambiente Python para o experimento.

pip_packages
Necessário

Uma lista de strings que representam pacotes pip a serem adicionados ao ambiente Python para o experimento.

conda_dependencies_file_path
Necessário

O caminho relativo para o arquivo yaml de dependências conda. Se especificado, o Azure ML não instalará nenhum pacote relacionado à estrutura.

PRETERIDO. Use o conda_dependencies_file paramenter.

Especifique um ou conda_dependencies_file_pathconda_dependencies_file. Se ambos forem especificados, conda_dependencies_file é usado.

pip_requirements_file_path
Necessário

O caminho relativo para o arquivo de texto de requisitos pip.

PRETERIDO. Use o pip_requirements_file parâmetro.

Isto pode ser fornecido em combinação com o pip_packages parâmetro. Especifique um ou pip_requirements_file_pathpip_requirements_file. Se ambos forem especificados, pip_requirements_file é usado.

pip_requirements_file
Necessário
str

O caminho relativo para o arquivo de texto de requisitos pip. Isto pode ser fornecido em combinação com o pip_packages parâmetro.

environment_variables
Necessário

Um dicionário de nomes e valores de variáveis de ambiente. Essas variáveis de ambiente são definidas no processo onde o script do usuário está sendo executado.

environment_definition
Necessário

A definição do ambiente para o experimento. Ele inclui PythonSection, DockerSection e variáveis de ambiente. Qualquer opção de ambiente não exposta diretamente através de outros parâmetros à construção do Estimador pode ser definida usando este parâmetro. Se esse parâmetro for especificado, ele terá precedência sobre outros parâmetros relacionados ao ambiente, como use_gpu, custom_docker_image, conda_packages, ou pip_packages. Erros serão relatados em combinações inválidas.

inputs
Necessário

Uma lista de DataReference ou DatasetConsumptionConfig objetos para usar como entrada.

source_directory_data_store
Necessário

O armazenamento de dados de suporte para o compartilhamento de projeto.

shm_size
Necessário

O tamanho do bloco de memória compartilhada do contêiner do Docker. Se não estiver definido, o padrão

_disable_validation
Necessário

Desative a validação de script antes de executar o envio. O padrão é True.

_show_lint_warnings
Necessário

Mostrar avisos de revestimento de script. O padrão é False.

_show_package_warnings
Necessário

Mostrar avisos de validação de pacote. O padrão é False.