AutoMLConfig Classe

Representa a configuração para enviar um experimento de ML automatizado no Azure Machine Learning.

Este objeto de configuração contém e persiste os parâmetros para configurar a execução do experimento, bem como os dados de treinamento a serem usados em tempo de execução. Para obter orientação sobre como selecionar suas configurações, consulte https://aka.ms/AutoMLConfig.

Crie um AutoMLConfig.

Construtor

AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)

Parâmetros

Name	Description
task Necessário	str ou Tasks O tipo de tarefa a ser executada. Os valores podem ser 'classificação', 'regressão' ou 'previsão', dependendo do tipo de problema de ML automatizado a ser resolvido.
path Necessário	str O caminho completo para a pasta do projeto do Azure Machine Learning. Se não for especificado, o padrão é usar o diretório atual ou ".".
iterations Necessário	int O número total de diferentes combinações de algoritmos e parâmetros a serem testadas durante um experimento automatizado de ML. Se não for especificado, o padrão é 1000 iterações.
primary_metric Necessário	str ou Metric A métrica que o Automated Machine Learning otimizará para a seleção de modelos. O Machine Learning automatizado coleta mais métricas do que pode otimizar. Você pode usar get_primary_metrics para obter uma lista de métricas válidas para sua determinada tarefa. Para obter mais informações sobre como as métricas são calculadas, consulte https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. Se não for especificado, a precisão é usada para tarefas de classificação, a raiz normalizada média ao quadrado é usada para tarefas de previsão e regressão, a precisão é usada para classificação de imagem e classificação de vários rótulos de imagem e a precisão média média é usada para deteção de objetos de imagem.
positive_label Necessário	Any O rótulo de classe positiva que o Automated Machine Learning usará para calcular métricas binárias. As métricas binárias são calculadas em duas condições para tarefas de classificação: A coluna label consiste em duas classes indicando a tarefa de classificação binária AutoML usará classe positiva especificada quando positive_label for passada, caso contrário, AutoML escolherá uma classe positiva com base no valor codificado de rótulo. Tarefa de classificação de várias classes com positive_label especificado Para obter mais informações sobre classificação, verifique as métricas para cenários de classificação.
compute_target Necessário	AbstractComputeTarget O destino de computação do Azure Machine Learning no qual executar o experimento do Automated Machine Learning. Consulte https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote para obter mais informações sobre destinos de computação.
spark_context Necessário	<xref:SparkContext> O contexto do Spark. Aplicável apenas quando usado dentro do ambiente Azure Databricks/Spark.
X Necessário	DataFrame ou ndarray ou Dataset ou TabularDataset Os recursos de treinamento devem ser usados ao encaixar tubulações durante um experimento. Essa configuração está sendo preterida. Por favor, use training_data e label_column_name em vez disso.
y Necessário	DataFrame ou ndarray ou Dataset ou TabularDataset As etiquetas de treinamento a serem usadas ao encaixar tubulações durante um experimento. Este é o valor que o seu modelo irá prever. Essa configuração está sendo preterida. Por favor, use training_data e label_column_name em vez disso.
sample_weight Necessário	DataFrame ou ndarray ou TabularDataset O peso a atribuir a cada amostra de treino ao executar condutas de ajuste, cada linha deve corresponder a uma linha nos dados X e y. Especifique este parâmetro ao especificar `X`. Essa configuração está sendo preterida. Por favor, use training_data e weight_column_name em vez disso.
X_valid Necessário	DataFrame ou ndarray ou Dataset ou TabularDataset Recursos de validação a serem usados ao ajustar pipelines durante um experimento. Se especificado, então `y_valid` ou `sample_weight_valid` também deve ser especificado. Essa configuração está sendo preterida. Por favor, use validation_data e label_column_name em vez disso.
y_valid Necessário	DataFrame ou ndarray ou Dataset ou TabularDataset Etiquetas de validação para usar ao encaixar tubulações durante um experimento. Ambos `X_valid` e `y_valid` devem ser especificados em conjunto. Essa configuração está sendo preterida. Por favor, use validation_data e label_column_name em vez disso.
sample_weight_valid Necessário	DataFrame ou ndarray ou TabularDataset O peso a atribuir a cada amostra de validação ao executar pipelines de pontuação, cada linha deve corresponder a uma linha nos dados X e y. Especifique este parâmetro ao especificar `X_valid`. Essa configuração está sendo preterida. Por favor, use validation_data e weight_column_name em vez disso.
cv_splits_indices Necessário	List[List[ndarray]] Índices onde dividir os dados de treinamento para validação cruzada. Cada linha é uma dobra cruzada separada e, dentro de cada dobra cruzada, fornece 2 matrizes numpy, a primeira com os índices para amostras a serem usadas para dados de treinamento e a segunda com os índices para usar para dados de validação. ou seja, [[t1, v1], [t2, v2], ...] onde t1 são os índices de treino para a primeira dobra cruzada e v1 são os índices de validação para a primeira dobra cruzada. Para especificar dados existentes como dados de validação, use `validation_data`. Para permitir que o AutoML extraia dados de validação dos dados de treinamento, especifique um `n_cross_validations` ou `validation_size`. Use `cv_split_column_names` se você tiver coluna(s) de validação cruzada no `training_data`.
validation_size Necessário	float Qual fração dos dados deve ser mantida para validação quando os dados de validação do usuário não são especificados. Isso deve ser entre 0,0 e 1,0 não inclusivo. Especifique `validation_data` para fornecer dados de validação, definir `n_cross_validations` ou `validation_size` extrair dados de validação dos dados de treinamento especificados. Para dobra de validação cruzada personalizada, use `cv_split_column_names`. Para obter mais informações, consulte Configurar divisões de dados e validação cruzada no aprendizado de máquina automatizado.
n_cross_validations Necessário	int Quantas validações cruzadas devem ser executadas quando os dados de validação do usuário não são especificados. Especifique `validation_data` para fornecer dados de validação, definir `n_cross_validations` ou `validation_size` extrair dados de validação dos dados de treinamento especificados. Para dobra de validação cruzada personalizada, use `cv_split_column_names`. Para obter mais informações, consulte Configurar divisões de dados e validação cruzada no aprendizado de máquina automatizado.
y_min Necessário	float Valor mínimo de y para um experimento de regressão. A combinação de e `y_min` são usados para normalizar as métricas do conjunto de testes com base no intervalo de dados de `y_max` entrada. Essa configuração está sendo preterida. Em vez disso, esse valor será calculado a partir dos dados.
y_max Necessário	float Valor máximo de y para uma experiência de regressão. A combinação de e `y_min` são usados para normalizar as métricas do conjunto de testes com base no intervalo de dados de `y_max` entrada. Essa configuração está sendo preterida. Em vez disso, esse valor será calculado a partir dos dados.
num_classes Necessário	int O número de classes nos dados do rótulo para um experimento de classificação. Essa configuração está sendo preterida. Em vez disso, esse valor será calculado a partir dos dados.
featurization Necessário	str ou FeaturizationConfig 'auto' / 'off' / FeaturizationConfig Indicador para saber se a etapa de featurização deve ser feita automaticamente ou não, ou se a featurização personalizada deve ser usada. Nota: Se os dados de entrada forem escassos, a featurização não pode ser ativada. O tipo de coluna é detetado automaticamente. Com base no tipo de coluna detetado, o pré-processamento/featurização é feito da seguinte forma: Categórico: Codificação de destino, uma codificação quente, descartar categorias de cardinalidade alta, imputar valores ausentes. Numérico: imputar valores em falta, distância do agrupamento, ponderação da prova. DateTime: Vários recursos como dia, segundos, minutos, horas etc. Texto: Saco de palavras, incorporação de palavras pré-treinada, codificação de destino de texto. Mais detalhes podem ser encontrados no artigo Configurar experimentos automatizados de ML em Python. Para personalizar a etapa de featurização, forneça um objeto FeaturizationConfig. Atualmente, a featurização personalizada suporta o bloqueio de um conjunto de transformadores, a atualização da finalidade da coluna, a edição dos parâmetros do transformador e a queda de colunas. Para obter mais informações, consulte Personalizar engenharia de recursos. Nota: Os recursos de séries cronológicas são tratados separadamente quando o tipo de tarefa é definido como previsão, independentemente desse parâmetro.
max_cores_per_iteration Necessário	int O número máximo de threads a serem usados para uma determinada iteração de treinamento. Valores aceitáveis: Maior que 1 e menor ou igual ao número máximo de núcleos no destino de computação. Igual a -1, o que significa usar todos os núcleos possíveis por iteração por child-run. Igual a 1, o padrão.
max_concurrent_iterations Necessário	int Representa o número máximo de iterações que seriam executadas em paralelo. O valor padrão é 1. Os clusters AmlCompute suportam uma interação em execução por nó. Para várias execuções pai de experimento AutoML executadas em paralelo em um único cluster AmlCompute, a `max_concurrent_iterations` soma dos valores para todos os experimentos deve ser menor ou igual ao número máximo de nós. Caso contrário, as execuções serão enfileiradas até que os nós estejam disponíveis. A DSVM suporta várias iterações por nó. `max_concurrent_iterations` deve ser menor ou igual ao número de núcleos na DSVM. Para vários experimentos executados em paralelo em uma única DSVM, a soma dos `max_concurrent_iterations` valores para todos os experimentos deve ser menor ou igual ao número máximo de nós. Databricks - `max_concurrent_iterations` deve ser menor ou igual ao número de nós de trabalho no Databricks. `max_concurrent_iterations` não se aplica a execuções locais. Anteriormente, esse parâmetro era chamado `concurrent_iterations`de .
iteration_timeout_minutes Necessário	int Tempo máximo em minutos que cada iteração pode ser executada antes de terminar. Se não for especificado, é utilizado um valor de 1 mês ou 43200 minutos.
mem_in_mb Necessário	int Uso máximo de memória para o qual cada iteração pode ser executada antes de terminar. Se não for especificado, será utilizado um valor de 1 PB ou 1073741824 MB.
enforce_time_on_windows Necessário	bool Se deve impor um limite de tempo no treinamento do modelo em cada iteração no Windows. O padrão é True. Se estiver sendo executado a partir de um arquivo de script Python (.py), consulte a documentação para permitir limites de recursos no Windows.
experiment_timeout_hours Necessário	float Quantidade máxima de tempo, em horas, que todas as iterações combinadas podem levar antes que o experimento termine. Pode ser um valor decimal como 0,25 representando 15 minutos. Se não for especificado, o tempo limite padrão do experimento será de 6 dias. Para especificar um tempo limite menor ou igual a 1 hora, verifique se o tamanho do conjunto de dados não é maior que 10.000.000 (coluna de tempos de linha) ou se um erro resulta.
experiment_exit_score Necessário	float Pontuação alvo para experimento. O experimento termina depois que essa pontuação é atingida. Se não for especificado (sem critério), o experimento será executado até que nenhum progresso adicional seja feito na métrica primária. Para obter mais informações sobre os critérios de saída, consulte este artigo.
enable_early_stopping Necessário	bool Se deve permitir a rescisão antecipada se a pontuação não estiver melhorando no curto prazo. O padrão é True. Lógica de paragem precoce: Nenhuma parada antecipada para as primeiras 20 iterações (pontos de referência). A janela de parada antecipada começa na 21ª iteração e procura early_stopping_n_iters iterações (atualmente fixado em 10). Isso significa que a primeira iteração em que a parada pode ocorrer é a 31ª. O AutoML ainda agenda 2 iterações de conjunto APÓS a parada antecipada, o que pode resultar em pontuações mais elevadas. A interrupção antecipada é acionada se o valor absoluto da melhor pontuação calculada for o mesmo para o passado early_stopping_n_iters iterações, ou seja, se não houver melhoria na pontuação para early_stopping_n_iters iterações.
blocked_models Necessário	list(str) ou list(Classification) <xref:for classification task> ou list(Regression) <xref:for regression task> ou list(Forecasting) <xref:for forecasting task> Uma lista de algoritmos a serem ignorados para um experimento. Se `enable_tf` for False, os modelos do TensorFlow serão incluídos no `blocked_models`.
blacklist_models Necessário	list(str) ou list(Classification) <xref:for classification task> ou list(Regression) <xref:for regression task> ou list(Forecasting) <xref:for forecasting task> Parâmetro preterido, use blocked_models em vez disso.
exclude_nan_labels Necessário	bool Se as linhas com valores NaN devem ser excluídas no rótulo. O padrão é True.
verbosity Necessário	int O nível de verbosidade para gravar no arquivo de log. O padrão é INFO ou 20. Os valores aceitáveis são definidos na biblioteca de log do Python.
enable_tf Necessário	bool Parâmetro preterido para ativar/desativar algoritmos Tensorflow. O padrão é False.
model_explainability Necessário	bool Se deseja habilitar a explicação do melhor modelo de AutoML no final de todas as iterações de treinamento do AutoML. O padrão é True. Para obter mais informações, consulte Interpretabilidade: explicações de modelo em aprendizado de máquina automatizado.
allowed_models Necessário	list(str) ou list(Classification) <xref:for classification task> ou list(Regression) <xref:for regression task> ou list(Forecasting) <xref:for forecasting task> Uma lista de nomes de modelos para procurar um experimento. Se não for especificado, todos os modelos suportados para a tarefa serão usados menos quaisquer modelos TensorFlow especificados `blocked_models` ou preteridos. Os modelos suportados SupportedModels para cada tipo de tarefa são descritos na classe.
whitelist_models Necessário	list(str) ou list(Classification) <xref:for classification task> ou list(Regression) <xref:for regression task> ou list(Forecasting) <xref:for forecasting task> Parâmetro preterido, use allowed_models em vez disso.
enable_onnx_compatible_models Necessário	bool Se deseja habilitar ou desabilitar a aplicação dos modelos compatíveis com ONNX. O padrão é False. Para obter mais informações sobre o Open Neural Network Exchange (ONNX) e o Azure Machine Learning, consulte este artigo.
forecasting_parameters Necessário	ForecastingParameters Um objeto ForecastingParameters para armazenar todos os parâmetros específicos de previsão.
time_column_name Necessário	str O nome da coluna de tempo. Este parâmetro é necessário durante a previsão para especificar a coluna datetime nos dados de entrada usados para construir a série temporal e inferir sua frequência. Essa configuração está sendo preterida. Por favor, use forecasting_parameters em vez disso.
max_horizon Necessário	int O horizonte máximo de previsão desejado em unidades de frequência de séries cronológicas. O valor padrão é 1. As unidades são baseadas no intervalo de tempo dos seus dados de treinamento, por exemplo, mensalmente, semanalmente que o meteorologista deve prever. Quando o tipo de tarefa é previsão, esse parâmetro é necessário. Para obter mais informações sobre como definir parâmetros de previsão, consulte Treinar automaticamente um modelo de previsão de série temporal. Essa configuração está sendo preterida. Por favor, use forecasting_parameters em vez disso.
grain_column_names Necessário	str ou list(str) Os nomes das colunas usadas para agrupar uma série temporal. Ele pode ser usado para criar várias séries. Se o grão não estiver definido, o conjunto de dados é assumido como uma série temporal. Este parâmetro é usado com a previsão de tipo de tarefa. Essa configuração está sendo preterida. Por favor, use forecasting_parameters em vez disso.
target_lags Necessário	int ou list(int) O número de períodos anteriores com atraso em relação à coluna de destino. O padrão é 1. Essa configuração está sendo preterida. Por favor, use forecasting_parameters em vez disso. Durante a previsão, este parâmetro representa o número de linhas para defasar os valores de destino com base na frequência dos dados. Isso é representado como uma lista ou inteiro único. A defasagem deve ser usada quando a relação entre as variáveis independentes e a variável dependente não correspondem ou se correlacionam por padrão. Por exemplo, ao tentar prever a demanda por um produto, a demanda em qualquer mês pode depender do preço de mercadorias específicas 3 meses antes. Neste exemplo, você pode querer atrasar o alvo (demanda) negativamente em 3 meses para que o modelo esteja treinando sobre o relacionamento correto. Para obter mais informações, consulte Treinar automaticamente um modelo de previsão de séries temporais.
feature_lags Necessário	str Sinalizador para gerar atrasos para os recursos numéricos. Essa configuração está sendo preterida. Por favor, use forecasting_parameters em vez disso.
target_rolling_window_size Necessário	int O número de períodos passados usados para criar uma média de janela móvel da coluna de destino. Essa configuração está sendo preterida. Por favor, use forecasting_parameters em vez disso. Ao fazer a previsão, este parâmetro representa n períodos históricos a serem usados para gerar valores previstos, <= tamanho do conjunto de treinamento. Se omitido, n é o tamanho total do conjunto de treinamento. Especifique esse parâmetro quando quiser considerar apenas uma certa quantidade de histórico ao treinar o modelo.
country_or_region Necessário	str O país/região usado para gerar recursos de férias. Estes devem ser o código de país/região ISO 3166 de duas letras, por exemplo «EUA» ou «GB». Essa configuração está sendo preterida. Por favor, use forecasting_parameters em vez disso.
use_stl Necessário	str Configure a decomposição STL da coluna de destino da série temporal. use_stl pode tomar três valores: Nenhum (padrão) - sem decomposição stl, 'temporada' - apenas gerar componente de estação e season_trend - gerar componentes de estação e tendência. Essa configuração está sendo preterida. Por favor, use forecasting_parameters em vez disso.
seasonality Necessário	int ou str Defina a sazonalidade das séries cronológicas. Se a sazonalidade for definida como 'auto', ela será inferida. Essa configuração está sendo preterida. Por favor, use forecasting_parameters em vez disso.
short_series_handling_configuration Necessário	str O parâmetro que define como se AutoML deve lidar com séries temporais curtas. Valores possíveis: 'auto' (padrão), 'pad', 'drop' e Nenhum. As séries curtas automáticas serão acolchoadas se não houver séries longas, caso contrário, as séries curtas serão descartadas. Todas as séries curtas serão acolchoadas. todas as séries curtas serão abandonadas". Nenhuma das séries curtas não será modificada. Se definido como 'pad', a tabela será preenchida com os zeros e valores vazios para os regressores e valores aleatórios para o alvo com a média igual à mediana do valor-alvo para uma determinada série cronológica id. Se a mediana for maior ou igual a zero, o valor agregado mínimo será cortado por zero: Entrada: Data numeric_value string alvo 2020-01-01 23 verde 55 A saída assumindo um número mínimo de valores é quatro: Data numeric_value string alvo 2019-12-29 0 NA 55.1 2019-12-30 0 NA 55.6 2019-12-31 0 NA 54.5 2020-01-01 23 verde 55 Observação: Temos dois parâmetros short_series_handling_configuration e legados short_series_handling. Quando ambos os parâmetros são definidos, estamos sincronizando-os como mostrado na tabela abaixo (short_series_handling_configuration e short_series_handling para brevidade são marcados como handling_configuration e manipulação, respectivamente). manuseamento handling_configuration manuseamento resultante resultando handling_configuration Verdade automóvel Verdade automóvel Verdade almofada Verdade automóvel Verdade remover Verdade automóvel Verdade Nenhum Falso Nenhum Falso automóvel Falso Nenhum Falso almofada Falso Nenhum Falso remover Falso Nenhum Falso Nenhum Falso Nenhum
freq Necessário	str ou None Frequência de previsão. Ao fazer a previsão, este parâmetro representa o período com o qual a previsão é desejada, por exemplo, diariamente, semanalmente, anualmente, etc. A frequência de previsão é a frequência do conjunto de dados por padrão. Opcionalmente, você pode defini-lo como maior (mas não menor) do que a frequência do conjunto de dados. Vamos agregar os dados e gerar os resultados na frequência prevista. Por exemplo, para dados diários, você pode definir a frequência como diária, semanal ou mensal, mas não horária. A frequência precisa ser um alias de deslocamento de pandas. Consulte a documentação dos pandas para obter mais informações: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects
target_aggregation_function Necessário	str ou None A função a ser usada para agregar a coluna de destino da série temporal para estar em conformidade com uma frequência especificada pelo usuário. Se o target_aggregation_function estiver definido, mas o parâmetro freq não estiver definido, o erro será gerado. As possíveis funções de agregação de destino são: "soma", "máx", "min" e "média". freqüência target_aggregation_function Mecanismo de fixação da regularidade dos dados Nenhum (padrão) Nenhum (padrão) A agregação não é aplicada. Se a frequência válida não puder ser determinada, o erro será gerado. Algum valor Nenhum (padrão) A agregação não é aplicada. Se o número de pontos de dados em conformidade com determinada grelha de frequência for inferior a 90%these pontos serão removidos, caso contrário, o erro será gerado. Nenhum (padrão) Função de agregação O erro sobre o parâmetro de frequência ausenteé gerado. Algum valor Função de agregação Agregar à frequência usando a função de agregação fornecida.
enable_voting_ensemble Necessário	bool Se a iteração VotingEnsemble deve ser ativada/desabilitada. O padrão é True. Para obter mais informações sobre conjuntos, consulte Configuração do Ensemble.
enable_stack_ensemble Necessário	bool Se a iteração StackEnsemble deve ser ativada/desabilitada. O padrão é Nenhum. Se enable_onnx_compatible_models sinalizador estiver sendo definido, a iteração StackEnsemble será desabilitada. Da mesma forma, para tarefas de séries temporais, a iteração do StackEnsemble será desativada por padrão, para evitar riscos de sobreajuste devido ao pequeno conjunto de treinamento usado no ajuste do meta-aluno. Para obter mais informações sobre conjuntos, consulte Configuração do Ensemble.
debug_log Necessário	str O arquivo de log para gravar informações de depuração. Se não for especificado, utiliza-se «automl.log».
training_data Necessário	DataFrame ou Dataset ou DatasetDefinition ou TabularDataset Os dados de treinamento a serem usados dentro do experimento. Ele deve conter recursos de treinamento e uma coluna de rótulo (opcionalmente, uma coluna de pesos de amostra). Se `training_data` for especificado, o `label_column_name` parâmetro também deve ser especificado. `training_data` foi introduzido na versão 1.0.81.
validation_data Necessário	DataFrame ou Dataset ou DatasetDefinition ou TabularDataset Os dados de validação a utilizar na experiência. Ele deve conter recursos de treinamento e coluna de rótulo (opcionalmente, uma coluna de pesos de amostra). Se `validation_data` for especificado, então `training_data` e `label_column_name` os parâmetros devem ser especificados. `validation_data` foi introduzido na versão 1.0.81. Para obter mais informações, consulte Configurar divisões de dados e validação cruzada no aprendizado de máquina automatizado.
test_data Necessário	Dataset ou TabularDataset O recurso Teste de modelo usando conjuntos de dados de teste ou divisões de dados de teste é um recurso no estado de visualização e pode ser alterado a qualquer momento. Os dados de teste a serem usados para uma execução de teste que será iniciada automaticamente após a conclusão do treinamento do modelo. A execução do teste obterá previsões usando o melhor modelo e calculará métricas dadas essas previsões. Se este parâmetro ou o parâmetro não forem especificados, nenhuma execução de teste será executada automaticamente após a conclusão do `test_size` treinamento do modelo. Os dados de teste devem conter recursos e coluna de rótulo. Se `test_data` for especificado, então o `label_column_name` parâmetro deve ser especificado.
test_size Necessário	float O recurso Teste de modelo usando conjuntos de dados de teste ou divisões de dados de teste é um recurso no estado de visualização e pode ser alterado a qualquer momento. Qual fração dos dados de treinamento armazenar para dados de teste para uma execução de teste que será iniciada automaticamente após a conclusão do treinamento do modelo. A execução do teste obterá previsões usando o melhor modelo e calculará métricas dadas essas previsões. Isso deve ser entre 0,0 e 1,0 não inclusivo. Se `test_size` for especificado ao mesmo tempo que `validation_size`, os dados de teste serão divididos antes que os dados de validação sejam divididos `training_data` . Por exemplo, se `validation_size=0.1`, `test_size=0.1` e os dados de treinamento originais tiverem 1000 linhas, os dados de teste terão 100 linhas, os dados de validação conterão 90 linhas e os dados de treinamento terão 810 linhas. Para tarefas baseadas em regressão, é utilizada amostragem aleatória. Para as tarefas de classificação, utiliza-se a amostragem estratificada. Atualmente, a previsão não suporta a especificação de um conjunto de dados de teste usando uma divisão trem/teste. Se este parâmetro ou o parâmetro não forem especificados, nenhuma execução de teste será executada automaticamente após a conclusão do `test_data` treinamento do modelo.
label_column_name Necessário	Union[str, int] O nome da coluna do rótulo. Se os dados de entrada forem de um pandas. DataFrame que não tem nomes de coluna, índices de coluna podem ser usados em vez disso, expressos como inteiros. Este parâmetro é aplicável a `training_data`, `validation_data` e `test_data` parâmetros. `label_column_name` foi introduzido na versão 1.0.81.
weight_column_name Necessário	Union[str, int] O nome da coluna de peso da amostra. O ML automatizado suporta uma coluna ponderada como entrada, fazendo com que as linhas nos dados sejam ponderadas para cima ou para baixo. Se os dados de entrada forem de um pandas. DataFrame que não tem nomes de coluna, índices de coluna podem ser usados em vez disso, expressos como inteiros. Este parâmetro é aplicável a `training_data` e `validation_data` parâmetros. `weight_column_names` foi introduzido na versão 1.0.81.
cv_split_column_names Necessário	list(str) Lista de nomes das colunas que contêm divisão de validação cruzada personalizada. Cada uma das colunas divididas do CV representa uma divisão do CV em que cada linha está marcada com 1 para formação ou 0 para validação. Este parâmetro é aplicável ao `training_data` parâmetro para fins de validação cruzada personalizada. `cv_split_column_names` foi introduzido na versão 1.6.0 Use um ou `cv_split_column_namescv_splits_indices`. Para obter mais informações, consulte Configurar divisões de dados e validação cruzada no aprendizado de máquina automatizado.
enable_local_managed Necessário	bool Parâmetro desativado. As execuções gerenciadas locais não podem ser habilitadas no momento.
enable_dnn Necessário	bool Se os modelos baseados em DNN devem ser incluídos durante a seleção do modelo. O padrão no init é Nenhum. No entanto, o padrão é True para tarefas de NLP DNN e é False para todas as outras tarefas AutoML.
task Necessário	str ou Tasks O tipo de tarefa a ser executada. Os valores podem ser 'classificação', 'regressão' ou 'previsão', dependendo do tipo de problema de ML automatizado a ser resolvido.
path Necessário	str O caminho completo para a pasta do projeto do Azure Machine Learning. Se não for especificado, o padrão é usar o diretório atual ou ".".
iterations Necessário	int O número total de diferentes combinações de algoritmos e parâmetros a serem testadas durante um experimento automatizado de ML. Se não for especificado, o padrão é 1000 iterações.
primary_metric Necessário	str ou Metric A métrica que o Automated Machine Learning otimizará para a seleção de modelos. O Machine Learning automatizado coleta mais métricas do que pode otimizar. Você pode usar get_primary_metrics para obter uma lista de métricas válidas para sua determinada tarefa. Para obter mais informações sobre como as métricas são calculadas, consulte https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. Se não for especificado, a precisão é usada para tarefas de classificação, a raiz normalizada média ao quadrado é usada para tarefas de previsão e regressão, a precisão é usada para classificação de imagem e classificação de vários rótulos de imagem e a precisão média média é usada para deteção de objetos de imagem.
positive_label Necessário	Any O rótulo de classe positiva que o Automated Machine Learning usará para calcular métricas binárias. As métricas binárias são calculadas em duas condições para tarefas de classificação: A coluna label consiste em duas classes indicando a tarefa de classificação binária AutoML usará classe positiva especificada quando positive_label for passada, caso contrário, AutoML escolherá uma classe positiva com base no valor codificado de rótulo. Tarefa de classificação de várias classes com positive_label especificado Para obter mais informações sobre classificação, verifique as métricas para cenários de classificação.
compute_target Necessário	AbstractComputeTarget O destino de computação do Azure Machine Learning no qual executar o experimento do Automated Machine Learning. Consulte https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote para obter mais informações sobre destinos de computação.
spark_context Necessário	<xref:SparkContext> O contexto do Spark. Aplicável apenas quando usado dentro do ambiente Azure Databricks/Spark.
X Necessário	DataFrame ou ndarray ou Dataset ou DatasetDefinition ou TabularDataset Os recursos de treinamento devem ser usados ao encaixar tubulações durante um experimento. Essa configuração está sendo preterida. Por favor, use training_data e label_column_name em vez disso.
y Necessário	DataFrame ou ndarray ou Dataset ou DatasetDefinition ou TabularDataset As etiquetas de treinamento a serem usadas ao encaixar tubulações durante um experimento. Este é o valor que o seu modelo irá prever. Essa configuração está sendo preterida. Por favor, use training_data e label_column_name em vez disso.
sample_weight Necessário	DataFrame ou ndarray ou TabularDataset O peso a atribuir a cada amostra de treino ao executar condutas de ajuste, cada linha deve corresponder a uma linha nos dados X e y. Especifique este parâmetro ao especificar `X`. Essa configuração está sendo preterida. Por favor, use training_data e weight_column_name em vez disso.
X_valid Necessário	DataFrame ou ndarray ou Dataset ou DatasetDefinition ou TabularDataset Recursos de validação a serem usados ao ajustar pipelines durante um experimento. Se especificado, então `y_valid` ou `sample_weight_valid` também deve ser especificado. Essa configuração está sendo preterida. Por favor, use validation_data e label_column_name em vez disso.
y_valid Necessário	DataFrame ou ndarray ou Dataset ou DatasetDefinition ou TabularDataset Etiquetas de validação para usar ao encaixar tubulações durante um experimento. Ambos `X_valid` e `y_valid` devem ser especificados em conjunto. Essa configuração está sendo preterida. Por favor, use validation_data e label_column_name em vez disso.
sample_weight_valid Necessário	DataFrame ou ndarray ou TabularDataset O peso a atribuir a cada amostra de validação ao executar pipelines de pontuação, cada linha deve corresponder a uma linha nos dados X e y. Especifique este parâmetro ao especificar `X_valid`. Essa configuração está sendo preterida. Por favor, use validation_data e weight_column_name em vez disso.
cv_splits_indices Necessário	List[List[ndarray]] Índices onde dividir os dados de treinamento para validação cruzada. Cada linha é uma dobra cruzada separada e, dentro de cada dobra cruzada, fornece 2 matrizes numpy, a primeira com os índices para amostras a serem usadas para dados de treinamento e a segunda com os índices para usar para dados de validação. ou seja, [[t1, v1], [t2, v2], ...] onde t1 são os índices de treino para a primeira dobra cruzada e v1 são os índices de validação para a primeira dobra cruzada. Esta opção é suportada quando os dados são passados como conjunto de dados Recursos separado e coluna Rótulo. Para especificar dados existentes como dados de validação, use `validation_data`. Para permitir que o AutoML extraia dados de validação dos dados de treinamento, especifique um `n_cross_validations` ou `validation_size`. Use `cv_split_column_names` se você tiver coluna(s) de validação cruzada no `training_data`.
validation_size Necessário	float Qual fração dos dados deve ser mantida para validação quando os dados de validação do usuário não são especificados. Isso deve ser entre 0,0 e 1,0 não inclusivo. Especifique `validation_data` para fornecer dados de validação, definir `n_cross_validations` ou `validation_size` extrair dados de validação dos dados de treinamento especificados. Para dobra de validação cruzada personalizada, use `cv_split_column_names`. Para obter mais informações, consulte Configurar divisões de dados e validação cruzada no aprendizado de máquina automatizado.
n_cross_validations Necessário	int ou str Quantas validações cruzadas devem ser executadas quando os dados de validação do usuário não são especificados. Especifique `validation_data` para fornecer dados de validação, definir `n_cross_validations` ou `validation_size` extrair dados de validação dos dados de treinamento especificados. Para dobra de validação cruzada personalizada, use `cv_split_column_names`. Para obter mais informações, consulte Configurar divisões de dados e validação cruzada no aprendizado de máquina automatizado.
y_min Necessário	float Valor mínimo de y para um experimento de regressão. A combinação de e `y_min` são usados para normalizar as métricas do conjunto de testes com base no intervalo de dados de `y_max` entrada. Essa configuração está sendo preterida. Em vez disso, esse valor será calculado a partir dos dados.
y_max Necessário	float Valor máximo de y para uma experiência de regressão. A combinação de e `y_min` são usados para normalizar as métricas do conjunto de testes com base no intervalo de dados de `y_max` entrada. Essa configuração está sendo preterida. Em vez disso, esse valor será calculado a partir dos dados.
num_classes Necessário	int O número de classes nos dados do rótulo para um experimento de classificação. Essa configuração está sendo preterida. Em vez disso, esse valor será calculado a partir dos dados.
featurization Necessário	str ou FeaturizationConfig 'auto' / 'off' / FeaturizationConfig Indicador para saber se a etapa de featurização deve ser feita automaticamente ou não, ou se a featurização personalizada deve ser usada. Nota: Se os dados de entrada forem escassos, a featurização não pode ser ativada. O tipo de coluna é detetado automaticamente. Com base no tipo de coluna detetado, o pré-processamento/featurização é feito da seguinte forma: Categórico: Codificação de destino, uma codificação quente, descartar categorias de cardinalidade alta, imputar valores ausentes. Numérico: imputar valores em falta, distância do agrupamento, ponderação da prova. DateTime: Vários recursos como dia, segundos, minutos, horas etc. Texto: Saco de palavras, incorporação de palavras pré-treinada, codificação de destino de texto. Mais detalhes podem ser encontrados no artigo Configurar experimentos automatizados de ML em Python. Para personalizar a etapa de featurização, forneça um objeto FeaturizationConfig. Atualmente, a featurização personalizada suporta o bloqueio de um conjunto de transformadores, a atualização da finalidade da coluna, a edição dos parâmetros do transformador e a queda de colunas. Para obter mais informações, consulte Personalizar engenharia de recursos. Nota: Os recursos de séries cronológicas são tratados separadamente quando o tipo de tarefa é definido como previsão, independentemente desse parâmetro.
max_cores_per_iteration Necessário	int O número máximo de threads a serem usados para uma determinada iteração de treinamento. Valores aceitáveis: Maior que 1 e menor ou igual ao número máximo de núcleos no destino de computação. Igual a -1, o que significa usar todos os núcleos possíveis por iteração por child-run. Igual a 1, o valor padrão.
max_concurrent_iterations Necessário	int Representa o número máximo de iterações que seriam executadas em paralelo. O valor padrão é 1. Os clusters AmlCompute suportam uma interação em execução por nó. Para vários experimentos executados em paralelo em um único cluster AmlCompute, a `max_concurrent_iterations` soma dos valores para todos os experimentos deve ser menor ou igual ao número máximo de nós. A DSVM suporta várias iterações por nó. `max_concurrent_iterations` deve ser menor ou igual ao número de núcleos na DSVM. Para vários experimentos executados em paralelo em uma única DSVM, a soma dos `max_concurrent_iterations` valores para todos os experimentos deve ser menor ou igual ao número máximo de nós. Databricks - `max_concurrent_iterations` deve ser menor ou igual ao número de nós de trabalho no Databricks. `max_concurrent_iterations` não se aplica a execuções locais. Anteriormente, esse parâmetro era chamado `concurrent_iterations`de .
iteration_timeout_minutes Necessário	int Tempo máximo em minutos que cada iteração pode ser executada antes de terminar. Se não for especificado, é utilizado um valor de 1 mês ou 43200 minutos.
mem_in_mb Necessário	int Uso máximo de memória para o qual cada iteração pode ser executada antes de terminar. Se não for especificado, será utilizado um valor de 1 PB ou 1073741824 MB.
enforce_time_on_windows Necessário	bool Se deve impor um limite de tempo no treinamento do modelo em cada iteração no Windows. O padrão é True. Se estiver sendo executado a partir de um arquivo de script Python (.py), consulte a documentação para permitir limites de recursos no Windows.
experiment_timeout_hours Necessário	float Quantidade máxima de tempo, em horas, que todas as iterações combinadas podem levar antes que o experimento termine. Pode ser um valor decimal como 0,25 representando 15 minutos. Se não for especificado, o tempo limite padrão do experimento será de 6 dias. Para especificar um tempo limite menor ou igual a 1 hora, verifique se o tamanho do conjunto de dados não é maior que 10.000.000 (coluna de tempos de linha) ou se um erro resulta.
experiment_exit_score Necessário	float Pontuação alvo para experimento. O experimento termina depois que essa pontuação é atingida. Se não for especificado (sem critério), o experimento será executado até que nenhum progresso adicional seja feito na métrica primária. Para obter mais informações sobre os critérios de saída, consulte este >>`article` https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#exit-criteria'_.<<
enable_early_stopping Necessário	bool Se deve permitir a rescisão antecipada se a pontuação não estiver melhorando no curto prazo. O padrão é True. Lógica de paragem precoce: Nenhuma parada antecipada para as primeiras 20 iterações (pontos de referência). A janela de parada antecipada começa na 21ª iteração e procura early_stopping_n_iters iterações (atualmente definidas como 10). Isso significa que a primeira iteração em que a parada pode ocorrer é a 31ª. O AutoML ainda agenda 2 iterações de conjunto APÓS a parada antecipada, o que pode resultar em pontuações mais altas. A parada antecipada é acionada se o valor absoluto da melhor pontuação calculada for o mesmo para iterações early_stopping_n_iters passadas, ou seja, se não houver melhoria na pontuação para early_stopping_n_iters iterações.
blocked_models Necessário	list(str) ou list(Classification) <xref:for classification task> ou list(Regression) <xref:for regression task> ou list(Forecasting) <xref:for forecasting task> Uma lista de algoritmos a serem ignorados para um experimento. Se `enable_tf` for False, os modelos do TensorFlow serão incluídos no `blocked_models`.
blacklist_models Necessário	list(str) ou list(Classification) <xref:for classification task> ou list(Regression) <xref:for regression task> ou list(Forecasting) <xref:for forecasting task> Parâmetro preterido, use blocked_models em vez disso.
exclude_nan_labels Necessário	bool Se as linhas com valores NaN devem ser excluídas no rótulo. O padrão é True.
verbosity Necessário	int O nível de verbosidade para gravar no arquivo de log. O padrão é INFO ou 20. Os valores aceitáveis são definidos na biblioteca de log do Python.
enable_tf Necessário	bool Se os algoritmos TensorFlow devem ser habilitados/desativados. O padrão é False.
model_explainability Necessário	bool Se deseja habilitar a explicação do melhor modelo de AutoML no final de todas as iterações de treinamento do AutoML. O padrão é True. Para obter mais informações, consulte Interpretabilidade: explicações de modelo em aprendizado de máquina automatizado.
allowed_models Necessário	list(str) ou list(Classification) <xref:for classification task> ou list(Regression) <xref:for regression task> ou list(Forecasting) <xref:for forecasting task> Uma lista de nomes de modelos para procurar um experimento. Se não for especificado, todos os modelos suportados para a tarefa serão usados menos quaisquer modelos TensorFlow especificados `blocked_models` ou preteridos. Os modelos suportados SupportedModels para cada tipo de tarefa são descritos na classe.
allowed_models Necessário	Uma lista de nomes de modelos para procurar um experimento. Se não for especificado, todos os modelos suportados para a tarefa serão usados menos quaisquer modelos TensorFlow especificados `blocked_models` ou preteridos. Os modelos suportados SupportedModels para cada tipo de tarefa são descritos na classe.
whitelist_models Necessário	Parâmetro preterido, use allowed_models em vez disso.
enable_onnx_compatible_models Necessário	bool Se deseja habilitar ou desabilitar a aplicação dos modelos compatíveis com ONNX. O padrão é False. Para obter mais informações sobre o Open Neural Network Exchange (ONNX) e o Azure Machine Learning, consulte este artigo.
forecasting_parameters Necessário	ForecastingParameters Um objeto para armazenar todos os parâmetros específicos de previsão.
time_column_name Necessário	str O nome da coluna de tempo. Este parâmetro é necessário durante a previsão para especificar a coluna datetime nos dados de entrada usados para construir a série temporal e inferir sua frequência. Essa configuração está sendo preterida. Por favor, use forecasting_parameters em vez disso.
max_horizon Necessário	int O horizonte máximo de previsão desejado em unidades de frequência de séries cronológicas. O valor padrão é 1. Essa configuração está sendo preterida. Por favor, use forecasting_parameters em vez disso. As unidades são baseadas no intervalo de tempo dos seus dados de treinamento, por exemplo, mensalmente, semanalmente que o meteorologista deve prever. Quando o tipo de tarefa é previsão, esse parâmetro é necessário. Para obter mais informações sobre como definir parâmetros de previsão, consulte Treinar automaticamente um modelo de previsão de série temporal.
grain_column_names Necessário	str ou list(str) Os nomes das colunas usadas para agrupar uma série temporal. Ele pode ser usado para criar várias séries. Se o grão não estiver definido, o conjunto de dados é assumido como uma série temporal. Este parâmetro é usado com a previsão de tipo de tarefa. Essa configuração está sendo preterida. Por favor, use forecasting_parameters em vez disso.
target_lags Necessário	int ou list(int) O número de períodos anteriores com atraso em relação à coluna de destino. O padrão é 1. Essa configuração está sendo preterida. Por favor, use forecasting_parameters em vez disso. Durante a previsão, este parâmetro representa o número de linhas para defasar os valores de destino com base na frequência dos dados. Isso é representado como uma lista ou inteiro único. A defasagem deve ser usada quando a relação entre as variáveis independentes e a variável dependente não correspondem ou se correlacionam por padrão. Por exemplo, ao tentar prever a demanda por um produto, a demanda em qualquer mês pode depender do preço de mercadorias específicas 3 meses antes. Neste exemplo, você pode querer atrasar o alvo (demanda) negativamente em 3 meses para que o modelo esteja treinando sobre o relacionamento correto. Para obter mais informações, consulte Treinar automaticamente um modelo de previsão de séries temporais.
feature_lags Necessário	str Sinalizador para gerar atrasos para os recursos numéricos. Essa configuração está sendo preterida. Por favor, use forecasting_parameters em vez disso.
target_rolling_window_size Necessário	int O número de períodos passados usados para criar uma média de janela móvel da coluna de destino. Essa configuração está sendo preterida. Por favor, use forecasting_parameters em vez disso. Ao fazer a previsão, este parâmetro representa n períodos históricos a serem usados para gerar valores previstos, <= tamanho do conjunto de treinamento. Se omitido, n é o tamanho total do conjunto de treinamento. Especifique esse parâmetro quando quiser considerar apenas uma certa quantidade de histórico ao treinar o modelo.
country_or_region Necessário	str O país/região usado para gerar recursos de férias. Estes devem ser códigos de país/região ISO 3166 de duas letras, por exemplo "EUA" ou "GB". Essa configuração está sendo preterida. Por favor, use forecasting_parameters em vez disso.
use_stl Necessário	str Configure a decomposição STL da coluna de destino da série temporal. use_stl pode tomar três valores: Nenhum (padrão) - sem decomposição stl, 'temporada' - apenas gerar componente de estação e season_trend - gerar componentes de estação e tendência. Essa configuração está sendo preterida. Por favor, use forecasting_parameters em vez disso.
seasonality Necessário	int Defina a sazonalidade das séries cronológicas. Se a sazonalidade for definida como -1, será inferida. Se use_stl não estiver definido, esse parâmetro não será usado. Essa configuração está sendo preterida. Por favor, use forecasting_parameters em vez disso.
short_series_handling_configuration Necessário	str O parâmetro que define como se AutoML deve lidar com séries temporais curtas. Valores possíveis: 'auto' (padrão), 'pad', 'drop' e Nenhum. As séries curtas automáticas serão acolchoadas se não houver séries longas, caso contrário, as séries curtas serão descartadas. Todas as séries curtas serão acolchoadas. todas as séries curtas serão abandonadas". Nenhuma das séries curtas não será modificada. Se definido como 'pad', a tabela será preenchida com os zeros e valores vazios para os regressores e valores aleatórios para o alvo com a média igual à mediana do valor-alvo para uma determinada série cronológica id. Se a mediana for maior ou igual a zero, o valor agregado mínimo será cortado por zero: Entrada: Data numeric_value string alvo 2020-01-01 23 verde 55 A saída assumindo um número mínimo de valores é quatro: +————+—————+———-+——–+ \| Data \| numeric_value \| corda \| público-alvo \| +============+===============+==========+========+ \| 2019-12-29 \| 0 \| NA \| 55,1 \| +————+—————+———-+——–+ \| 2019-12-30 \| 0 \| NA \| 55,6 \| +————+—————+———-+——–+ \| 2019-12-31 \| 0 \| NA \| 54,5 \| +————+—————+———-+——–+ \| 2020-01-01 \| 23 \| verde \| 55º º +————+—————+———-+——–+ Observação: Temos dois parâmetros short_series_handling_configuration e legados short_series_handling. Quando ambos os parâmetros são definidos, estamos sincronizando-os como mostrado na tabela abaixo (short_series_handling_configuration e short_series_handling para brevidade são marcados como handling_configuration e manipulação, respectivamente). manuseamento handling_configuration manuseamento resultante resultando handling_configuration Verdade automóvel Verdade automóvel Verdade almofada Verdade automóvel Verdade remover Verdade automóvel Verdade Nenhum Falso Nenhum Falso automóvel Falso Nenhum Falso almofada Falso Nenhum Falso remover Falso Nenhum Falso Nenhum Falso Nenhum
freq Necessário	str ou None Frequência de previsão. Ao fazer a previsão, este parâmetro representa o período com o qual a previsão é desejada, por exemplo, diariamente, semanalmente, anualmente, etc. A frequência de previsão é a frequência do conjunto de dados por padrão. Opcionalmente, você pode defini-lo como maior (mas não menor) do que a frequência do conjunto de dados. Vamos agregar os dados e gerar os resultados na frequência prevista. Por exemplo, para dados diários, você pode definir a frequência como diária, semanal ou mensal, mas não horária. A frequência precisa ser um alias de deslocamento de pandas. Consulte a documentação dos pandas para obter mais informações: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects
target_aggregation_function Necessário	str ou None A função a ser usada para agregar a coluna de destino da série temporal para estar em conformidade com uma frequência especificada pelo usuário. Se o target_aggregation_function estiver definido, mas o parâmetro freq não estiver definido, o erro será gerado. As possíveis funções de agregação de destino são: "soma", "máx", "min" e "média". freqüência target_aggregation_function Mecanismo de fixação da regularidade dos dados Nenhum (padrão) Nenhum (padrão) A agregação não é aplicada. Se a frequência válida não puder ser determinada, o erro será gerado. Algum valor Nenhum (padrão) A agregação não é aplicada. Se o número de pontos de dados em conformidade com determinada grelha de frequência for inferior a 90%these pontos serão removidos, caso contrário, o erro será gerado. Nenhum (padrão) Função de agregação O erro sobre o parâmetro de frequência ausenteé gerado. Algum valor Função de agregação Agregar à frequência usando a função de agregação fornecida.
enable_voting_ensemble Necessário	bool Se a iteração VotingEnsemble deve ser ativada/desabilitada. O padrão é True. Para obter mais informações sobre conjuntos, consulte Configuração do Ensemble.
enable_stack_ensemble Necessário	bool Se a iteração StackEnsemble deve ser ativada/desabilitada. O padrão é Nenhum. Se enable_onnx_compatible_models sinalizador estiver sendo definido, a iteração StackEnsemble será desabilitada. Da mesma forma, para tarefas de séries temporais, a iteração do StackEnsemble será desativada por padrão, para evitar riscos de sobreajuste devido ao pequeno conjunto de treinamento usado no ajuste do meta-aluno. Para obter mais informações sobre conjuntos, consulte Configuração do Ensemble.
debug_log Necessário	str O arquivo de log para gravar informações de depuração. Se não for especificado, utiliza-se «automl.log».
training_data Necessário	DataFrame ou Dataset ou DatasetDefinition ou TabularDataset Os dados de treinamento a serem usados dentro do experimento. Ele deve conter recursos de treinamento e uma coluna de rótulo (opcionalmente, uma coluna de pesos de amostra). Se `training_data` for especificado, o `label_column_name` parâmetro também deve ser especificado. `training_data` foi introduzido na versão 1.0.81.
validation_data Necessário	DataFrame ou Dataset ou DatasetDefinition ou TabularDataset Os dados de validação a utilizar na experiência. Ele deve conter recursos de treinamento e coluna de rótulo (opcionalmente, uma coluna de pesos de amostra). Se `validation_data` for especificado, então `training_data` e `label_column_name` os parâmetros devem ser especificados. `validation_data` foi introduzido na versão 1.0.81. Para obter mais informações, consulte Configurar divisões de dados e validação cruzada no aprendizado de máquina automatizado.
test_data Necessário	Dataset ou TabularDataset O recurso Teste de modelo usando conjuntos de dados de teste ou divisões de dados de teste é um recurso no estado de visualização e pode ser alterado a qualquer momento. Os dados de teste a serem usados para uma execução de teste que será iniciada automaticamente após a conclusão do treinamento do modelo. A execução do teste obterá previsões usando o melhor modelo e calculará métricas dadas essas previsões. Se este parâmetro ou o parâmetro não forem especificados, nenhuma execução de teste será executada automaticamente após a conclusão do `test_size` treinamento do modelo. Os dados de teste devem conter recursos e coluna de rótulo. Se `test_data` for especificado, então o `label_column_name` parâmetro deve ser especificado.
test_size Necessário	float O recurso Teste de modelo usando conjuntos de dados de teste ou divisões de dados de teste é um recurso no estado de visualização e pode ser alterado a qualquer momento. Qual fração dos dados de treinamento armazenar para dados de teste para uma execução de teste que será iniciada automaticamente após a conclusão do treinamento do modelo. A execução do teste obterá previsões usando o melhor modelo e calculará métricas dadas essas previsões. Isso deve ser entre 0,0 e 1,0 não inclusivo. Se `test_size` for especificado ao mesmo tempo que `validation_size`, os dados de teste serão divididos antes que os dados de validação sejam divididos `training_data` . Por exemplo, se `validation_size=0.1`, `test_size=0.1` e os dados de treinamento originais tiverem 1000 linhas, os dados de teste terão 100 linhas, os dados de validação conterão 90 linhas e os dados de treinamento terão 810 linhas. Para tarefas baseadas em regressão, é utilizada amostragem aleatória. Para as tarefas de classificação, utiliza-se a amostragem estratificada. Atualmente, a previsão não suporta a especificação de um conjunto de dados de teste usando uma divisão trem/teste. Se este parâmetro ou o parâmetro não forem especificados, nenhuma execução de teste será executada automaticamente após a conclusão do `test_data` treinamento do modelo.
label_column_name Necessário	Union[str, int] O nome da coluna do rótulo. Se os dados de entrada forem de um pandas. DataFrame que não tem nomes de coluna, índices de coluna podem ser usados em vez disso, expressos como inteiros. Este parâmetro é aplicável a `training_data`, `validation_data` e `test_data` parâmetros. `label_column_name` foi introduzido na versão 1.0.81.
weight_column_name Necessário	Union[str, int] O nome da coluna de peso da amostra. O ML automatizado suporta uma coluna ponderada como entrada, fazendo com que as linhas nos dados sejam ponderadas para cima ou para baixo. Se os dados de entrada forem de um pandas. DataFrame que não tem nomes de coluna, índices de coluna podem ser usados em vez disso, expressos como inteiros. Este parâmetro é aplicável a `training_data` e `validation_data` parâmetros. `weight_column_names` foi introduzido na versão 1.0.81.
cv_split_column_names Necessário	list(str) Lista de nomes das colunas que contêm divisão de validação cruzada personalizada. Cada uma das colunas divididas do CV representa uma divisão do CV em que cada linha está marcada com 1 para formação ou 0 para validação. Este parâmetro é aplicável ao `training_data` parâmetro para fins de validação cruzada personalizada. `cv_split_column_names` foi introduzido na versão 1.6.0 Use um ou `cv_split_column_namescv_splits_indices`. Para obter mais informações, consulte Configurar divisões de dados e validação cruzada no aprendizado de máquina automatizado.
enable_local_managed Necessário	bool Parâmetro desativado. As execuções gerenciadas locais não podem ser habilitadas no momento.
enable_dnn Necessário	bool Se os modelos baseados em DNN devem ser incluídos durante a seleção do modelo. O padrão no init é Nenhum. No entanto, o padrão é True para tarefas de NLP DNN e é False para todas as outras tarefas AutoML.

Observações

O código a seguir mostra um exemplo básico de criação de um objeto AutoMLConfig e envio de um experimento para regressão:


   automl_settings = {
       "n_cross_validations": 3,
       "primary_metric": 'r2_score',
       "enable_early_stopping": True,
       "experiment_timeout_hours": 1.0,
       "max_concurrent_iterations": 4,
       "max_cores_per_iteration": -1,
       "verbosity": logging.INFO,
   }

   automl_config = AutoMLConfig(task = 'regression',
                               compute_target = compute_target,
                               training_data = train_data,
                               label_column_name = label,
                               **automl_settings
                               )

   ws = Workspace.from_config()
   experiment = Experiment(ws, "your-experiment-name")
   run = experiment.submit(automl_config, show_output=True)

Uma amostra completa está disponível em Regressão

Exemplos de uso do AutoMLConfig para previsão estão nestes blocos de anotações:

Exemplos de uso do AutoMLConfig para todos os tipos de tarefas podem ser encontrados nesses blocos de anotações de ML automatizados.

Para obter informações básicas sobre ML automatizado, consulte os artigos:

Como definir uma tarefa de aprendizado de máquina
Configure experimentos automatizados de ML em Python. Neste artigo, há informações sobre os diferentes algoritmos e métricas primárias usadas para cada tipo de tarefa.
Treine automaticamente um modelo de previsão de séries temporais. Neste artigo, há informações sobre quais parâmetros do construtor e **kwargs são usados na previsão.

Para obter mais informações sobre diferentes opções para configurar divisões de dados de treinamento/validação e validação cruzada para seu aprendizado de máquina automatizado, AutoML, experimentos, consulte Configurar divisões de dados e validação cruzada no aprendizado de máquina automatizado.

Métodos

as_serializable_dict	Converta o objeto em dicionário.
get_supported_dataset_languages	Obtenha idiomas suportados e seus códigos de idioma correspondentes na ISO 639-3.

as_serializable_dict

Converta o objeto em dicionário.

as_serializable_dict() -> Dict[str, Any]

get_supported_dataset_languages

Obtenha idiomas suportados e seus códigos de idioma correspondentes na ISO 639-3.

get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]

Parâmetros

Name	Description
cls Necessário	Objeto de classe de AutoMLConfig.
use_gpu Necessário	Boolean Indicando se a computação da GPU está sendo usada ou não.

Devoluções

Tipo	Description
	dicionário de formato {<language code>: <language name>}. Código de idioma adere à norma ISO 639-3, consulte https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes

Feedback

Esta página foi útil?

Partilhar via

AutoMLConfig Classe

Construtor

Parâmetros

Observações

Métodos

as_serializable_dict

get_supported_dataset_languages

Parâmetros

Devoluções

Feedback