AutoMLConfig Classe

Representa a configuração para enviar um experimento de ML automatizado no Azure Machine Learning.

Esse objeto de configuração contém e persiste os parâmetros para configurar a execução do experimento, bem como os dados de treinamento a serem usados em tempo de execução. Para obter diretrizes sobre como selecionar suas configurações, consulte https://aka.ms/AutoMLConfig.

Crie uma AutoMLConfig.

Construtor

AutoMLConfig(task: str, path: str | None = None, iterations: int | None = None, primary_metric: str | None = None, positive_label: Any | None = None, compute_target: Any | None = None, spark_context: Any | None = None, X: Any | None = None, y: Any | None = None, sample_weight: Any | None = None, X_valid: Any | None = None, y_valid: Any | None = None, sample_weight_valid: Any | None = None, cv_splits_indices: List[List[Any]] | None = None, validation_size: float | None = None, n_cross_validations: int | str | None = None, y_min: float | None = None, y_max: float | None = None, num_classes: int | None = None, featurization: str | FeaturizationConfig = 'auto', max_cores_per_iteration: int = 1, max_concurrent_iterations: int = 1, iteration_timeout_minutes: int | None = None, mem_in_mb: int | None = None, enforce_time_on_windows: bool = True, experiment_timeout_hours: float | None = None, experiment_exit_score: float | None = None, enable_early_stopping: bool = True, blocked_models: List[str] | None = None, blacklist_models: List[str] | None = None, exclude_nan_labels: bool = True, verbosity: int = 20, enable_tf: bool = False, model_explainability: bool = True, allowed_models: List[str] | None = None, whitelist_models: List[str] | None = None, enable_onnx_compatible_models: bool = False, enable_voting_ensemble: bool = True, enable_stack_ensemble: bool | None = None, debug_log: str = 'automl.log', training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None, test_size: float | None = None, label_column_name: str | None = None, weight_column_name: str | None = None, cv_split_column_names: List[str] | None = None, enable_local_managed: bool = False, enable_dnn: bool | None = None, forecasting_parameters: ForecastingParameters | None = None, **kwargs: Any)

Parâmetros

Nome	Description
task Obrigatório	str ou Tasks O tipo de tarefa a ser executada. Os valores podem ser "classificação", "regressão" ou "previsão", dependendo do tipo de problema de ML automatizado a ser resolvido.
path Obrigatório	str O caminho completo para a pasta de projeto do Azure Machine Learning. Se não for especificado, o padrão é usar o diretório atual ou ".".
iterations Obrigatório	int O número total de diferentes combinações de algoritmos e parâmetros a serem testadas durante um experimento de ML automatizado. Se não for especificado, o padrão é 1000 iterações.
primary_metric Obrigatório	str ou Metric A métrica que o Machine Learning Automatizado otimizará para seleção de modelo. O Machine Learning automatizado coleta mais métricas do que pode otimizar. Você pode usar get_primary_metrics para obter uma lista de métricas válidas para a tarefa fornecida. Para obter mais informações sobre como as métricas são calculadas, consulte https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. Se não for especificado, a precisão será usada para tarefas de classificação, a média de raiz normalizada ao quadrado é usada para tarefas de previsão e regressão, a precisão é usada para classificação de imagem e classificação de vários rótulos de imagem e a precisão média média é usada para detecção de objetos de imagem.
positive_label Obrigatório	Any O rótulo de classe positivo que o Machine Learning Automatizado usará para calcular as métricas binárias. As métricas binárias são calculadas em duas condições para tarefas de classificação: A coluna de rótulo consiste em duas classes que indicam que a tarefa de classificação binária AutoML usará a classe positiva especificada quando positive_label for passada, caso contrário, o AutoML escolherá uma classe positiva com base no valor codificado pelo rótulo. tarefa de classificação de várias classes com positive_label especificado Para obter mais informações sobre classificação, métricas de check-out para cenários de classificação.
compute_target Obrigatório	AbstractComputeTarget O destino de computação do Azure Machine Learning no qual executar o experimento do Machine Learning Automatizado. Confira https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml#local-remote mais informações sobre destinos de computação.
spark_context Obrigatório	<xref:SparkContext> O contexto do Spark. Aplicável somente quando usado dentro do ambiente do Azure Databricks/Spark.
X Obrigatório	DataFrame ou ndarray ou Dataset ou TabularDataset Os recursos de treinamento a serem usados ao ajustar pipelines durante um experimento. Essa configuração está sendo preterida. Em vez disso, use training_data e label_column_name.
y Obrigatório	DataFrame ou ndarray ou Dataset ou TabularDataset Os rótulos de treinamento a serem usados ao ajustar pipelines durante um experimento. Esse é o valor que seu modelo preverá. Essa configuração está sendo preterida. Em vez disso, use training_data e label_column_name.
sample_weight Obrigatório	DataFrame ou ndarray ou TabularDataset O peso a ser dado a cada exemplo de treinamento ao executar pipelines de ajuste, cada linha deve corresponder a uma linha em dados X e y. Especifique `X`esse parâmetro ao especificar . Essa configuração está sendo preterida. Em vez disso, use training_data e weight_column_name.
X_valid Obrigatório	DataFrame ou ndarray ou Dataset ou TabularDataset Recursos de validação a serem usados ao ajustar pipelines durante um experimento. Se especificado, então `y_valid` ou `sample_weight_valid` também deve ser especificado. Essa configuração está sendo preterida. Use validation_data e label_column_name em vez disso.
y_valid Obrigatório	DataFrame ou ndarray ou Dataset ou TabularDataset Rótulos de validação a serem usados ao ajustar pipelines durante um experimento. Ambos `X_valid` e `y_valid` devem ser especificados juntos. Essa configuração está sendo preterida. Use validation_data e label_column_name em vez disso.
sample_weight_valid Obrigatório	DataFrame ou ndarray ou TabularDataset O peso a ser dado a cada exemplo de validação ao executar pipelines de pontuação, cada linha deve corresponder a uma linha em dados X e y. Especifique `X_valid`esse parâmetro ao especificar . Essa configuração está sendo preterida. Em vez disso, use validation_data e weight_column_name.
cv_splits_indices Obrigatório	List[List[ndarray]] Índices em que os dados de treinamento serão divididos para validação cruzada. Cada linha é uma dobra cruzada separada e, dentro de cada dobra cruzada, fornece duas matrizes numpy, a primeira com os índices para exemplos a serem usados para dados de treinamento e o segundo com os índices a serem usados para os dados de validação. ou seja, [[t1, v1], [t2, v2], ...] onde t1 é o índice de treinamento para a primeira dobra cruzada e v1 é o índice de validação para a primeira dobra cruzada. Para especificar dados existentes como dados de validação, use `validation_data`. Para permitir que o AutoML extraia dados de validação dos dados de treinamento, especifique um `n_cross_validations` ou `validation_size`. Use `cv_split_column_names` se você tiver colunas de validação cruzada em `training_data`.
validation_size Obrigatório	float Qual fração dos dados a serem armazenados para validação quando os dados de validação do usuário não forem especificados. Isso deve estar entre 0.0 e 1.0 não inclusivo. Especifique `validation_data` para fornecer dados de validação, caso contrário, defina `n_cross_validations` ou `validation_size` extraia dados de validação dos dados de treinamento especificados. Para a dobra de validação cruzada personalizada, use `cv_split_column_names`. Para obter mais informações, consulte Configurar divisões de dados e validação cruzada no machine learning automatizado.
n_cross_validations Obrigatório	int Quantas validações cruzadas serão executadas quando os dados de validação do usuário não forem especificados. Especifique `validation_data` para fornecer dados de validação, caso contrário, defina `n_cross_validations` ou `validation_size` extraia dados de validação dos dados de treinamento especificados. Para a dobra de validação cruzada personalizada, use `cv_split_column_names`. Para obter mais informações, consulte Configurar divisões de dados e validação cruzada no machine learning automatizado.
y_min Obrigatório	float Valor mínimo de y para um experimento de regressão. A combinação de e `y_min` são usadas para normalizar as métricas do conjunto de testes com base no intervalo de `y_max` dados de entrada. Essa configuração está sendo preterida. Em vez disso, esse valor será computado a partir dos dados.
y_max Obrigatório	float Valor máximo de y para um experimento de regressão. A combinação de e `y_min` são usadas para normalizar as métricas do conjunto de testes com base no intervalo de `y_max` dados de entrada. Essa configuração está sendo preterida. Em vez disso, esse valor será computado a partir dos dados.
num_classes Obrigatório	int O número de classes nos dados do rótulo para um experimento de classificação. Essa configuração está sendo preterida. Em vez disso, esse valor será computado a partir dos dados.
featurization Obrigatório	str ou FeaturizationConfig 'auto' / 'off' / Indicador FeaturizationConfig para saber se a etapa de featurization deve ser feita automaticamente ou não, ou se a caracterização personalizada deve ser usada. Observação: se os dados de entrada forem esparsos, a definição de recursos não poderá ser ativada. O tipo de coluna é detectado automaticamente. Com base no pré-processamento/em destaque do tipo de coluna detectado, é feito da seguinte maneira: Categórico: codificação de destino, uma codificação ativa, descartar categorias de cardinalidade alta, imputar valores ausentes. Numérico: imputar valores ausentes, distância do cluster, peso da evidência. DateTime: vários recursos, como dia, segundos, minutos, horas etc. Texto: Pacote de palavras, inserção pré-treinada do Word, codificação de destino de texto. Mais detalhes podem ser encontrados no artigo Configurar experimentos de ML automatizados no Python. Para personalizar a etapa de featurization, forneça um objeto FeaturizationConfig. Atualmente, a caracterização personalizada dá suporte ao bloqueio de um conjunto de transformadores, atualização da finalidade da coluna, edição de parâmetros de transformador e remoção de colunas. Para obter mais informações, consulte Personalizar a engenharia de recursos. Observação: os recursos de timeseries são tratados separadamente quando o tipo de tarefa é definido como previsão independente desse parâmetro.
max_cores_per_iteration Obrigatório	int O número máximo de threads a serem usados para uma determinada iteração de treinamento. Valores aceitáveis: Maior que 1 e menor ou igual ao número máximo de núcleos no destino de computação. Igual a -1, o que significa usar todos os núcleos possíveis por iteração por execução filho. Igual a 1, o padrão.
max_concurrent_iterations Obrigatório	int Representa o número máximo de iterações que seriam executadas em paralelo. O valor padrão é 1. Os clusters AmlCompute dão suporte a uma interação em execução por nó. Para várias execuções pai do experimento AutoML executadas em paralelo em um único cluster AmlCompute, a soma dos `max_concurrent_iterations` valores para todos os experimentos deve ser menor ou igual ao número máximo de nós. Caso contrário, as execuções serão enfileiradas até que os nós estejam disponíveis. A DSVM dá suporte a várias iterações por nó. `max_concurrent_iterations` deve ser menor ou igual ao número de núcleos na DSVM. Para vários experimentos executados em paralelo em uma única DSVM, a soma dos `max_concurrent_iterations` valores para todos os experimentos deve ser menor ou igual ao número máximo de nós. Databricks – `max_concurrent_iterations` deve ser menor ou igual ao número de nós de trabalho no Databricks. `max_concurrent_iterations` não se aplica a execuções locais. Anteriormente, esse parâmetro era nomeado `concurrent_iterations`.
iteration_timeout_minutes Obrigatório	int Tempo máximo em minutos para o qual cada iteração pode ser executada antes de terminar. Se não for especificado, um valor de 1 mês ou 43.200 minutos será usado.
mem_in_mb Obrigatório	int Uso máximo de memória para o qual cada iteração pode ser executada antes de terminar. Se não for especificado, um valor de 1 PB ou 1073741824 MB será usado.
enforce_time_on_windows Obrigatório	bool Se deseja impor um limite de tempo no treinamento de modelo em cada iteração no Windows. O padrão é True. Se estiver em execução em um arquivo de script python (.py), consulte a documentação para permitir limites de recursos no Windows.
experiment_timeout_hours Obrigatório	float Quantidade máxima de tempo em horas que todas as iterações combinadas podem levar antes que o experimento seja encerrado. Pode ser um valor decimal como 0,25 representando 15 minutos. Se não for especificado, o tempo limite padrão do experimento será de 6 dias. Para especificar um tempo limite menor ou igual a 1 hora, verifique se o tamanho do conjunto de dados não é maior que 10.000.000 (coluna de linhas vezes) ou um resultado de erro.
experiment_exit_score Obrigatório	float Pontuação de destino para experimento. O experimento termina depois que essa pontuação é atingida. Se não for especificado (sem critérios), o experimento será executado até que nenhum progresso adicional seja feito na métrica primária. Para obter mais informações sobre critérios de saída, consulte este artigo.
enable_early_stopping Obrigatório	bool Se será possível habilitar a terminação antecipada se a pontuação não estiver melhorando no curto prazo. O padrão é True. Lógica de parada antecipada: Nenhuma parada antecipada para as primeiras 20 iterações (pontos turísticos). A janela de parada antecipada começa na 21ª iteração e procura iterações early_stopping_n_iters (atualmente definido como 10). Isso significa que a primeira iteração em que a parada pode ocorrer é a 31ª. O AutoML ainda agenda duas iterações de conjunto após a parada antecipada, o que pode resultar em pontuações mais altas. A parada antecipada será disparada se o valor absoluto da melhor pontuação calculada for o mesmo para o passado early_stopping_n_iters iterações, ou seja, se não houver melhoria na pontuação para iterações early_stopping_n_iters.
blocked_models Obrigatório	list(str) ou list(Classification) <xref:for classification task> ou list(Regression) <xref:for regression task> ou list(Forecasting) <xref:for forecasting task> Uma lista de algoritmos a serem ignorados para um experimento. Se `enable_tf` for False, os modelos tensorFlow serão incluídos em `blocked_models`.
blacklist_models Obrigatório	list(str) ou list(Classification) <xref:for classification task> ou list(Regression) <xref:for regression task> ou list(Forecasting) <xref:for forecasting task> Parâmetro preterido, use blocked_models em vez disso.
exclude_nan_labels Obrigatório	bool Se deve excluir linhas com valores NaN no rótulo. O padrão é True.
verbosity Obrigatório	int O nível de verbosidade para gravar no arquivo de log. O padrão é INFO ou 20. Os valores aceitáveis são definidos na biblioteca de log do Python.
enable_tf Obrigatório	bool Parâmetro preterido para habilitar/desabilitar algoritmos tensorflow. O padrão é False.
model_explainability Obrigatório	bool Se deseja habilitar a explicação do melhor modelo AutoML no final de todas as iterações de treinamento do AutoML. O padrão é True. Para obter mais informações, consulte Interpretabilidade: explicações de modelo no machine learning automatizado.
allowed_models Obrigatório	list(str) ou list(Classification) <xref:for classification task> ou list(Regression) <xref:for regression task> ou list(Forecasting) <xref:for forecasting task> Uma lista de nomes de modelo para pesquisar um experimento. Se não for especificado, todos os modelos com suporte para a tarefa serão usados menos os modelos tensorFlow especificados `blocked_models` ou preteridos. Os modelos com suporte para cada tipo de tarefa são descritos na SupportedModels classe.
whitelist_models Obrigatório	list(str) ou list(Classification) <xref:for classification task> ou list(Regression) <xref:for regression task> ou list(Forecasting) <xref:for forecasting task> Parâmetro preterido, use allowed_models em vez disso.
enable_onnx_compatible_models Obrigatório	bool Seja para habilitar ou desabilitar a imposição dos modelos compatíveis com ONNX. O padrão é False. Para obter mais informações sobre o ONNX (Open Neural Network Exchange) e o Azure Machine Learning, consulte este artigo.
forecasting_parameters Obrigatório	ForecastingParameters Um objeto ForecastingParameters para conter todos os parâmetros específicos de previsão.
time_column_name Obrigatório	str O nome da coluna de hora. Esse parâmetro é necessário ao prever para especificar a coluna datetime nos dados de entrada usados para criar a série temporal e inferir sua frequência. Essa configuração está sendo preterida. Em vez disso, use forecasting_parameters.
max_horizon Obrigatório	int O horizonte de previsão máxima desejado em unidades de frequência de série temporal. O valor padrão é 1. As unidades são baseadas no intervalo de tempo dos dados de treinamento, por exemplo, mensalmente, semanalmente que o preditor deve prever. Quando o tipo de tarefa está sendo previsto, esse parâmetro é necessário. Para obter mais informações sobre como definir parâmetros de previsão, consulte Treinar automaticamente um modelo de previsão de série temporal. Essa configuração está sendo preterida. Em vez disso, use forecasting_parameters.
grain_column_names Obrigatório	str ou list(str) Os nomes das colunas usadas para agrupar uma série de horários. Ele pode ser usado para criar várias séries. Se a granulação não estiver definida, o conjunto de dados será considerado uma série temporal. Esse parâmetro é usado com a previsão de tipo de tarefa. Essa configuração está sendo preterida. Em vez disso, use forecasting_parameters.
target_lags Obrigatório	int ou list(int) O número de períodos passados a serem atrasados da coluna de destino. O padrão é 1. Essa configuração está sendo preterida. Em vez disso, use forecasting_parameters. Ao prever, esse parâmetro representa o número de linhas para atrasar os valores de destino com base na frequência dos dados. Isso é representado como uma lista ou inteiro único. O atraso deve ser usado quando a relação entre as variáveis independentes e a variável dependente não corresponder ou correlacionar por padrão. Por exemplo, ao tentar prever a demanda por um produto, a demanda em qualquer mês pode depender do preço de commodities específicas três meses antes. Neste exemplo, talvez você queira atrasar o destino (demanda) negativamente por 3 meses para que o modelo esteja treinando sobre a relação correta. Para obter mais informações, consulte Treinar automaticamente um modelo de previsão de série temporal.
feature_lags Obrigatório	str Sinalizador para gerar atrasos para os recursos numéricos. Essa configuração está sendo preterida. Em vez disso, use forecasting_parameters.
target_rolling_window_size Obrigatório	int O número de períodos passados usados para criar uma média de janela sem interrupção da coluna de destino. Essa configuração está sendo preterida. Em vez disso, use forecasting_parameters. Ao prever, esse parâmetro representa n períodos históricos a serem usados para gerar valores previstos, <= tamanho do conjunto de treinamento. Se omitido, n é o tamanho completo do conjunto de treinamento. Especifique esse parâmetro quando desejar considerar apenas certa quantidade de histórico no treinamento do modelo.
country_or_region Obrigatório	str O país/região usado para gerar recursos de férias. Eles devem ser código de país/região de duas letras ISO 3166, por exemplo , "EUA" ou "GB". Essa configuração está sendo preterida. Em vez disso, use forecasting_parameters.
use_stl Obrigatório	str Configure a Decomposição de STL da coluna de destino da série temporal. use_stl pode levar três valores: Nenhum (padrão) - sem decomposição stl, 'season' - apenas gerar componente de temporada e season_trend - gera componentes de estação e tendência. Essa configuração está sendo preterida. Em vez disso, use forecasting_parameters.
seasonality Obrigatório	int ou str Defina a sazonalidade da série temporal. Se a sazonalidade for definida como 'auto', ela será inferida. Essa configuração está sendo preterida. Em vez disso, use forecasting_parameters.
short_series_handling_configuration Obrigatório	str O parâmetro que define como se o AutoML deve lidar com séries temporais curtas. Valores possíveis: 'auto' (padrão), 'pad', 'drop' e None. séries curtas automáticas serão adicionadas se não houver séries longas, caso contrário, séries curtas serão descartadas. todas as séries curtas serão adicionadas. todas as séries curtas serão descartadas". Nenhuma série curta não será modificada. Se definido como 'pad', a tabela será acolchoada com os zeros e valores vazios para os regressores e valores aleatórios para o destino com a média igual à mediana do valor de destino para determinada ID de série temporal. Se a mediana for mais ou igual a zero, o valor acolchoado mínimo será recortado por zero: Entrada: Data numeric_value cadeia de caracteres de destino 01/01/2020 vinte e três verde 55 A saída supondo que o número mínimo de valores seja quatro: Data numeric_value cadeia de caracteres de destino 2019-12-29 0 NA 55.1 2019-12-30 0 NA 55.6 2019-12-31 0 NA 54.5 01/01/2020 vinte e três verde 55 Nota: Temos dois parâmetros short_series_handling_configuration e short_series_handling herdados. Quando ambos os parâmetros são definidos, estamos sincronizando-os conforme mostrado na tabela abaixo (short_series_handling_configuration e short_series_handling para brevidade são marcados como handling_configuration e manipulação, respectivamente). manipulação handling_configuration tratamento resultante handling_configuration resultante Verdade carro Verdade carro Verdade almofada Verdade carro Verdade descartar Verdade carro Verdade Nenhum Falso Nenhum Falso carro Falso Nenhum Falso almofada Falso Nenhum Falso descartar Falso Nenhum Falso Nenhum Falso Nenhum
freq Obrigatório	str ou None Frequência de previsão. Ao prever, esse parâmetro representa o período com o qual a previsão é desejada, por exemplo, diária, semanal, anual etc. A frequência de previsão é a frequência do conjunto de dados por padrão. Opcionalmente, você pode defini-lo como maior (mas não menor) do que a frequência do conjunto de dados. Agregaremos os dados e geraremos os resultados na frequência de previsão. Por exemplo, para dados diários, você pode definir a frequência como diária, semanal ou mensal, mas não por hora. A frequência precisa ser um alias de deslocamento pandas. Consulte a documentação do Pandas para obter mais informações: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects
target_aggregation_function Obrigatório	str ou None A função a ser usada para agregar a coluna de destino da série temporal para estar em conformidade com uma frequência especificada pelo usuário. Se o target_aggregation_function estiver definido, mas o parâmetro freq não estiver definido, o erro será gerado. As possíveis funções de agregação de destino são: "sum", "max", "min" e "mean". Freq target_aggregation_function Mecanismo de correção de regularidade de dados Nenhum (padrão) Nenhum (padrão) A agregação não é aplicada. Se a frequência válida não puder ser determinada, o erro será gerado. Algum valor Nenhum (padrão) A agregação não é aplicada. Se o número de pontos de dados em conformidade com a grade de frequência fornecida for menor, então 90 pontos%these serão removidos, caso contrário, o erro será gerado. Nenhum (padrão) Função de agregação O erro sobre parâmetros de frequência ausentes é gerado. Algum valor Função de agregação Agregar à frequência usando a função providedaggregation.
enable_voting_ensemble Obrigatório	bool Se deseja habilitar/desabilitar a iteração VotingEnsemble. O padrão é True. Para obter mais informações sobre conjuntos, consulte a configuração do Ensemble.
enable_stack_ensemble Obrigatório	bool Se deseja habilitar/desabilitar a iteração StackEnsemble. O padrão é None. Se enable_onnx_compatible_models sinalizador estiver sendo definido, a iteração StackEnsemble será desabilitada. Da mesma forma, para tarefas do Timeseries, a iteração StackEnsemble será desabilitada por padrão, para evitar riscos de sobreajuste devido ao pequeno conjunto de treinamento usado na montagem do metaaplicativo. Para obter mais informações sobre conjuntos, consulte a configuração do Ensemble.
debug_log Obrigatório	str O arquivo de log para o qual gravar informações de depuração. Se não for especificado, 'automl.log' será usado.
training_data Obrigatório	DataFrame ou Dataset ou DatasetDefinition ou TabularDataset Os dados de treinamento a serem usados no experimento. Ele deve conter recursos de treinamento e uma coluna de rótulo (opcionalmente uma coluna de pesos de exemplo). Se `training_data` for especificado, o `label_column_name` parâmetro também deverá ser especificado. `training_data` foi introduzido na versão 1.0.81.
validation_data Obrigatório	DataFrame ou Dataset ou DatasetDefinition ou TabularDataset Os dados de validação a serem usados no experimento. Devem conter recursos de treinamento e uma coluna de rótulo (opcionalmente, uma coluna de pesos de amostra). Se `validation_data` for especificado, os parâmetros `training_data` e `label_column_name` deverão ser especificados. `validation_data` foi introduzido na versão 1.0.81. Para obter mais informações, consulte Configurar divisões de dados e validação cruzada no machine learning automatizado.
test_data Obrigatório	Dataset ou TabularDataset O recurso Teste de Modelo usando conjuntos de dados de teste ou divisões de dados de teste é um recurso no estado de visualização e pode ser alterado a qualquer momento. Os dados de teste a serem usados para uma execução de teste que será iniciada automaticamente após a conclusão do treinamento do modelo. A execução de teste obterá previsões usando o melhor modelo e calculará as métricas dadas essas previsões. Se esse parâmetro ou o `test_size` parâmetro não for especificado, nenhuma execução de teste será executada automaticamente após a conclusão do treinamento do modelo. Os dados de teste devem conter recursos e coluna de rótulo. Se `test_data` for especificado, o `label_column_name` parâmetro deverá ser especificado.
test_size Obrigatório	float O recurso Teste de Modelo usando conjuntos de dados de teste ou divisões de dados de teste é um recurso no estado de visualização e pode ser alterado a qualquer momento. Que fração dos dados de treinamento devem conter para dados de teste para uma execução de teste que será iniciada automaticamente após a conclusão do treinamento do modelo. A execução de teste obterá previsões usando o melhor modelo e calculará as métricas dadas essas previsões. Isso deve estar entre 0.0 e 1.0 não inclusivo. Se `test_size` for especificado ao mesmo tempo `validation_size`que, os dados de teste serão divididos antes que os dados de `training_data` validação sejam divididos. Por exemplo, se `validation_size=0.1`, `test_size=0.1` e os dados de treinamento originais tiverem 1000 linhas, os dados de teste terão 100 linhas, os dados de validação conterão 90 linhas e os dados de treinamento terão 810 linhas. Para tarefas baseadas em regressão, a amostragem aleatória é usada. Para tarefas de classificação, a amostragem estratificada é usada. Atualmente, a previsão não dá suporte à especificação de um conjunto de dados de teste usando uma divisão de treinamento/teste. Se esse parâmetro ou o `test_data` parâmetro não for especificado, nenhuma execução de teste será executada automaticamente após a conclusão do treinamento do modelo.
label_column_name Obrigatório	Union[str, int] O nome da coluna de rótulo. Se os dados de entrada forem de um pandas. DataFrame que não tem nomes de coluna, índices de coluna podem ser usados em vez disso, expressos como inteiros. Esse parâmetro é aplicável a `training_data`parâmetros e `validation_data` parâmetros`test_data`. `label_column_name` foi introduzido na versão 1.0.81.
weight_column_name Obrigatório	Union[str, int] O nome da coluna de peso de exemplo. O ML automatizado dá suporte a uma coluna ponderada como entrada, fazendo com que as linhas nos dados sejam ponderadas para cima ou para baixo. Se os dados de entrada forem de um pandas. DataFrame que não tem nomes de coluna, índices de coluna podem ser usados em vez disso, expressos como inteiros. Esse parâmetro é aplicável a parâmetros e a `training_datavalidation_data` parâmetros. `weight_column_names` foi introduzido na versão 1.0.81.
cv_split_column_names Obrigatório	list(str) Lista de nomes das colunas que contêm divisão de validação cruzada personalizada. Cada uma das colunas de divisão cv representa uma divisão CV em que cada linha é marcada como 1 para treinamento ou 0 para validação. Esse parâmetro é aplicável ao `training_data` parâmetro para fins de validação cruzada personalizada. `cv_split_column_names` foi introduzido na versão 1.6.0 Use ou `cv_split_column_namescv_splits_indices`. Para obter mais informações, consulte Configurar divisões de dados e validação cruzada no machine learning automatizado.
enable_local_managed Obrigatório	bool Parâmetro desabilitado. As execuções gerenciadas locais não podem ser habilitadas no momento.
enable_dnn Obrigatório	bool Se os modelos baseados em DNN devem ser incluídos durante a seleção do modelo. O padrão na inicialização é None. No entanto, o padrão é True para tarefas DNN NLP e é False para todas as outras tarefas autoML.
task Obrigatório	str ou Tasks O tipo de tarefa a ser executada. Os valores podem ser "classificação", "regressão" ou "previsão", dependendo do tipo de problema de ML automatizado a ser resolvido.
path Obrigatório	str O caminho completo para a pasta de projeto do Azure Machine Learning. Se não for especificado, o padrão é usar o diretório atual ou ".".
iterations Obrigatório	int O número total de diferentes combinações de algoritmos e parâmetros a serem testadas durante um experimento de ML automatizado. Se não for especificado, o padrão é 1000 iterações.
primary_metric Obrigatório	str ou Metric A métrica que o Machine Learning Automatizado otimizará para seleção de modelo. O Machine Learning automatizado coleta mais métricas do que pode otimizar. Você pode usar get_primary_metrics para obter uma lista de métricas válidas para a tarefa fornecida. Para obter mais informações sobre como as métricas são calculadas, consulte https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric. Se não for especificado, a precisão será usada para tarefas de classificação, a média de raiz normalizada ao quadrado é usada para tarefas de previsão e regressão, a precisão é usada para classificação de imagem e classificação de vários rótulos de imagem e a precisão média média é usada para detecção de objetos de imagem.
positive_label Obrigatório	Any O rótulo de classe positivo que o Machine Learning Automatizado usará para calcular as métricas binárias. As métricas binárias são calculadas em duas condições para tarefas de classificação: A coluna de rótulo consiste em duas classes que indicam que a tarefa de classificação binária AutoML usará a classe positiva especificada quando positive_label for passada, caso contrário, o AutoML escolherá uma classe positiva com base no valor codificado pelo rótulo. tarefa de classificação de várias classes com positive_label especificado Para obter mais informações sobre classificação, métricas de check-out para cenários de classificação.
compute_target Obrigatório	AbstractComputeTarget O destino de computação do Azure Machine Learning no qual executar o experimento do Machine Learning Automatizado. Confira https://docs.microsoft.com/azure/machine-learning/how-to-auto-train-remote mais informações sobre destinos de computação.
spark_context Obrigatório	<xref:SparkContext> O contexto do Spark. Aplicável somente quando usado dentro do ambiente do Azure Databricks/Spark.
X Obrigatório	DataFrame ou ndarray ou Dataset ou DatasetDefinition ou TabularDataset Os recursos de treinamento a serem usados ao ajustar pipelines durante um experimento. Essa configuração está sendo preterida. Em vez disso, use training_data e label_column_name.
y Obrigatório	DataFrame ou ndarray ou Dataset ou DatasetDefinition ou TabularDataset Os rótulos de treinamento a serem usados ao ajustar pipelines durante um experimento. Esse é o valor que seu modelo preverá. Essa configuração está sendo preterida. Em vez disso, use training_data e label_column_name.
sample_weight Obrigatório	DataFrame ou ndarray ou TabularDataset O peso a ser dado a cada exemplo de treinamento ao executar pipelines de ajuste, cada linha deve corresponder a uma linha em dados X e y. Especifique `X`esse parâmetro ao especificar . Essa configuração está sendo preterida. Em vez disso, use training_data e weight_column_name.
X_valid Obrigatório	DataFrame ou ndarray ou Dataset ou DatasetDefinition ou TabularDataset Recursos de validação a serem usados ao ajustar pipelines durante um experimento. Se especificado, então `y_valid` ou `sample_weight_valid` também deve ser especificado. Essa configuração está sendo preterida. Use validation_data e label_column_name em vez disso.
y_valid Obrigatório	DataFrame ou ndarray ou Dataset ou DatasetDefinition ou TabularDataset Rótulos de validação a serem usados ao ajustar pipelines durante um experimento. Ambos `X_valid` e `y_valid` devem ser especificados juntos. Essa configuração está sendo preterida. Use validation_data e label_column_name em vez disso.
sample_weight_valid Obrigatório	DataFrame ou ndarray ou TabularDataset O peso a ser dado a cada exemplo de validação ao executar pipelines de pontuação, cada linha deve corresponder a uma linha em dados X e y. Especifique `X_valid`esse parâmetro ao especificar . Essa configuração está sendo preterida. Em vez disso, use validation_data e weight_column_name.
cv_splits_indices Obrigatório	List[List[ndarray]] Índices em que os dados de treinamento serão divididos para validação cruzada. Cada linha é uma dobra cruzada separada e, dentro de cada dobra cruzada, fornece duas matrizes numpy, a primeira com os índices para exemplos a serem usados para dados de treinamento e o segundo com os índices a serem usados para os dados de validação. ou seja, [[t1, v1], [t2, v2], ...] onde t1 é o índice de treinamento para a primeira dobra cruzada e v1 é o índice de validação para a primeira dobra cruzada. Essa opção tem suporte quando os dados são passados como conjunto de dados de recursos separados e coluna Label. Para especificar dados existentes como dados de validação, use `validation_data`. Para permitir que o AutoML extraia dados de validação dos dados de treinamento, especifique um `n_cross_validations` ou `validation_size`. Use `cv_split_column_names` se você tiver colunas de validação cruzada em `training_data`.
validation_size Obrigatório	float Qual fração dos dados a serem armazenados para validação quando os dados de validação do usuário não forem especificados. Isso deve estar entre 0.0 e 1.0 não inclusivo. Especifique `validation_data` para fornecer dados de validação, caso contrário, defina `n_cross_validations` ou `validation_size` extraia dados de validação dos dados de treinamento especificados. Para a dobra de validação cruzada personalizada, use `cv_split_column_names`. Para obter mais informações, consulte Configurar divisões de dados e validação cruzada no machine learning automatizado.
n_cross_validations Obrigatório	int ou str Quantas validações cruzadas serão executadas quando os dados de validação do usuário não forem especificados. Especifique `validation_data` para fornecer dados de validação, caso contrário, defina `n_cross_validations` ou `validation_size` extraia dados de validação dos dados de treinamento especificados. Para a dobra de validação cruzada personalizada, use `cv_split_column_names`. Para obter mais informações, consulte Configurar divisões de dados e validação cruzada no machine learning automatizado.
y_min Obrigatório	float Valor mínimo de y para um experimento de regressão. A combinação de e `y_min` são usadas para normalizar as métricas do conjunto de testes com base no intervalo de `y_max` dados de entrada. Essa configuração está sendo preterida. Em vez disso, esse valor será computado a partir dos dados.
y_max Obrigatório	float Valor máximo de y para um experimento de regressão. A combinação de e `y_min` são usadas para normalizar as métricas do conjunto de testes com base no intervalo de `y_max` dados de entrada. Essa configuração está sendo preterida. Em vez disso, esse valor será computado a partir dos dados.
num_classes Obrigatório	int O número de classes nos dados do rótulo para um experimento de classificação. Essa configuração está sendo preterida. Em vez disso, esse valor será computado a partir dos dados.
featurization Obrigatório	str ou FeaturizationConfig 'auto' / 'off' / Indicador FeaturizationConfig para saber se a etapa de featurization deve ser feita automaticamente ou não, ou se a caracterização personalizada deve ser usada. Observação: se os dados de entrada forem esparsos, a definição de recursos não poderá ser ativada. O tipo de coluna é detectado automaticamente. Com base no pré-processamento/em destaque do tipo de coluna detectado, é feito da seguinte maneira: Categórico: codificação de destino, uma codificação ativa, descartar categorias de cardinalidade alta, imputar valores ausentes. Numérico: imputar valores ausentes, distância do cluster, peso da evidência. DateTime: vários recursos, como dia, segundos, minutos, horas etc. Texto: Pacote de palavras, inserção pré-treinada do Word, codificação de destino de texto. Mais detalhes podem ser encontrados no artigo Configurar experimentos de ML automatizados no Python. Para personalizar a etapa de featurization, forneça um objeto FeaturizationConfig. Atualmente, a caracterização personalizada dá suporte ao bloqueio de um conjunto de transformadores, atualização da finalidade da coluna, edição de parâmetros de transformador e remoção de colunas. Para obter mais informações, consulte Personalizar a engenharia de recursos. Observação: os recursos de timeseries são tratados separadamente quando o tipo de tarefa é definido como previsão independente desse parâmetro.
max_cores_per_iteration Obrigatório	int O número máximo de threads a serem usados para uma determinada iteração de treinamento. Valores aceitáveis: Maior que 1 e menor ou igual ao número máximo de núcleos no destino de computação. Igual a -1, o que significa usar todos os núcleos possíveis por iteração por execução filho. Igual a 1, o valor padrão.
max_concurrent_iterations Obrigatório	int Representa o número máximo de iterações que seriam executadas em paralelo. O valor padrão é 1. Os clusters AmlCompute dão suporte a uma interação em execução por nó. Para vários experimentos executados em paralelo em um único cluster AmlCompute, a soma dos `max_concurrent_iterations` valores de todos os experimentos deve ser menor ou igual ao número máximo de nós. A DSVM dá suporte a várias iterações por nó. `max_concurrent_iterations` deve ser menor ou igual ao número de núcleos na DSVM. Para vários experimentos executados em paralelo em uma única DSVM, a soma dos `max_concurrent_iterations` valores para todos os experimentos deve ser menor ou igual ao número máximo de nós. Databricks – `max_concurrent_iterations` deve ser menor ou igual ao número de nós de trabalho no Databricks. `max_concurrent_iterations` não se aplica a execuções locais. Anteriormente, esse parâmetro era nomeado `concurrent_iterations`.
iteration_timeout_minutes Obrigatório	int Tempo máximo em minutos para o qual cada iteração pode ser executada antes de terminar. Se não for especificado, um valor de 1 mês ou 43.200 minutos será usado.
mem_in_mb Obrigatório	int Uso máximo de memória para o qual cada iteração pode ser executada antes de terminar. Se não for especificado, um valor de 1 PB ou 1073741824 MB será usado.
enforce_time_on_windows Obrigatório	bool Se deseja impor um limite de tempo no treinamento de modelo em cada iteração no Windows. O padrão é True. Se estiver em execução em um arquivo de script python (.py), consulte a documentação para permitir limites de recursos no Windows.
experiment_timeout_hours Obrigatório	float Quantidade máxima de tempo em horas que todas as iterações combinadas podem levar antes que o experimento seja encerrado. Pode ser um valor decimal como 0,25 representando 15 minutos. Se não for especificado, o tempo limite padrão do experimento será de 6 dias. Para especificar um tempo limite menor ou igual a 1 hora, verifique se o tamanho do conjunto de dados não é maior que 10.000.000 (coluna de linhas vezes) ou um resultado de erro.
experiment_exit_score Obrigatório	float Pontuação de destino para experimento. O experimento termina depois que essa pontuação é atingida. Se não for especificado (sem critérios), o experimento será executado até que nenhum progresso adicional seja feito na métrica primária. Para obter mais informações sobre critérios de saída, consulte este >>`article` https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#exit-criteria'_.<<
enable_early_stopping Obrigatório	bool Se será possível habilitar a terminação antecipada se a pontuação não estiver melhorando no curto prazo. O padrão é True. Lógica de parada antecipada: Nenhuma parada antecipada para as primeiras 20 iterações (pontos turísticos). A janela de parada antecipada começa na 21ª iteração e procura iterações early_stopping_n_iters (atualmente definida como 10). Isso significa que a primeira iteração em que a parada pode ocorrer é a 31ª. O AutoML ainda agenda duas iterações de conjunto após a parada antecipada, o que pode resultar em pontuações mais altas. A parada antecipada será disparada se o valor absoluto da melhor pontuação calculada for o mesmo para iterações de early_stopping_n_iters anteriores, ou seja, se não houver melhoria na pontuação para iterações early_stopping_n_iters.
blocked_models Obrigatório	list(str) ou list(Classification) <xref:for classification task> ou list(Regression) <xref:for regression task> ou list(Forecasting) <xref:for forecasting task> Uma lista de algoritmos a serem ignorados para um experimento. Se `enable_tf` for False, os modelos tensorFlow serão incluídos em `blocked_models`.
blacklist_models Obrigatório	list(str) ou list(Classification) <xref:for classification task> ou list(Regression) <xref:for regression task> ou list(Forecasting) <xref:for forecasting task> Parâmetro preterido, use blocked_models em vez disso.
exclude_nan_labels Obrigatório	bool Se deve excluir linhas com valores NaN no rótulo. O padrão é True.
verbosity Obrigatório	int O nível de verbosidade para gravar no arquivo de log. O padrão é INFO ou 20. Os valores aceitáveis são definidos na biblioteca de log do Python.
enable_tf Obrigatório	bool Se deseja habilitar/desabilitar algoritmos tensorFlow. O padrão é False.
model_explainability Obrigatório	bool Se deseja habilitar a explicação do melhor modelo AutoML no final de todas as iterações de treinamento do AutoML. O padrão é True. Para obter mais informações, consulte Interpretabilidade: explicações de modelo no machine learning automatizado.
allowed_models Obrigatório	list(str) ou list(Classification) <xref:for classification task> ou list(Regression) <xref:for regression task> ou list(Forecasting) <xref:for forecasting task> Uma lista de nomes de modelo para pesquisar um experimento. Se não for especificado, todos os modelos com suporte para a tarefa serão usados menos os modelos tensorFlow especificados `blocked_models` ou preteridos. Os modelos com suporte para cada tipo de tarefa são descritos na SupportedModels classe.
allowed_models Obrigatório	Uma lista de nomes de modelo para pesquisar um experimento. Se não for especificado, todos os modelos com suporte para a tarefa serão usados menos os modelos tensorFlow especificados `blocked_models` ou preteridos. Os modelos com suporte para cada tipo de tarefa são descritos na SupportedModels classe.
whitelist_models Obrigatório	Parâmetro preterido, use allowed_models em vez disso.
enable_onnx_compatible_models Obrigatório	bool Seja para habilitar ou desabilitar a imposição dos modelos compatíveis com ONNX. O padrão é False. Para obter mais informações sobre o ONNX (Open Neural Network Exchange) e o Azure Machine Learning, consulte este artigo.
forecasting_parameters Obrigatório	ForecastingParameters Um objeto para conter todos os parâmetros específicos de previsão.
time_column_name Obrigatório	str O nome da coluna de hora. Esse parâmetro é necessário ao prever para especificar a coluna datetime nos dados de entrada usados para criar a série temporal e inferir sua frequência. Essa configuração está sendo preterida. Em vez disso, use forecasting_parameters.
max_horizon Obrigatório	int O horizonte de previsão máxima desejado em unidades de frequência de série temporal. O valor padrão é 1. Essa configuração está sendo preterida. Em vez disso, use forecasting_parameters. As unidades são baseadas no intervalo de tempo dos dados de treinamento, por exemplo, mensalmente, semanalmente que o preditor deve prever. Quando o tipo de tarefa está sendo previsto, esse parâmetro é necessário. Para obter mais informações sobre como definir parâmetros de previsão, consulte Treinar automaticamente um modelo de previsão de série temporal.
grain_column_names Obrigatório	str ou list(str) Os nomes das colunas usadas para agrupar uma série de horários. Ele pode ser usado para criar várias séries. Se a granulação não estiver definida, o conjunto de dados será considerado uma série temporal. Esse parâmetro é usado com a previsão de tipo de tarefa. Essa configuração está sendo preterida. Em vez disso, use forecasting_parameters.
target_lags Obrigatório	int ou list(int) O número de períodos passados a serem atrasados da coluna de destino. O padrão é 1. Essa configuração está sendo preterida. Em vez disso, use forecasting_parameters. Ao prever, esse parâmetro representa o número de linhas para atrasar os valores de destino com base na frequência dos dados. Isso é representado como uma lista ou inteiro único. O atraso deve ser usado quando a relação entre as variáveis independentes e a variável dependente não corresponder ou correlacionar por padrão. Por exemplo, ao tentar prever a demanda por um produto, a demanda em qualquer mês pode depender do preço de commodities específicas três meses antes. Neste exemplo, talvez você queira atrasar o destino (demanda) negativamente por 3 meses para que o modelo esteja treinando sobre a relação correta. Para obter mais informações, consulte Treinar automaticamente um modelo de previsão de série temporal.
feature_lags Obrigatório	str Sinalizador para gerar atrasos para os recursos numéricos. Essa configuração está sendo preterida. Em vez disso, use forecasting_parameters.
target_rolling_window_size Obrigatório	int O número de períodos passados usados para criar uma média de janela sem interrupção da coluna de destino. Essa configuração está sendo preterida. Em vez disso, use forecasting_parameters. Ao prever, esse parâmetro representa n períodos históricos a serem usados para gerar valores previstos, <= tamanho do conjunto de treinamento. Se omitido, n é o tamanho completo do conjunto de treinamento. Especifique esse parâmetro quando desejar considerar apenas certa quantidade de histórico no treinamento do modelo.
country_or_region Obrigatório	str O país/região usado para gerar recursos de férias. Eles devem ser códigos de país/região de duas letras ISO 3166, por exemplo , "EUA" ou "GB". Essa configuração está sendo preterida. Em vez disso, use forecasting_parameters.
use_stl Obrigatório	str Configure a Decomposição de STL da coluna de destino da série temporal. use_stl pode levar três valores: Nenhum (padrão) - sem decomposição stl, 'season' - apenas gerar componente de temporada e season_trend - gera componentes de estação e tendência. Essa configuração está sendo preterida. Em vez disso, use forecasting_parameters.
seasonality Obrigatório	int Defina a sazonalidade da série temporal. Se a sazonalidade estiver definida como -1, ela será inferida. Se use_stl não estiver definido, esse parâmetro não será usado. Essa configuração está sendo preterida. Em vez disso, use forecasting_parameters.
short_series_handling_configuration Obrigatório	str O parâmetro que define como se o AutoML deve lidar com séries temporais curtas. Valores possíveis: 'auto' (padrão), 'pad', 'drop' e None. séries curtas automáticas serão adicionadas se não houver séries longas, caso contrário, séries curtas serão descartadas. todas as séries curtas serão adicionadas. todas as séries curtas serão descartadas". Nenhuma série curta não será modificada. Se definido como 'pad', a tabela será acolchoada com os zeros e valores vazios para os regressores e valores aleatórios para o destino com a média igual à mediana do valor de destino para determinada ID de série temporal. Se a mediana for mais ou igual a zero, o valor acolchoado mínimo será recortado por zero: Entrada: Data numeric_value cadeia de caracteres de destino 01/01/2020 vinte e três verde 55 A saída supondo que o número mínimo de valores seja quatro: +————+—————+———-+——–+ \| Data \| numeric_value \| cadeia de caracteres \| destino \| +============+===============+==========+========+ \| 2019-12-29 \| 0 \| NA \| 55.1 \| +————+—————+———-+——–+ \| 2019-12-30 \| 0 \| NA \| 55,6 \| +————+—————+———-+——–+ \| 2019-12-31 \| 0 \| NA \| 54,5 \| +————+—————+———-+——–+ \| 2020-01-01 \| 23 \| verde \| 55 \| +————+—————+———-+——–+ Nota: Temos dois parâmetros short_series_handling_configuration e short_series_handling herdados. Quando ambos os parâmetros são definidos, estamos sincronizando-os conforme mostrado na tabela abaixo (short_series_handling_configuration e short_series_handling para brevidade são marcados como handling_configuration e manipulação, respectivamente). manipulação handling_configuration tratamento resultante handling_configuration resultante Verdade carro Verdade carro Verdade almofada Verdade carro Verdade descartar Verdade carro Verdade Nenhum Falso Nenhum Falso carro Falso Nenhum Falso almofada Falso Nenhum Falso descartar Falso Nenhum Falso Nenhum Falso Nenhum
freq Obrigatório	str ou None Frequência de previsão. Ao prever, esse parâmetro representa o período com o qual a previsão é desejada, por exemplo, diária, semanal, anual etc. A frequência de previsão é a frequência do conjunto de dados por padrão. Opcionalmente, você pode defini-lo como maior (mas não menor) do que a frequência do conjunto de dados. Agregaremos os dados e geraremos os resultados na frequência de previsão. Por exemplo, para dados diários, você pode definir a frequência como diária, semanal ou mensal, mas não por hora. A frequência precisa ser um alias de deslocamento pandas. Consulte a documentação do Pandas para obter mais informações: https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects
target_aggregation_function Obrigatório	str ou None A função a ser usada para agregar a coluna de destino da série temporal para estar em conformidade com uma frequência especificada pelo usuário. Se o target_aggregation_function estiver definido, mas o parâmetro freq não estiver definido, o erro será gerado. As possíveis funções de agregação de destino são: "sum", "max", "min" e "mean". Freq target_aggregation_function Mecanismo de correção de regularidade de dados Nenhum (padrão) Nenhum (padrão) A agregação não é aplicada. Se a frequência válida não puder ser determinada, o erro será gerado. Algum valor Nenhum (padrão) A agregação não é aplicada. Se o número de pontos de dados em conformidade com a grade de frequência fornecida for menor, então 90 pontos%these serão removidos, caso contrário, o erro será gerado. Nenhum (padrão) Função de agregação O erro sobre parâmetros de frequência ausentes é gerado. Algum valor Função de agregação Agregar à frequência usando a função providedaggregation.
enable_voting_ensemble Obrigatório	bool Se deseja habilitar/desabilitar a iteração VotingEnsemble. O padrão é True. Para obter mais informações sobre conjuntos, consulte a configuração do Ensemble.
enable_stack_ensemble Obrigatório	bool Se deseja habilitar/desabilitar a iteração StackEnsemble. O padrão é None. Se enable_onnx_compatible_models sinalizador estiver sendo definido, a iteração StackEnsemble será desabilitada. Da mesma forma, para tarefas do Timeseries, a iteração StackEnsemble será desabilitada por padrão, para evitar riscos de sobreajuste devido ao pequeno conjunto de treinamento usado na montagem do metaaplicativo. Para obter mais informações sobre conjuntos, consulte a configuração do Ensemble.
debug_log Obrigatório	str O arquivo de log para o qual gravar informações de depuração. Se não for especificado, 'automl.log' será usado.
training_data Obrigatório	DataFrame ou Dataset ou DatasetDefinition ou TabularDataset Os dados de treinamento a serem usados no experimento. Ele deve conter recursos de treinamento e uma coluna de rótulo (opcionalmente uma coluna de pesos de exemplo). Se `training_data` for especificado, o `label_column_name` parâmetro também deverá ser especificado. `training_data` foi introduzido na versão 1.0.81.
validation_data Obrigatório	DataFrame ou Dataset ou DatasetDefinition ou TabularDataset Os dados de validação a serem usados no experimento. Devem conter recursos de treinamento e uma coluna de rótulo (opcionalmente, uma coluna de pesos de amostra). Se `validation_data` for especificado, os parâmetros `training_data` e `label_column_name` deverão ser especificados. `validation_data` foi introduzido na versão 1.0.81. Para obter mais informações, consulte Configurar divisões de dados e validação cruzada no machine learning automatizado.
test_data Obrigatório	Dataset ou TabularDataset O recurso Teste de Modelo usando conjuntos de dados de teste ou divisões de dados de teste é um recurso no estado de visualização e pode ser alterado a qualquer momento. Os dados de teste a serem usados para uma execução de teste que será iniciada automaticamente após a conclusão do treinamento do modelo. A execução de teste obterá previsões usando o melhor modelo e calculará as métricas dadas essas previsões. Se esse parâmetro ou o `test_size` parâmetro não for especificado, nenhuma execução de teste será executada automaticamente após a conclusão do treinamento do modelo. Os dados de teste devem conter recursos e coluna de rótulo. Se `test_data` for especificado, o `label_column_name` parâmetro deverá ser especificado.
test_size Obrigatório	float O recurso Teste de Modelo usando conjuntos de dados de teste ou divisões de dados de teste é um recurso no estado de visualização e pode ser alterado a qualquer momento. Que fração dos dados de treinamento devem conter para dados de teste para uma execução de teste que será iniciada automaticamente após a conclusão do treinamento do modelo. A execução de teste obterá previsões usando o melhor modelo e calculará as métricas dadas essas previsões. Isso deve estar entre 0.0 e 1.0 não inclusivo. Se `test_size` for especificado ao mesmo tempo `validation_size`que, os dados de teste serão divididos antes que os dados de `training_data` validação sejam divididos. Por exemplo, se `validation_size=0.1`, `test_size=0.1` e os dados de treinamento originais tiverem 1000 linhas, os dados de teste terão 100 linhas, os dados de validação conterão 90 linhas e os dados de treinamento terão 810 linhas. Para tarefas baseadas em regressão, a amostragem aleatória é usada. Para tarefas de classificação, a amostragem estratificada é usada. Atualmente, a previsão não dá suporte à especificação de um conjunto de dados de teste usando uma divisão de treinamento/teste. Se esse parâmetro ou o `test_data` parâmetro não for especificado, nenhuma execução de teste será executada automaticamente após a conclusão do treinamento do modelo.
label_column_name Obrigatório	Union[str, int] O nome da coluna de rótulo. Se os dados de entrada forem de um pandas. DataFrame que não tem nomes de coluna, índices de coluna podem ser usados em vez disso, expressos como inteiros. Esse parâmetro é aplicável a `training_data`parâmetros e `validation_data` parâmetros`test_data`. `label_column_name` foi introduzido na versão 1.0.81.
weight_column_name Obrigatório	Union[str, int] O nome da coluna de peso de exemplo. O ML automatizado dá suporte a uma coluna ponderada como entrada, fazendo com que as linhas nos dados sejam ponderadas para cima ou para baixo. Se os dados de entrada forem de um pandas. DataFrame que não tem nomes de coluna, índices de coluna podem ser usados em vez disso, expressos como inteiros. Esse parâmetro é aplicável a parâmetros e a `training_datavalidation_data` parâmetros. `weight_column_names` foi introduzido na versão 1.0.81.
cv_split_column_names Obrigatório	list(str) Lista de nomes das colunas que contêm divisão de validação cruzada personalizada. Cada uma das colunas de divisão cv representa uma divisão CV em que cada linha é marcada como 1 para treinamento ou 0 para validação. Esse parâmetro é aplicável ao `training_data` parâmetro para fins de validação cruzada personalizada. `cv_split_column_names` foi introduzido na versão 1.6.0 Use ou `cv_split_column_namescv_splits_indices`. Para obter mais informações, consulte Configurar divisões de dados e validação cruzada no machine learning automatizado.
enable_local_managed Obrigatório	bool Parâmetro desabilitado. As execuções gerenciadas locais não podem ser habilitadas no momento.
enable_dnn Obrigatório	bool Se os modelos baseados em DNN devem ser incluídos durante a seleção do modelo. O padrão na inicialização é None. No entanto, o padrão é True para tarefas DNN NLP e é False para todas as outras tarefas autoML.

Comentários

O código a seguir mostra um exemplo básico de criação de um objeto AutoMLConfig e envio de um experimento para regressão:


   automl_settings = {
       "n_cross_validations": 3,
       "primary_metric": 'r2_score',
       "enable_early_stopping": True,
       "experiment_timeout_hours": 1.0,
       "max_concurrent_iterations": 4,
       "max_cores_per_iteration": -1,
       "verbosity": logging.INFO,
   }

   automl_config = AutoMLConfig(task = 'regression',
                               compute_target = compute_target,
                               training_data = train_data,
                               label_column_name = label,
                               **automl_settings
                               )

   ws = Workspace.from_config()
   experiment = Experiment(ws, "your-experiment-name")
   run = experiment.submit(automl_config, show_output=True)

Um exemplo completo está disponível na Regressão

Exemplos de uso do AutoMLConfig para previsão estão nestes notebooks:

Exemplos de uso do AutoMLConfig para todos os tipos de tarefa podem ser encontrados nesses notebooks ML automatizados.

Para obter informações sobre ml automatizado, consulte os artigos:

Como definir uma tarefa de machine learning
Configurar experimentos de ML automatizados no Python. Neste artigo, há informações sobre os diferentes algoritmos e as métricas primárias usadas para cada tipo de tarefa.
Treinar automaticamente um modelo de previsão de série temporal. Neste artigo, há informações sobre quais parâmetros de construtor e **kwargs são usados na previsão.

Para obter mais informações sobre diferentes opções para configurar divisões de dados de treinamento/validação e validação cruzada para seu aprendizado de máquina automatizado, AutoML, experimentos, consulte Configurar divisões de dados e validação cruzada no machine learning automatizado.

Métodos

as_serializable_dict	Converta o objeto em dicionário.
get_supported_dataset_languages	Obtenha idiomas com suporte e seus códigos de idioma correspondentes no ISO 639-3.

as_serializable_dict

Converta o objeto em dicionário.

as_serializable_dict() -> Dict[str, Any]

get_supported_dataset_languages

Obtenha idiomas com suporte e seus códigos de idioma correspondentes no ISO 639-3.

get_supported_dataset_languages(use_gpu: bool) -> Dict[Any, Any]

Parâmetros

Nome	Description
cls Obrigatório	Objeto de classe de AutoMLConfig.
use_gpu Obrigatório	booliano indicando se a computação de gpu está sendo usada ou não.

Retornos

Tipo	Description
	dicionário de formato {<código> de linguagem: <nome> da linguagem}. Código de idioma adere ao padrão ISO 639-3, consulte https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes

Comentários

Esta página foi útil?

Compartilhar via

AutoMLConfig Classe

Construtor

Parâmetros

Comentários

Métodos

as_serializable_dict

get_supported_dataset_languages

Parâmetros

Retornos

Comentários