Partilhar via


BanditPolicy Classe

Define uma política de rescisão antecipada com base em critérios de folga e um intervalo de frequência e atraso para avaliação.

Inicialize um BanditPolicy com fator de folga, slack_amount e intervalo de avaliação.

Construtor

BanditPolicy(evaluation_interval=1, slack_factor=None, slack_amount=None, delay_evaluation=0)

Parâmetros

Name Description
slack_factor

A razão usada para calcular a distância permitida da corrida de experimento com melhor desempenho.

Default value: None
slack_amount

A distância absoluta permitida da corrida com melhor desempenho.

Default value: None
evaluation_interval
int

A frequência de aplicação da política.

Default value: 1
delay_evaluation
int

O número de intervalos para os quais adiar a primeira avaliação da política. Se especificado, a política aplica-se a cada múltiplo evaluation_interval maior ou igual a delay_evaluation.

Default value: 0
slack_factor
Necessário

A razão usada para calcular a distância permitida da corrida de experimento com melhor desempenho.

slack_amount
Necessário

A distância absoluta permitida da corrida com melhor desempenho.

evaluation_interval
Necessário
int

A frequência de aplicação da política.

delay_evaluation
Necessário
int

O número de intervalos para os quais adiar a primeira avaliação da política. Se especificado, a política aplica-se a cada múltiplo evaluation_interval maior ou igual a delay_evaluation.

Observações

A política Bandit usa os seguintes parâmetros de configuração:

  • slack_factor: A quantidade de folga permitida em relação à corrida de treino com melhor desempenho. Este fator especifica a folga como um rácio.

  • slack_amount: A quantidade de folga permitida em relação à corrida de treino com melhor desempenho. Este fator especifica a folga como um montante absoluto.

  • evaluation_interval: Opcional. A frequência de aplicação da política. Cada vez que o script de treinamento registra, a métrica primária conta como um intervalo.

  • delay_evaluation: Opcional. O número de intervalos para atrasar a avaliação da política. Use este parâmetro para evitar o término prematuro das corridas de treinamento. Se especificado, a política aplica-se a cada múltiplo evaluation_interval maior ou igual a delay_evaluation.

Qualquer execução que não se enquadre no fator de folga ou na quantidade de folga da métrica de avaliação em relação à execução com melhor desempenho será encerrada.

Considere uma política de bandidos com slack_factor = 0,2 e evaluation_interval = 100. Suponha que a execução X é a execução com melhor desempenho atualmente com uma AUC (métrica de desempenho) de 0,8 após 100 intervalos. Além disso, suponha que a melhor AUC relatada para uma corrida é Y. Esta política compara o valor (Y + Y * 0,2) com 0,8 e, se menor, cancela a execução. Se delay_evaluation = 200, a primeira vez que a política será aplicada é no intervalo 200.

Agora, considere uma política de bandidos com slack_amount = 0,2 e evaluation_interval = 100. Se a Execução 3 for a execução com melhor desempenho no momento com uma AUC (métrica de desempenho) de 0,8 após 100 intervalos, então qualquer execução com uma AUC inferior a 0,6 (0,8 - 0,2) após 100 iterações será encerrada. Da mesma forma, o delay_evaluation também pode ser usado para atrasar a primeira avaliação da política de rescisão para um número específico de sequências.

Para obter mais informações sobre como aplicar políticas de rescisão antecipada, consulte Ajustar hiperparâmetros para seu modelo.

Atributos

delay_evaluation

Devolve o número de sequências para as quais a primeira avaliação está atrasada.

Devoluções

Tipo Description
int

A avaliação do atraso.

evaluation_interval

Retornar o valor do intervalo de avaliação.

Devoluções

Tipo Description
int

O intervalo de avaliação.

slack_factor

Devolver o fator folga em relação à corrida de treino com melhor desempenho.

Devoluções

Tipo Description

O fator folga.

POLICY_NAME

POLICY_NAME = 'Bandit'