BanditPolicy Classe
Define uma política de rescisão antecipada com base em critérios de folga e um intervalo de frequência e atraso para avaliação.
Inicialize um BanditPolicy com fator de folga, slack_amount e intervalo de avaliação.
Construtor
BanditPolicy(evaluation_interval=1, slack_factor=None, slack_amount=None, delay_evaluation=0)
Parâmetros
| Name | Description |
|---|---|
|
slack_factor
|
A razão usada para calcular a distância permitida da corrida de experimento com melhor desempenho. Default value: None
|
|
slack_amount
|
A distância absoluta permitida da corrida com melhor desempenho. Default value: None
|
|
evaluation_interval
|
A frequência de aplicação da política. Default value: 1
|
|
delay_evaluation
|
O número de intervalos para os quais adiar a primeira avaliação da política.
Se especificado, a política aplica-se a cada múltiplo Default value: 0
|
|
slack_factor
Necessário
|
A razão usada para calcular a distância permitida da corrida de experimento com melhor desempenho. |
|
slack_amount
Necessário
|
A distância absoluta permitida da corrida com melhor desempenho. |
|
evaluation_interval
Necessário
|
A frequência de aplicação da política. |
|
delay_evaluation
Necessário
|
O número de intervalos para os quais adiar a primeira avaliação da política.
Se especificado, a política aplica-se a cada múltiplo |
Observações
A política Bandit usa os seguintes parâmetros de configuração:
slack_factor: A quantidade de folga permitida em relação à corrida de treino com melhor desempenho. Este fator especifica a folga como um rácio.slack_amount: A quantidade de folga permitida em relação à corrida de treino com melhor desempenho. Este fator especifica a folga como um montante absoluto.evaluation_interval: Opcional. A frequência de aplicação da política. Cada vez que o script de treinamento registra, a métrica primária conta como um intervalo.delay_evaluation: Opcional. O número de intervalos para atrasar a avaliação da política. Use este parâmetro para evitar o término prematuro das corridas de treinamento. Se especificado, a política aplica-se a cada múltiploevaluation_intervalmaior ou igual adelay_evaluation.
Qualquer execução que não se enquadre no fator de folga ou na quantidade de folga da métrica de avaliação em relação à execução com melhor desempenho será encerrada.
Considere uma política de bandidos com slack_factor = 0,2 e evaluation_interval = 100.
Suponha que a execução X é a execução com melhor desempenho atualmente com uma AUC (métrica de desempenho) de 0,8 após 100 intervalos. Além disso, suponha que a melhor AUC relatada para uma corrida é Y. Esta política compara o valor (Y + Y * 0,2) com 0,8 e, se menor, cancela a execução. Se delay_evaluation = 200, a primeira vez que a política será aplicada é no intervalo 200.
Agora, considere uma política de bandidos com slack_amount = 0,2 e evaluation_interval = 100.
Se a Execução 3 for a execução com melhor desempenho no momento com uma AUC (métrica de desempenho) de 0,8 após 100 intervalos, então qualquer execução com uma AUC inferior a 0,6 (0,8 - 0,2) após 100 iterações será encerrada.
Da mesma forma, o delay_evaluation também pode ser usado para atrasar a primeira avaliação da política de rescisão para um número específico de sequências.
Para obter mais informações sobre como aplicar políticas de rescisão antecipada, consulte Ajustar hiperparâmetros para seu modelo.
Atributos
delay_evaluation
Devolve o número de sequências para as quais a primeira avaliação está atrasada.
Devoluções
| Tipo | Description |
|---|---|
|
A avaliação do atraso. |
evaluation_interval
Retornar o valor do intervalo de avaliação.
Devoluções
| Tipo | Description |
|---|---|
|
O intervalo de avaliação. |
slack_factor
Devolver o fator folga em relação à corrida de treino com melhor desempenho.
Devoluções
| Tipo | Description |
|---|---|
|
O fator folga. |
POLICY_NAME
POLICY_NAME = 'Bandit'