Udostępnij przez


BanditPolicy Klasa

Definiuje zasady wczesnego zakończenia na podstawie kryteriów slack oraz częstotliwość i interwał opóźnienia oceny.

Zainicjuj element BanditPolicy za pomocą współczynnika slack, slack_amount i interwału oceny.

Konstruktor

BanditPolicy(evaluation_interval=1, slack_factor=None, slack_amount=None, delay_evaluation=0)

Parametry

Nazwa Opis
slack_factor

Współczynnik używany do obliczania dozwolonej odległości od najlepszego przebiegu eksperymentu.

Domyślna wartość: None
slack_amount

Bezwzględna odległość dozwolona od najlepszego przebiegu.

Domyślna wartość: None
evaluation_interval
int

Częstotliwość stosowania zasad.

Domyślna wartość: 1
delay_evaluation
int

Liczba interwałów, dla których należy opóźnić pierwszą ocenę zasad. Jeśli zostanie określona, zasady stosują każdą wielokrotność evaluation_interval , która jest większa lub równa delay_evaluation.

Domyślna wartość: 0
slack_factor
Wymagane

Współczynnik używany do obliczania dozwolonej odległości od najlepszego przebiegu eksperymentu.

slack_amount
Wymagane

Bezwzględna odległość dozwolona od najlepszego przebiegu.

evaluation_interval
Wymagane
int

Częstotliwość stosowania zasad.

delay_evaluation
Wymagane
int

Liczba interwałów, dla których należy opóźnić pierwszą ocenę zasad. Jeśli zostanie określona, zasady stosują każdą wielokrotność evaluation_interval , która jest większa lub równa delay_evaluation.

Uwagi

Zasady bandytu pobierają następujące parametry konfiguracji:

  • slack_factor: Ilość luzu dozwolonego w odniesieniu do najlepszego przebiegu treningowego. Ten czynnik określa luz jako stosunek.

  • slack_amount: Ilość luzu dozwolonego w odniesieniu do najlepszego przebiegu treningowego. Ten czynnik określa luz jako bezwzględną kwotę.

  • evaluation_interval: opcjonalne. Częstotliwość stosowania zasad. Za każdym razem, gdy skrypt trenowania rejestruje metryki podstawowe są liczone jako jeden interwał.

  • delay_evaluation: opcjonalne. Liczba interwałów opóźniania oceny zasad. Użyj tego parametru, aby uniknąć przedwczesnego zakończenia przebiegów trenowania. Jeśli zostanie określona, zasady stosują każdą wielokrotność evaluation_interval , która jest większa lub równa delay_evaluation.

Wszystkie przebiegi, które nie należą do współczynnika slack lub slack metryki oceny w odniesieniu do najlepszego przebiegu, zostaną zakończone.

Rozważ zasady bandytu z slack_factor = 0,2 i evaluation_interval = 100. Załóżmy, że przebieg X jest obecnie najlepiej działający z metryką AUC (metryką wydajności) 0,8 po 100 interwałach. Ponadto załóżmy, że najlepszym rozwiązaniem AUC zgłoszonym dla przebiegu jest Y. Te zasady porównują wartość (Y + Y * 0,2) do 0,8, a jeśli są mniejsze, anuluje przebieg. Jeśli delay_evaluation = 200, po raz pierwszy zasady będą stosowane w interwale 200.

Teraz rozważ zasady bandytu z slack_amount = 0,2 i evaluation_interval = 100. Jeśli przebieg 3 jest obecnie najlepszym przebiegiem z metryką AUC (metryką wydajności) 0,8 po 100 interwałach, każde uruchomienie z AUC mniejszym niż 0,6 (0,8 –0,2) po 100 iteracji zostanie zakończone. delay_evaluation Podobnie można użyć elementu , aby opóźnić pierwszą ocenę zasad zakończenia dla określonej liczby sekwencji.

Aby uzyskać więcej informacji na temat stosowania zasad wczesnego kończenia, zobacz Dostosowywanie hiperparametrów dla modelu.

Atrybuty

delay_evaluation

Zwróć liczbę sekwencji, dla których pierwsza ocena jest opóźniona.

Zwraca

Typ Opis
int

Ocena opóźnienia.

evaluation_interval

Zwraca wartość interwału oceny.

Zwraca

Typ Opis
int

Interwał oceny.

slack_factor

Zwróć współczynnik slack w odniesieniu do najlepszego przebiegu treningowego.

Zwraca

Typ Opis

Współczynnik luzu.

POLICY_NAME

POLICY_NAME = 'Bandit'