BanditPolicy Klasa

Definiuje zasady wczesnego zakończenia na podstawie kryteriów slack oraz częstotliwość i interwał opóźnienia oceny.

Zainicjuj element BanditPolicy za pomocą współczynnika slack, slack_amount i interwału oceny.

Konstruktor

BanditPolicy(evaluation_interval=1, slack_factor=None, slack_amount=None, delay_evaluation=0)

Parametry

Nazwa	Opis
slack_factor	float Współczynnik używany do obliczania dozwolonej odległości od najlepszego przebiegu eksperymentu. Domyślna wartość: None
slack_amount	float Bezwzględna odległość dozwolona od najlepszego przebiegu. Domyślna wartość: None
evaluation_interval	int Częstotliwość stosowania zasad. Domyślna wartość: 1
delay_evaluation	int Liczba interwałów, dla których należy opóźnić pierwszą ocenę zasad. Jeśli zostanie określona, zasady stosują każdą wielokrotność `evaluation_interval` , która jest większa lub równa `delay_evaluation`. Domyślna wartość: 0
slack_factor Wymagane	float Współczynnik używany do obliczania dozwolonej odległości od najlepszego przebiegu eksperymentu.
slack_amount Wymagane	float Bezwzględna odległość dozwolona od najlepszego przebiegu.
evaluation_interval Wymagane	int Częstotliwość stosowania zasad.
delay_evaluation Wymagane	int Liczba interwałów, dla których należy opóźnić pierwszą ocenę zasad. Jeśli zostanie określona, zasady stosują każdą wielokrotność `evaluation_interval` , która jest większa lub równa `delay_evaluation`.

Uwagi

Zasady bandytu pobierają następujące parametry konfiguracji:

slack_factor: Ilość luzu dozwolonego w odniesieniu do najlepszego przebiegu treningowego. Ten czynnik określa luz jako stosunek.
slack_amount: Ilość luzu dozwolonego w odniesieniu do najlepszego przebiegu treningowego. Ten czynnik określa luz jako bezwzględną kwotę.
evaluation_interval: opcjonalne. Częstotliwość stosowania zasad. Za każdym razem, gdy skrypt trenowania rejestruje metryki podstawowe są liczone jako jeden interwał.
delay_evaluation: opcjonalne. Liczba interwałów opóźniania oceny zasad. Użyj tego parametru, aby uniknąć przedwczesnego zakończenia przebiegów trenowania. Jeśli zostanie określona, zasady stosują każdą wielokrotność evaluation_interval , która jest większa lub równa delay_evaluation.

Wszystkie przebiegi, które nie należą do współczynnika slack lub slack metryki oceny w odniesieniu do najlepszego przebiegu, zostaną zakończone.

Rozważ zasady bandytu z slack_factor = 0,2 i evaluation_interval = 100. Załóżmy, że przebieg X jest obecnie najlepiej działający z metryką AUC (metryką wydajności) 0,8 po 100 interwałach. Ponadto załóżmy, że najlepszym rozwiązaniem AUC zgłoszonym dla przebiegu jest Y. Te zasady porównują wartość (Y + Y * 0,2) do 0,8, a jeśli są mniejsze, anuluje przebieg. Jeśli delay_evaluation = 200, po raz pierwszy zasady będą stosowane w interwale 200.

Teraz rozważ zasady bandytu z slack_amount = 0,2 i evaluation_interval = 100. Jeśli przebieg 3 jest obecnie najlepszym przebiegiem z metryką AUC (metryką wydajności) 0,8 po 100 interwałach, każde uruchomienie z AUC mniejszym niż 0,6 (0,8 –0,2) po 100 iteracji zostanie zakończone. delay_evaluation Podobnie można użyć elementu , aby opóźnić pierwszą ocenę zasad zakończenia dla określonej liczby sekwencji.

Aby uzyskać więcej informacji na temat stosowania zasad wczesnego kończenia, zobacz Dostosowywanie hiperparametrów dla modelu.

Atrybuty

delay_evaluation

Zwróć liczbę sekwencji, dla których pierwsza ocena jest opóźniona.

Zwraca

Typ	Opis
int	Ocena opóźnienia.

evaluation_interval

Zwraca wartość interwału oceny.

Zwraca

Typ	Opis
int	Interwał oceny.

slack_factor

Zwróć współczynnik slack w odniesieniu do najlepszego przebiegu treningowego.

Zwraca

Typ	Opis
float	Współczynnik luzu.

POLICY_NAME

POLICY_NAME = 'Bandit'

Sprzężenie zwrotne

Czy ta strona była pomocna?

Udostępnij przez

BanditPolicy Klasa

Konstruktor

Parametry

Uwagi

Atrybuty

delay_evaluation

Zwraca

evaluation_interval

Zwraca

slack_factor

Zwraca

POLICY_NAME

Sprzężenie zwrotne