BanditPolicy Klasa
Definiuje zasady wczesnego zakończenia na podstawie kryteriów slack oraz częstotliwość i interwał opóźnienia oceny.
Zainicjuj element BanditPolicy za pomocą współczynnika slack, slack_amount i interwału oceny.
Konstruktor
BanditPolicy(evaluation_interval=1, slack_factor=None, slack_amount=None, delay_evaluation=0)
Parametry
| Nazwa | Opis |
|---|---|
|
slack_factor
|
Współczynnik używany do obliczania dozwolonej odległości od najlepszego przebiegu eksperymentu. Domyślna wartość: None
|
|
slack_amount
|
Bezwzględna odległość dozwolona od najlepszego przebiegu. Domyślna wartość: None
|
|
evaluation_interval
|
Częstotliwość stosowania zasad. Domyślna wartość: 1
|
|
delay_evaluation
|
Liczba interwałów, dla których należy opóźnić pierwszą ocenę zasad.
Jeśli zostanie określona, zasady stosują każdą wielokrotność Domyślna wartość: 0
|
|
slack_factor
Wymagane
|
Współczynnik używany do obliczania dozwolonej odległości od najlepszego przebiegu eksperymentu. |
|
slack_amount
Wymagane
|
Bezwzględna odległość dozwolona od najlepszego przebiegu. |
|
evaluation_interval
Wymagane
|
Częstotliwość stosowania zasad. |
|
delay_evaluation
Wymagane
|
Liczba interwałów, dla których należy opóźnić pierwszą ocenę zasad.
Jeśli zostanie określona, zasady stosują każdą wielokrotność |
Uwagi
Zasady bandytu pobierają następujące parametry konfiguracji:
slack_factor: Ilość luzu dozwolonego w odniesieniu do najlepszego przebiegu treningowego. Ten czynnik określa luz jako stosunek.slack_amount: Ilość luzu dozwolonego w odniesieniu do najlepszego przebiegu treningowego. Ten czynnik określa luz jako bezwzględną kwotę.evaluation_interval: opcjonalne. Częstotliwość stosowania zasad. Za każdym razem, gdy skrypt trenowania rejestruje metryki podstawowe są liczone jako jeden interwał.delay_evaluation: opcjonalne. Liczba interwałów opóźniania oceny zasad. Użyj tego parametru, aby uniknąć przedwczesnego zakończenia przebiegów trenowania. Jeśli zostanie określona, zasady stosują każdą wielokrotnośćevaluation_interval, która jest większa lub równadelay_evaluation.
Wszystkie przebiegi, które nie należą do współczynnika slack lub slack metryki oceny w odniesieniu do najlepszego przebiegu, zostaną zakończone.
Rozważ zasady bandytu z slack_factor = 0,2 i evaluation_interval = 100.
Załóżmy, że przebieg X jest obecnie najlepiej działający z metryką AUC (metryką wydajności) 0,8 po 100 interwałach. Ponadto załóżmy, że najlepszym rozwiązaniem AUC zgłoszonym dla przebiegu jest Y. Te zasady porównują wartość (Y + Y * 0,2) do 0,8, a jeśli są mniejsze, anuluje przebieg. Jeśli delay_evaluation = 200, po raz pierwszy zasady będą stosowane w interwale 200.
Teraz rozważ zasady bandytu z slack_amount = 0,2 i evaluation_interval = 100.
Jeśli przebieg 3 jest obecnie najlepszym przebiegiem z metryką AUC (metryką wydajności) 0,8 po 100 interwałach, każde uruchomienie z AUC mniejszym niż 0,6 (0,8 –0,2) po 100 iteracji zostanie zakończone.
delay_evaluation Podobnie można użyć elementu , aby opóźnić pierwszą ocenę zasad zakończenia dla określonej liczby sekwencji.
Aby uzyskać więcej informacji na temat stosowania zasad wczesnego kończenia, zobacz Dostosowywanie hiperparametrów dla modelu.
Atrybuty
delay_evaluation
Zwróć liczbę sekwencji, dla których pierwsza ocena jest opóźniona.
Zwraca
| Typ | Opis |
|---|---|
|
Ocena opóźnienia. |
evaluation_interval
slack_factor
Zwróć współczynnik slack w odniesieniu do najlepszego przebiegu treningowego.
Zwraca
| Typ | Opis |
|---|---|
|
Współczynnik luzu. |
POLICY_NAME
POLICY_NAME = 'Bandit'