BanditPolicy 클래스

slack 조건 및 평가 빈도 및 지연 간격을 기반으로 조기 종료 정책을 정의합니다.

slack 요소, slack_amount 및 평가 간격을 사용하여 BanditPolicy를 초기화합니다.

생성자

BanditPolicy(evaluation_interval=1, slack_factor=None, slack_amount=None, delay_evaluation=0)

매개 변수

Name	Description
slack_factor	float 가장 성능이 좋은 실험 실행에서 허용되는 거리를 계산하는 데 사용되는 비율입니다. Default value: None
slack_amount	float 가장 성능이 좋은 실행에서 허용되는 절대 거리입니다. Default value: None
evaluation_interval	int 정책 적용에 대한 빈도입니다. Default value: 1
delay_evaluation	int 첫 번째 정책 평가를 지연할 간격의 수입니다. 지정한 경우 정책은 해당 값이 `evaluation_interval` 1보다 크거나 같은 모든 배수를 적용합니다 `delay_evaluation`. Default value: 0
slack_factor 필수	float 가장 성능이 좋은 실험 실행에서 허용되는 거리를 계산하는 데 사용되는 비율입니다.
slack_amount 필수	float 가장 성능이 좋은 실행에서 허용되는 절대 거리입니다.
evaluation_interval 필수	int 정책 적용에 대한 빈도입니다.
delay_evaluation 필수	int 첫 번째 정책 평가를 지연할 간격의 수입니다. 지정한 경우 정책은 해당 값이 `evaluation_interval` 1보다 크거나 같은 모든 배수를 적용합니다 `delay_evaluation`.

설명

산적 정책은 다음 구성 매개 변수를 사용합니다.

slack_factor: 최상의 학습 실행과 관련하여 허용되는 여유 공간의 양입니다. 이 요소는 여유를 비율로 지정합니다.
slack_amount: 최상의 학습 실행과 관련하여 허용되는 여유 공간의 양입니다. 이 요소는 여유를 절대 크기로 지정합니다.
evaluation_interval: 선택 사항입니다. 정책 적용에 대한 빈도입니다. 학습 스크립트에서 기본 메트릭을 기록할 때마다 한 번의 간격으로 계산됩니다.
delay_evaluation: 선택 사항입니다. 정책 평가를 지연할 간격 수입니다. 학습 실행의 조기 종료를 방지하려면 이 매개 변수를 사용합니다. 지정한 경우 정책은 해당 값이 evaluation_interval 1보다 크거나 같은 모든 배수를 적용합니다 delay_evaluation.

성능이 가장 좋은 실행과 관련하여 평가 메트릭의 slack 요소 또는 slack 양에 속하지 않는 모든 실행은 종료됩니다.

= 0.2 및 slack_factor = 100인 산적 정책을 evaluation_interval 고려합니다. 실행 X가 100 간격 후에 AUC(성능 메트릭)가 0.8인 현재 가장 성능이 뛰어난 실행이라고 가정합니다. 또한 실행에 대해 보고된 최상의 AUC가 Y라고 가정합니다. 이 정책은 값(Y + Y * 0.2)을 0.8과 비교하고, 작으면 실행을 취소합니다. = 200이면 delay_evaluation 정책을 처음 적용할 때 간격이 200입니다.

이제 = 0.2 및 slack_amount = 100인 evaluation_interval 산적 정책을 고려합니다. 실행 3이 100 간격 후에 AUC(성능 메트릭)가 0.8인 현재 가장 성능이 뛰어난 실행인 경우 100회 반복 후 AUC가 0.6(0.8 - 0.2) 미만인 실행은 종료됩니다. 마찬가지로, 특정 수의 delay_evaluation 시퀀스에 대한 첫 번째 종료 정책 평가를 지연하는 데 사용할 수도 있습니다.

초기 종료 정책을 적용하는 방법에 대한 자세한 내용은 모델에 대한 하이퍼 매개 변수 조정을 참조하세요.

특성

delay_evaluation

첫 번째 평가가 지연되는 시퀀스 수를 반환합니다.

반환

형식	Description
int	지연 평가입니다.

evaluation_interval

평가 간격 값을 반환합니다.

반환

형식	Description
int	평가 간격입니다.

slack_factor

성능이 가장 뛰어난 학습 실행과 관련하여 slack 요소를 반환합니다.

반환

형식	Description
float	slack 요소입니다.

POLICY_NAME

POLICY_NAME = 'Bandit'

피드백

이 페이지가 도움이 되었나요?