다음을 통해 공유


교차 유효성 검사 보고서의 측정값

교차 유효성 검사 중에 Analysis Services는 마이닝 구조의 데이터를 여러 단면으로 나눈 다음 구조 및 관련된 마이닝 모델을 반복적으로 테스트합니다. 이 분석을 기반으로 구조 및 각 모델에 대한 표준 정확도 측정값 집합을 출력합니다.

보고서에는 데이터의 접기 수와 각 접기의 데이터 양에 대한 몇 가지 기본 정보와 데이터 분포를 설명하는 일반 메트릭 집합이 포함되어 있습니다. 각 단면에 대한 일반 메트릭을 비교하여 구조 또는 모델의 안정성을 평가할 수 있습니다.

Analysis Services는 마이닝 모델에 대한 자세한 측정값 집합도 표시합니다. 이러한 측정값은 모델 유형과 분석 중인 특성 유형(예: 불연속 또는 연속)에 따라 달라집니다.

이 섹션에서는 교차 유효성 검사 보고서에 포함된 측정값의 목록과 그 의미에 대해 설명합니다. 각 측정값을 계산하는 방법에 대한 자세한 내용은 교차 유효성 검사 수식을 참조하세요.

교차 유효성 검사 보고서의 측정값 목록

다음 표에서는 교차 유효성 검사 보고서에 표시되는 측정값을 나열합니다. 측정값은 다음 표의 왼쪽 열에 제공되는 테스트 유형별로 그룹화됩니다. 오른쪽 열은 보고서에 표시되는 측정값의 이름을 나열하고 의미에 대한 간략한 설명을 제공합니다.

테스트 유형 측정값 및 설명
클러스터링 클러스터링 모델에 적용되는 측정값:

사례 가능성: 이 측정값은 대개 사례가 특정 클러스터에 속할 가능성을 나타냅니다.
교차 유효성 검사의 경우 점수가 합산된 다음 사례 수로 나뉘므로 여기서 점수는 평균 사례 가능성입니다.
분류 분류 모델에 적용되는 측정값:

참 긍정/
True Negative/ 가양성/ 가양성: 예측 상태가 대상 상태와 일치하고 예측 확률이 지정된 임계값보다 큰 파티션의 행 또는 값 수입니다. 대상 특성에 대한 누락된 값이 있는 경우는 제외됩니다. 즉, 모든 값의 수가 더해지지 않을 수 있습니다.
통과/실패: 예측 상태가 대상 상태와 일치하고 예측 확률 값이 0보다 큰 파티션의 행 또는 값 수입니다.
가능성 가능성 측정값은 여러 모델 유형에 적용합니다.

리프트: 테스트 사례의 한계 확률에 대한 실제 예측 확률의 비율입니다. 대상 특성에 대한 값이 누락된 행은 제외됩니다. 이 측정값은 일반적으로 모델을 사용할 때 대상 결과의 확률이 얼마나 향상되는지를 보여 줍니다.

루트 평균 제곱 오차: 모든 파티션 사례에 대한 평균 오차의 제곱근으로, 대상 특성의 값이 누락된 행을 제외한 후, 파티션 내 사례 수로 나누어 계산합니다. RMSE는 예측 모델에 널리 사용되는 예측 도구입니다. 점수는 모델 오류의 단일 표시기를 생성하기 위해 각 사례의 잔차 평균을 계산합니다.

로그 점수: 각 사례에 대한 실제 확률의 로그로, 대상 특성에 대한 값이 누락된 행을 제외하고 입력 데이터 세트의 행 수를 합산한 다음 나눈 값입니다. 확률은 소수 자릿수로 표현되므로 로그 점수는 항상 음수입니다. 0에 가까운 숫자는 더 나은 점수입니다. 원시 점수는 매우 불규칙하거나 왜곡된 분포를 가질 수 있지만 로그 점수는 백분율과 유사합니다.
추정 연속 숫자 특성을 예측하는 예측 모델에만 적용되는 측정값:

루트 평균 제곱 오차: 예측 값이 실제 값과 비교할 때의 평균 오차입니다. RMSE는 예측 모델에 널리 사용되는 예측 도구입니다. 점수는 모델 오류의 단일 표시기를 생성하기 위해 각 사례의 잔차 평균을 계산합니다.

평균 절대 오차: 예측 값이 실제 값과 비교될 때의 평균 오차이며, 절대 오차 합계의 평균으로 계산됩니다. 평균 절대 오차는 예측이 실제 값과 얼마나 가까운지 이해하는 데 유용합니다. 점수가 작을수록 예측이 더 정확해집니다.

로그 점수: 각 사례에 대한 실제 확률의 로그로, 대상 특성에 대한 값이 누락된 행을 제외하고 입력 데이터 세트의 행 수를 합산한 다음 나눈 값입니다. 확률은 소수 자릿수로 표현되므로 로그 점수는 항상 음수입니다. 0에 가까운 숫자는 더 나은 점수입니다. 원시 점수는 매우 불규칙하거나 왜곡된 분포를 가질 수 있지만 로그 점수는 백분율과 유사합니다.
집합체 집계 측정값은 각 파티션에 대한 결과의 분산을 나타냅니다.

평균: 특정 측정값에 대한 파티션 값의 평균입니다.

표준 편차: 모델의 모든 파티션에서 특정 측정값에 대한 평균의 편차 평균입니다. 교차 유효성 검사의 경우 이 점수의 값이 높을수록 폴드 간에 큰 차이가 있습니다.

또한 참조하십시오

테스트 및 유효성 검사(데이터 마이닝)