데이터에 특이한 값이 포함될 수 있습니다. 예를 들어 주택 소유자의 나이는 5세로 나열될 수 있습니다. 종종 이상값이라고 하는 이러한 값은 데이터 입력 오류로 인해 잘못되거나 비정상적인 추세를 나타낼 수 있습니다. 어느 쪽이든 예외는 분석 품질에 영향을 줄 수 있습니다. 예외 강조 표시 도구를 사용하면 이러한 값을 찾고 검토하여 추가 작업을 수행할 수 있습니다.
예외 강조 표시 도구는 Excel 데이터 테이블의 전체 데이터 범위에서 작동하거나 몇 개의 열만 선택할 수 있습니다. 데이터의 가변성을 제어하는 임계값을 조정하여 더 많거나 적은 예외를 찾을 수도 있습니다.
이 도구는 분석을 완료하면 분석한 각 열에서 발견된 이상값 수에 대한 요약 보고서가 포함된 새 워크시트를 만듭니다. 이 도구는 원래 데이터 테이블의 예외도 강조 표시합니다. 도구는 전반적인 추세를 분석하기 때문에 행의 값 대부분이 정상이며 해당 행의 셀 하나만 강조 표시할 수 있습니다. 위의 주택 소유자 예제에서는 Age 열만 강조 표시될 수 있습니다.
요약 보고서에서예외 임계값을 변경할 수도 있습니다. 이 값은 특정 셀에 비정상적인 값이 포함될 확률을 나타냅니다. 따라서 값을 늘리면 더 적은 값이 이상값으로 강조 표시됩니다. 반대로 값을 줄이면 강조 표시된 셀이 더 많이 표시됩니다.
예외 강조 표시 도구 사용
Excel 표를 열고 예외 강조 표시를 클릭합니다.
분석할 열을 지정합니다.
실행을 클릭합니다.
워크시트 <table name> Outliers을 열어 찾은 이상값의 요약을 봅니다.
강조 표시 수를 변경하려면 예외 강조 보고서의예외 임계값 행에서 위쪽 및 아래쪽 화살표를 클릭합니다.
요구 사항
이러한 값에 다른 행을 예측하는 데 유용할 수 있는 정보가 포함된 경우 잘못된 값을 포함하지 않는 열을 포함할 수 있습니다. 그러나 누락되거나 0 값이 많은 열의 선택을 취소해야 합니다.
선택한 모든 열은 일반 패턴을 만드는 데 사용되므로 다음과 같은 잘못된 정보가 있는 것으로 알고 있는 입력 열을 사용하지 않아야 합니다.
ID와 같은 고유한 값을 포함하는 열입니다.
잘못된 값의 비율이 높은 열입니다.
누락된 값이 많은 열입니다.
누락된 값이 많은 입력 열을 포함하는 것이 유용한 경우도 있습니다. 예를 들어 고객이 소매업체를 통해 구매할 때 주소 필드의 값이 항상 누락된 경우 데이터 마이닝 알고리즘은 이 정보를 사용하여 다른 유사한 고객을 식별할 수 있습니다. 데이터가 누락됐는지 여부는 경우별로 확인해야 하며, 누락이 의도된 상태인지 아니면 누락으로 생긴 것인지 결정해야 합니다.
패턴을 만드는 데 유용하지 않을 열입니다. 예를 들어 모든 행의 값이 같은 열은 패턴을 작성하는 데 유용한 정보를 추가하지 않습니다.
강조 표시 예외 보고서 이해
실행을 클릭하면 도구에서 다음 세 가지 작업을 수행합니다.
테이블의 현재 데이터를 기반으로 데이터 마이닝 구조를 만듭니다.
Microsoft 클러스터링 알고리즘을 사용하여 새 데이터 마이닝 모델을 만듭니다.
패턴에 따라 예측 쿼리를 만들어 워크시트의 값이 불가능한지 여부를 확인합니다.
예외 임계값의 초기 값은 항상 75입니다. 즉, 계산된 알고리즘에 강조 표시된 데이터가 잘못되었을 가능성이 75% 있습니다. 이 도구는 초기 분석 통과에 대해 이 임계값을 자동으로 설정하지만 보고서의 값을 변경할 수 있습니다.
예외 강조 표시 도구는 의심스러운 원래 데이터 테이블의 셀을 강조 표시합니다. 어두운 강조 표시는 행에 주의가 필요하다는 것을 의미합니다. 밝은 강조 표시는 특정 셀의 값이 용의자로 확인되었음을 의미합니다. 예외에 대한 임계값을 변경하면 강조 표시된 값이 그에 따라 변경됩니다.
요약 차트는 예외 임계값을 초과한 각 열의 셀 수를 보여줍니다.
관련 도구
데이터 마이닝 준비를 위해 데이터를 정리하거나 검토할 때 Excel용 데이터 마이닝 클라이언트의 데이터 탐색 기능을 사용해 볼 수도 있습니다. 이 추가 기능은 이상값을 찾거나, 데이터의 레이블을 다시 지정하거나, 데이터 배포를 볼 수 있는 고급 도구를 제공합니다. Excel용 데이터 마이닝 클라이언트의 데이터 탐색 도구에 대한 자세한 내용은 데이터 탐색 및 정리를 참조하세요.
예외 강조 표시 도구는 Microsoft 클러스터링 알고리즘을 사용합니다. 클러스터링 모델은 유사한 특성을 공유하는 행 그룹을 검색합니다. Excel용 데이터 마이닝 클라이언트는 그래프 및 특성 프로필을 사용하여 클러스터링으로 만든 데이터 마이닝 모델을 탐색할 수 있는 찾아보기 창을 제공합니다. 예외 강조 표시 도구에서 만든 클러스터링 모델을 찾아보는 방법에 대한 자세한 내용은 모델 찾아보기(Excel용 데이터 마이닝 클라이언트)를 참조하세요.
Microsoft 클러스터링 알고리즘에 대한 자세한 내용은 SQL Server 온라인 설명서의 "Microsoft 클러스터링 알고리즘" 항목을 참조하세요.