샘플 데이터 마법사를 사용하면 원본 데이터를 모델을 빌드(학습)하기 위한 집합과 모델 테스트를 위한 집합으로 쉽게 나눌 수 있습니다. 이 마법사는 대상을 더 잘 나타내는 새 데이터 집합을 빌드하기 위해 데이터를 다시 샘플링하는 옵션도 제공합니다.
모델 학습 및 테스트에 적합한 종류의 데이터를 만드는 것은 데이터 마이닝의 중요한 부분이지만 올바른 도구 없이는 지루할 수 있습니다. 마법사는 계층화된 샘플링을 수행하여 학습 및 테스트 집합의 균형이 잘 조정되었는지 확인합니다.
임의 샘플링 및 오버샘플링
. 임의 샘플링은 모델을 테스트하는 데 사용하는 데이터가 모델을 만드는 데 사용하는 데이터를 공정하게 나타내는 가장 좋은 방법입니다. Excel 또는 외부 데이터 원본에 저장된 데이터를 임의로 샘플링할 수 있습니다.
임의 샘플링 옵션을 사용하는 경우 샘플 데이터 마법사는 학습 및 테스트 데이터 집합을 자동으로 만들고 나중에 참조할 수 있도록 별도의 Excel 워크시트에 출력합니다.
데이터가 외부 데이터 원본이 아닌 Excel 통합 문서에 저장된 경우 오버샘플링을 사용할 수도 있습니다. 이 옵션을 사용하면 데이터에 부족할 수 있는 대상 값을 지정하고 마법사는 더 많은 대상 값을 포함하는 균형 잡힌 집합을 수집합니다. 마법사가 대상 백분율을 달성하거나 특정 개수의 행을 만들도록 지시할 수 있습니다.
오버샘플링 옵션을 사용하는 경우 샘플 데이터 마법사는 새로 균형 잡힌 샘플 데이터가 포함된 새 워크시트를 만듭니다.
샘플 데이터 마법사 사용
데이터를 학습 및 테스트 집합으로 구분하려면
데이터 마이닝 리본에서 샘플 데이터를 클릭합니다.
원본 데이터 선택 페이지에서 분할하려는 데이터가 Excel 범위 또는 테이블 또는 외부 데이터 원본에 있는지 여부를 지정합니다.
샘플링 유형 선택 페이지에서 임의 샘플링을 통해 학습 및 테스트 데이터 집합을 만들 것인지 아니면 초과 샘플링을 통해 새 데이터 집합을 만들 것인지 지정합니다.
비고
외부 데이터 원본을 사용하는 경우 임의 샘플링 옵션만 사용할 수 있습니다. 외부 데이터와 함께 오버샘플링을 사용하려면 Excel 데이터 연결을 사용하여 Excel 통합 문서로 데이터를 가져온 다음 샘플 데이터 마법사를 사용할 수 있습니다.
선택한 샘플링 방법과 관련된 옵션을 설정합니다.
무작위 샘플링의 경우 테스트에 사용할 원래 데이터의 백분율 또는 테스트 데이터 집합에 사용할 총 행 수를 지정합니다.
오버샘플링의 경우 강조할 열과 값을 선택합니다. 그런 다음 새 데이터 집합의 총 행 수와 대상 값을 포함해야 하는 새 데이터 집합의 행 백분율을 지정합니다.
오버샘플링의 대상 값은 불연속 값이어야 합니다. 연속 숫자 데이터를 오버샘플링할 수 없습니다.
마침 페이지에서 새 데이터 집합의 기본 이름을 적용하거나 새 이름을 입력합니다.
마법사는 각 데이터 집합에 대한 새 워크시트를 만듭니다.
Excel용 데이터 마이닝 클라이언트의 대부분의 마법사에서는 데이터를 학습 및 테스트 집합으로 임의로 구분하는 옵션도 제공합니다. 그러나 마법사를 사용하는 경우 데이터는 동일한 워크시트(또는 다른 데이터 원본)에 유지되며 특정 행이 테스트 사례인지 아니면 학습 사례인지에 대한 정보는 내부적으로 저장됩니다. 반면 , 샘플 데이터 마법사를 사용하는 경우 테스트 및 학습 데이터는 쉽게 참조할 수 있도록 워크시트에 출력됩니다.
관련 옵션
마법사를 진행하면 다음과 같은 옵션이 제공됩니다.
| 옵션 | 코멘트 |
|---|---|
| 원본 데이터 선택 대화 상자(Excel용 데이터 마이닝 클라이언트) | 데이터가 포함된 Excel 범위 또는 테이블을 선택합니다. 외부 데이터를 사용하려는 경우 데이터는 관계형일 수 있지만 Analysis Services 데이터 원본에 포함되어야 합니다. T |
| 샘플링 유형 선택 페이지(Excel용 데이터 마이닝 클라이언트) | 외부 데이터 원본을 사용하는 경우 임의 샘플링 옵션을 사용하도록 제한됩니다. 또한 행 개수 옵션을 사용하여 최종 데이터 집합에서 만들 행 수를 지정해야 합니다. 원본 데이터의 백분율을 지정할 수 없습니다. |
| 임의 샘플링 페이지(Excel용 데이터 마이닝 클라이언트) | 원본에서 행의 백분율 또는 특정 행 수를 복사할 수 있습니다. |
| 오버샘플링 페이지(Excel용 데이터 마이닝 클라이언트) |
대상 상태 원래 데이터 집합에서 과소 표현된 목록에서 값을 선택합니다. 오버샘플링은 이 상태를 포함하는 데이터 행의 비율을 증가합니다. 샘플 크기 추출할 총 행 수를 선택합니다. 이 값은 최종 데이터 집합의 크기를 나타냅니다. |
기타 샘플링 옵션
이 마법사의 샘플링 옵션이 요구 사항을 충족하지 않는 경우 SSIS(SQL Server Integration Services)에서 샘플링 변환을 사용하여 여러 데이터 원본의 행을 샘플링할 수 있습니다.
자세한 내용은 행 샘플링 변환 및 백분율 샘플링 변환을 참조하세요.