데이터 마이닝 추가 기능을 사용하면 모델을 만들고 실험하는 것이 매우 쉽고 재미있지만 반복 가능하고 실행 가능한 결과를 얻어야 하는 경우 기본 비즈니스 요구 사항을 공식화하고 데이터를 가져오고 준비하는 데 충분한 시간을 허용해야 합니다. 이 섹션에서는 조사를 계획하는 데 도움이 되는 검사 목록을 제공하고 일반적인 문제를 설명합니다.
데이터 준비 검사 목록
명확하게 정의된 출력을 확인했습니다.
결과를 사용하는 방법에 대한 계획을 세워야 합니다. 모델 유형에 따라 출력이 다릅니다. 시계열 모델은 미래의 계열에 대한 값을 생성하며, 이 값들은 이해하기 쉽고 실행하기 용이합니다. 다른 모델은 가장 많은 가치를 창출하기 위해 주제 전문가가 분석해야 하는 복잡한 집합을 생성합니다.
원하는 출력은 무엇인가요?
출력을 단일 열 또는 값 또는 기타 실행 가능한 결과로 정의할 수 있나요?
모델이 유용하다는 것을 알기 위한 기준은 무엇인가요?
이러한 결과를 어떻게 사용하고 해석할 것인가?
새 입력 데이터를 예상 결과에 매핑할 수 있나요?
입력 데이터의 의미, 데이터 형식 및 분포를 알고 있습니다.
잠시 시간을 내어 원본 데이터를 탐색하고 이해합니다. 모델을 검토하는 사람들은 사용된 입력 데이터의 종류를 이해하고 데이터 형식과 가변성, 균형 및 품질을 해석하는 방법을 알고 있는 것이 중요합니다.
얼마나 많은 데이터가 있나요? 모델링에 충분한 데이터가 있나요?
그것은 엄청난 금액이 될 필요가 없습니다 - 작고 균형 잡힌 것이 더 좋을 수 있습니다.
여러 원본의 데이터인가요, 아니면 단일 원본인가요?
데이터가 이미 처리되고 정리되었나요? 더 많은 입력 데이터를 사용할 수 있나요?
데이터를 받기 전에 조작된 방법을 알고 계십니까? 데이터가 어떻게 잘리거나 요약되거나 변환되었을 수 있나요?
입력 데이터에 학습에 사용할 수 있는 몇 가지 예제 결과가 있나요?
데이터 무결성 수준과 필요한 수준을 이해합니다.
잘못된 데이터는 모델의 품질에 영향을 주거나 모델이 전혀 빌드되지 않도록 할 수 있습니다. 데이터의 분포와 의미, 그리고 이 상태에 어떻게 적용되었는지를 잘 알고 있어야 합니다. 레이블 지정, 숫자 데이터 형식 잘림 또는 요약을 통해 데이터를 단순화하는 것이 가능한지 또는 적절한지 이해해야 합니다.
데이터 레이블: 명확하고 올바른가요?
데이터 형식: 적절하며 변경되었나요?
잘못된 데이터를 정렬, 정리 또는 삭제했나요?
중복 항목이 없는지 확인했나요?
누락된 값을 처리하려면 어떻게 해야 합니까? 누락된 값에 의미가 있나요?
가져오기 프로세스에서 오류가 발생했는지 확인하기 위해 원본을 확인했나요?
입력은 어디에 저장되는가? 사용 가능한 기간은 얼마인가요?
데이터 사전이 있나요? 만들 수 있나요?
데이터 집합을 결합한 경우 동일한 데이터를 나타내는 여러 열을 확인했나요?
원본 데이터가 저장되는 위치, 원본 위치 및 처리 방법을 알고 있습니다. 필요한 경우 프로세스를 쉽게 반복할 수 있습니다.
일회성 데이터 세트는 실험에 적합하지만 모델을 프로덕션으로 이동하려는 경우 정리 프로세스를 운영 데이터에 적용하는 방법을 미리 생각해 볼 수 있습니다. 또한 운영 데이터가 있는 경우, 이를 얻기 전에 데이터가 어떻게 변경되었는지, 예를 들어 반올림되거나 요약된 방법에 대해 확실히 알아야 합니다.
실험을 반복하시겠습니까?
데이터 분석을 지원하는 형식으로 데이터를 준비하는 데 사용할 도구는 무엇인가요? 자동화할 수 있나요 아니면 Excel에서 검토하고 정리할 사람이 필요한가요?
다른 시스템에서 데이터를 소싱하는 경우 적용된 필터를 캡처하고 추적할 수 있나요?
데이터 처리 프레임워크도 기계 학습 알고리즘을 적용하고, 테스트를 수행하고, 결과를 시각화할 수 있나요?
예측의 원하는 세분성에 동의했으며 해당 단위를 출력하도록 데이터가 수정되었습니다.
데이터를 준비하기 전에 원하는 결과의 세분성을 결정합니다. 예를 들어 일별 또는 각 분기에 대한 판매 예측을 원하십니까? 여러 수준의 요약을 처리하기 위해 동일한 데이터에 대해 서로 다른 데이터 구조를 설정하는 것이 좋습니다.
현재 측정 단위 또는 시간 단위는 무엇인가요?
결과에 어떤 단위를 사용하시겠습니까?
모든 입력 데이터에 대한 기본 단위(예: 일/시간/분/명령 호출)를 정의할 수 있나요?
더 높은 단위로 롤업하시겠습니까?
범주에 일관되게 레이블이 지정되어 있나요? 범주를 쉽게 추가하거나 제거할 수 있나요?
실험적 디자인은 반복 가능하고 재현 가능합니다.
결과를 분석하고 유효성을 검사하기 위한 전략을 고려하고 데이터 스냅샷을 캡처하여 데이터에 대한 효과를 추적할 수 있도록 계획합니다. 임의 시드를 사용하는 경우 결과는 미묘하게 다를 수 있습니다. 이렇게 하면 모델을 비교하고 유효성을 검사하기가 어려울 수 있습니다.
데이터에 대한 사용자 지정 변경을 많이 수행하면 다음에 모델을 빌드할 때 어떻게 되나요?
입력을 처리하고 원하는 출력을 가져오는 데 사용해야 하는 수동 절차 또는 승인된 프로세스가 이미 정의되었나요?
모델에 시드를 사용할지 결정했나요?
Microsoft는 결과의 유효성을 검사하거나 조언할 수 있는 실무 전문가에게 액세스할 수 있는 도메인 지식을 가지고 있습니다.
시간을 내어 변수, 모델 및 결과의 유효성을 검사합니다. 전문가의 도움을 받아 상호 작용 및 결과를 평가합니다. 그러나 가정이 증거를 지배하지 않도록 합니다. 새롭고 예기치 않은 발견에 마음을 열어 두세요.
데이터를 필터링하고 입력 노이즈를 줄이는 데 도메인 지식을 사용할 수 있나요?
도메인 전문가가 결과를 해석하고 향상된 기능을 제안할 수 있나요?