다음을 통해 공유


의사 결정 트리 모델 탐색(기본 데이터 마이닝 자습서)

Microsoft 의사 결정 트리 알고리즘은 학습 집합의 나머지 열을 기반으로 자전거 구매 결정에 영향을 주는 열을 예측합니다.

의사 결정 트리 탭

의사 결정 트리 탭에서 데이터 세트의 모든 예측 가능한 특성에 대한 의사 결정 트리를 볼 수 있습니다.

이 경우 모델은 하나의 열인 Bike Buyer만 예측하므로 하나의 트리만 볼 수 있습니다. 트리가 더 있는 경우 트리 상자를 사용하여 다른 트리를 선택할 수 있습니다.

의사 결정 트리 뷰어에서 TM_Decision_Tree 모델을 볼 때, 차트 왼쪽에 가장 중요한 속성이 표시됩니다. "가장 중요한"은 이러한 특성이 결과에 가장 큰 영향을 미친다는 것을 의미합니다. 트리의 오른쪽에 있는 특성은 효과가 적습니다.

이 예제에서 나이는 자전거 구매를 예측하는 데 가장 중요한 요소입니다. 모델은 고객을 연령별로 그룹화한 다음 각 연령 그룹에 대해 다음으로 더 중요한 특성을 표시합니다. 예를 들어 34세에서 40세 사이의 고객 그룹에서 소유되는 자동차의 수는 연령 이후에 가장 강력한 예측자입니다.

의사 결정 트리 탭에서 모델을 탐색하려면

  1. 데이터 마이닝 디자이너에서 마이닝 모델 뷰어 탭을 선택합니다.

    기본적으로 디자이너는 구조체에 추가된 첫 번째 모델(이 경우 TM_Decision_Tree)을 엽니다.

  2. 돋보기 단추를 사용하여 트리 디스플레이의 크기를 조정합니다.

    기본적으로 Microsoft 트리 뷰어는 트리의 처음 세 수준만 표시합니다. 트리에 3개 미만의 수준이 포함된 경우 뷰어는 기존 수준만 표시합니다. 수준 표시 슬라이더 또는 기본 확장 목록을 사용하여 더 많은 수준을 볼 수 있습니다.

  3. 슬라이드 쇼 수준을 네 번째 막대로 이동합니다.

  4. 배경 값을 .로 1변경합니다.

    백그라운드 설정을 변경하여 [Bike Buyer]의 대상 값을 가진 각 노드의 1 사례 수를 빠르게 확인할 수 있습니다. 이 특정 시나리오에서 각 사례는 고객을 나타냅니다. 값 1 은 고객이 이전에 자전거를 구입했음을 나타냅니다. 값 0 은 고객이 자전거를 구입하지 않았다는 것을 나타냅니다. 노드의 음영이 어둡을수록 대상 값이 있는 노드의 사례 비율이 높아질 수 있습니다.

  5. 전체라는 레이블이 지정된 노드에 커서를 올리세요. 도구 설명에는 다음 정보가 표시됩니다.

    • 총 사례 수

    • 자전거를 구매하지 않은 사람의 사례 수

    • 자전거 구매자 사례 수

    • [Bike Buyer]에 대한 값이 누락된 사례 수

    또는 트리의 노드 위에 커서를 놓아 노드 앞에 오는 노드에서 해당 노드에 도달하는 데 필요한 조건을 확인합니다. 마이닝 범례에서 이 동일한 정보를 볼 수도 있습니다.

  6. Age >=34 및 < 41 노드를 클릭합니다. 히스토그램은 노드에 걸쳐 얇은 가로 막대로 표시되며 이전에 자전거를 구매하지 않은(분홍색) 이 연령 범위의 고객의 분포를 나타냅니다. 뷰어는 34세에서 40세 사이의 고객이 자동차를 하나 또는 전혀 구입하지 않은 경우 자전거를 구매할 가능성이 있음을 보여 주었습니다. 한 걸음 더 나아가 고객이 실제로 38세에서 40세 사이의 경우 자전거를 구매할 가능성이 높아집니다.

구조 및 모델을 만들 때 드릴스루를 사용하도록 설정했기 때문에 마이닝 모델에 포함되지 않은 열(예: emailAddress, FirstName)을 포함하여 모델 사례 및 마이닝 구조에서 자세한 정보를 검색할 수 있습니다.

자세한 내용은 드릴스루 쿼리(데이터 마이닝)를 참조하세요.

사례 데이터를 관통하려면

  1. 노드를 마우스 오른쪽 단추로 클릭하고 드릴스루 를 선택한 다음 열만 모델링합니다.

    각 학습 사례에 대한 세부 정보는 스프레드시트 형식으로 표시됩니다. 이러한 세부 정보는 마이닝 구조를 빌드할 때 사례 테이블로 선택한 vTargetMail 보기에서 제공됩니다.

  2. 노드를 오른쪽 클릭하고 드릴 스루를 선택한 다음 모델과 구조 열을 선택합니다.

    끝에 구조 열이 추가된 동일한 스프레드시트가 표시됩니다.

종속성 네트워크 탭

종속성 네트워크 탭에는 마이닝 모델의 예측 기능에 기여하는 특성 간의 관계가 표시됩니다. 종속성 네트워크 뷰어는 연령 및 지역이 자전거 구매를 예측하는 데 중요한 요소라는 연구 결과를 강화합니다.

종속성 네트워크 탭에서 모델을 탐색하려면
  1. 노드를 Bike Buyer 클릭하여 해당 종속성을 식별합니다.

    종속성 네트워크의 Bike Buyer중심 노드는 마이닝 모델의 예측 가능한 특성을 나타냅니다. 그래프는 예측 가능한 특성에 영향을 주는 연결된 노드를 강조 표시합니다.

  2. 가장 영향력 있는 특성을 식별하도록 모든 링크 슬라이더를 조정합니다.

    슬라이더를 아래로 끌면 [Bike Buyer] 열에 약하게만 영향을 미치는 특성이 그래프에서 자동으로 제거됩니다. 슬라이더를 조정하면 Age 및 Region이 자전거 구매자인지 여부를 예측하는 데 가장 큰 요인임을 알 수 있습니다.

다른 종류의 모델을 사용하여 데이터를 탐색하려면 다음 항목을 참조하세요.

수업의 다음 과제

클러스터링 모델 탐색(기본 데이터 마이닝 자습서)

또한 참조하십시오

마이닝 모델 뷰어 작업 및 방법
의사 결정 트리 탭(마이닝 모델 뷰어)
종속성 네트워크 탭(마이닝 모델 뷰어)
Microsoft 트리 뷰어를 사용하여 모델 찾아보기