다음을 통해 공유


의사 결정 트리 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)

이 항목에서는 Microsoft 의사 결정 트리 알고리즘을 사용하는 모델과 관련된 마이닝 모델 콘텐츠에 대해 설명합니다. 모든 모델 형식에 대한 마이닝 모델 콘텐츠에 대한 일반적인 설명은 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요. Microsoft 의사 결정 트리 알고리즘은 매우 다른 함수를 사용하여 모델을 만들 수 있는 하이브리드 알고리즘입니다. 의사 결정 트리는 연결, 규칙 또는 선형 회귀를 나타낼 수 있습니다. 트리의 구조는 기본적으로 동일하지만 정보를 해석하는 방법은 모델을 만든 목적에 따라 달라집니다.

의사 결정 트리 모델의 구조 이해

의사 결정 트리 모델에는 모델 및 해당 메타데이터를 나타내는 단일 부모 노드가 있습니다. 부모 노드 아래에는 선택한 예측 가능한 특성을 나타내는 독립 트리가 있습니다. 예를 들어 고객이 항목을 구매할지 여부를 예측하고 성별 및 소득에 대한 입력을 제공하도록 의사 결정 트리 모델을 설정하는 경우 모델은 구매 특성에 대한 단일 트리를 만들고, 많은 분기가 성별 및 소득과 관련된 조건으로 나눕니다.

그러나 고객 보상 프로그램에 참여하기 위해 예측 가능한 별도의 특성을 추가하는 경우 알고리즘은 부모 노드 아래에 두 개의 별도 트리를 만듭니다. 한 트리에는 구매에 대한 분석이 포함되고 다른 트리에는 고객 보상 프로그램에 대한 분석이 포함되어 있습니다. 의사 결정 트리 알고리즘을 사용하여 연결 모델을 만드는 경우 알고리즘은 예측 중인 각 제품에 대해 별도의 트리를 만들고 트리에는 대상 특성 선택에 기여하는 다른 모든 제품 조합이 포함됩니다.

비고

모델에 여러 트리가 포함된 경우 Microsoft 트리 뷰어에서 한 번에 하나의 트리만 볼 수 있습니다. 그러나 일반 콘텐츠 트리 뷰어 에서는 동일한 모델의 모든 트리가 동시에 표시됩니다.

의사 결정 트리를 위한 모델 콘텐츠의 구조

예측 가능한 각 특성의 트리에는 선택한 입력 열이 예측 가능한 특정 특성의 결과에 미치는 영향을 설명하는 정보가 포함되어 있습니다. 각 트리는 예측 가능한 특성이 포함된 노드(NODE_TYPE = 9)로 이동한 다음 입력 특성을 나타내는 일련의 노드(NODE_TYPE = 10)를 사용합니다. 특성은 대/소문자 수준 열 또는 중첩 테이블 열의 값에 해당하며 일반적으로 중첩 테이블 열의 값 Key 입니다.

내부 및 리프 노드는 분할 조건을 나타냅니다. 트리는 동일한 특성에서 여러 번 분할할 수 있습니다. 예를 들어 TM_DecisionTree 모델은 [연간 소득] 및 [자식 수]로 분할된 다음 트리 아래로 [연간 소득]에서 다시 분할될 수 있습니다.

Microsoft 의사 결정 트리 알고리즘은 트리의 전체 또는 일부에 선형 회귀를 포함할 수도 있습니다. 모델링하는 특성이 연속 숫자 데이터 형식인 경우 모델은 특성 간의 관계를 선형으로 모델링할 수 있는 경우 회귀 트리 노드(NODE_TYPE = 25)를 만들 수 있습니다. 이 경우 노드에는 회귀 수식이 포함됩니다.

그러나 예측 가능한 특성에 불연속 값이 있거나 숫자 값이 버킷 또는 불연속화된 경우 모델은 항상 분류 트리(NODE_TYPE =2)를 만듭니다. 분류 트리에는 특성의 각 값에 대해 여러 분기 또는 내부 트리 노드(NODE_TYPE =3)가 있을 수 있습니다. 그러나 분할이 특성의 각 값에 반드시 있는 것은 아닙니다.

Microsoft 의사 결정 트리 알고리즘은 연속 데이터 형식을 입력으로 허용하지 않습니다. 따라서 연속 숫자 데이터 형식이 있는 열이 있으면 값이 불연속화됩니다. 알고리즘은 모든 연속 특성에 대해 분할 지점에서 자체 불연속화를 수행합니다.

비고

Analysis Services는 연속 특성을 버킷팅하는 방법을 자동으로 선택합니다. 그러나 마이닝 구조 열의 콘텐츠 형식을 Discretized로 설정한 다음 DiscretizationBucketCount 또는 DiscretizationMethod 속성을 설정하여 입력의 연속 값을 불연속화하는 방법을 제어할 수 있습니다.

의사 결정 트리 모델에 대한 모델 콘텐츠

이 섹션에서는 의사 결정 트리 모델과 특별한 관련성이 있는 마이닝 모델 콘텐츠의 해당 열에 대한 세부 정보 및 예제만 제공합니다. 스키마 행 집합의 범용 열 및 마이닝 모델 용어에 대한 설명은 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.

모델 카탈로그
모델이 저장되는 데이터베이스의 이름입니다.

MODEL_NAME
모델의 이름입니다.

속성_이름
이 노드에 해당하는 특성의 이름입니다.

노드 이름
항상 NODE_UNIQUE_NAME 동일합니다.

노드_고유_이름
모델 내의 노드에 대한 고유 식별자입니다. 이 값은 변경할 수 없습니다.

의사 결정 트리 모델의 경우 고유 이름은 모든 알고리즘에 적용되지 않는 다음 규칙을 따릅니다.

특정 노드의 자식 노드에는 모두 동일한 16진수 접두사, 부모 내 자식 노드의 시퀀스를 나타내는 다른 16진수 번호가 있습니다. 접두사를 사용하여 경로를 유추할 수 있습니다.

노드_유형
의사 결정 트리 모델에서 다음과 같은 유형의 노드가 만들어집니다.

노드 형식 설명
1(모델) 모델의 루트 노드입니다.
2(트리) 모델의 분류 트리에 대한 부모 노드입니다. 레이블이 "All"입니다.
3(내부) 분류 트리 또는 회귀 트리 내에 있는 내부 노드의 최상위 노드입니다.
4(배포) 리프 노드는 분류 트리 또는 회귀 트리 내에서 찾을 수 있습니다.
25(회귀 트리) 모델 내의 회귀 트리에 대한 부모 노드입니다. "모두"로 레이블이 지정됩니다.

노드 캡션
표시를 위해 친숙한 이름입니다.

모델을 만들 때 NODE_UNIQUE_NAME 값이 자동으로 캡션으로 사용됩니다. 그러나 NODE_CAPTION 값을 변경하여 프로그래밍 방식으로 또는 뷰어를 사용하여 클러스터의 표시 이름을 업데이트할 수 있습니다. 캡션은 모델에 의해 자동으로 생성됩니다. 캡션의 내용은 모델 형식 및 노드 형식에 따라 달라집니다.

의사 결정 트리 모델에서 NODE_CAPTION 및 NODE_DESCRIPTION 트리의 수준에 따라 다른 정보를 갖습니다. 자세한 내용 및 예제는 노드 캡션 및 노드 설명을 참조하세요.

자식 수
노드에 있는 자식 수의 추정값입니다.

부모 노드 모델링된 예측 가능한 특성의 수를 나타냅니다. 예측 가능한 각 특성에 대해 트리가 만들어집니다.

트리 노드 각 트리의 모든 노드는 대상 특성에 사용된 값 수를 알려줍니다.

  • 대상 특성이 불연속인 경우, 값은 고유 값의 수에 Missing 상태에 대해 1을 더한 값과 같습니다.

  • 예측 가능한 특성이 연속인 경우 이 값은 연속 특성을 모델링하는 데 사용된 버킷 수를 알려줍니다.

리프 노드 항상 0.

상위_고유_이름
노드 부모의 고유 이름입니다. 루트 수준의 모든 노드에 대해 NULL이 반환됩니다.

노드 설명
노드에 대한 설명입니다.

의사 결정 트리 모델에서 NODE_CAPTION 및 NODE_DESCRIPTION 트리의 수준에 따라 다른 정보를 갖습니다.

자세한 내용 및 예제는 노드 캡션 및 노드 설명을 참조하세요.

노드 규칙
직계 부모 노드에서 현재 노드의 경로를 설명하는 규칙에 대한 XML 설명입니다.

자세한 내용 및 예제는 노드 규칙 및 한계 규칙을 참조하세요.

주변 규칙
모델 부모 노드에서 현재 노드로의 경로를 설명하는 규칙에 대한 XML 설명입니다.

자세한 내용은 노드 규칙 및 한계 규칙을 참조하세요.

노드 확률
이 노드와 연결된 확률입니다.

자세한 내용은 확률을 참조 하세요.

한계 확률
부모 노드에서 노드에 도달할 확률입니다.

자세한 내용은 확률을 참조 하세요.

노드 분포
노드의 확률 히스토그램을 포함하는 테이블입니다. 이 테이블의 정보는 예측 가능한 특성이 연속 변수인지 불연속 변수인지에 따라 다릅니다.

모델 루트 노드 이 테이블은 비어 있습니다.

(모두) 노드 전체 모델에 대한 요약을 포함합니다.

내부 노드 리프 노드에 대한 집계된 통계를 포함합니다.

리프 노드 현재 리프 노드로 이어지는 경로의 모든 조건에 따라 예측 결과에 대한 지원 및 확률을 포함합니다.

회귀 노드 입력과 예측 가능한 특성 간의 관계를 나타내는 회귀 수식을 포함합니다.

자세한 내용은 불연속 특성에 대한 노드 배포연속 특성에 대한 노드 분포를 참조하세요.

노드 지원
이 노드를 지원하는 사례 수입니다.

MSOLAP_MODEL_COLUMN
예측 가능한 특성을 포함하는 열을 나타냅니다.

MSOLAP_NODE_SCORE
노드와 연결된 점수를 표시합니다. 자세한 내용은 노드 점수를 참조하세요.

MSOLAP_NODE_SHORT_CAPTION
표시 용도로 사용되는 레이블입니다.

비고

의사 결정 트리 모델에는 Naive Bayes 또는 신경망 모델에 있는 한계 통계 노드와 달리 전체 모델에 대한 통계를 저장하는 별도의 노드가 없습니다. 대신, 모델은 트리의 맨 위에 (All) 노드를 사용하여 예측 가능한 각 특성에 대해 별도의 트리를 만듭니다. 각 트리는 다른 트리와 독립적입니다. 모델에 예측 가능한 특성이 하나만 포함된 경우 하나의 트리만 있으므로 하나의(All) 노드만 있습니다.

출력 특성을 나타내는 각 트리는 분할을 나타내는 내부 분기(NODE_TYPE = 3)로 추가로 세분화됩니다. 이러한 각 트리에는 대상 특성의 분포에 대한 통계가 포함됩니다. 또한 각 리프 노드(NODE_TYPE = 4)에는 입력 특성 및 해당 값을 설명하는 통계와 각 특성-값 쌍을 지원하는 사례 수가 포함됩니다. 따라서 의사 결정 트리의 모든 분기에서 원본 데이터를 쿼리하지 않고도 데이터의 확률 또는 분포를 쉽게 볼 수 있습니다. 트리의 각 레벨은 반드시 바로 아래 자식 노드의 합계를 나타냅니다.

이러한 통계를 검색하는 방법의 예는 의사 결정 트리 모델 쿼리 예제를 참조하세요.

의사 결정 트리 구조의 예

의사 결정 트리의 작동 방식을 이해하려면 AdventureWorks 자전거 구매자 시나리오와 같은 예를 고려하세요. 예측 가능한 특성이 고객 구매라고 가정할 때 의사 결정 트리 알고리즘은 사용자가 제공한 모든 입력 중에서 자전거를 구매할 가능성이 있는 고객과 자전거를 구입할 가능성이 낮은 고객을 가장 효과적으로 감지하는 데이터 열 하나를 찾으려고 합니다. 예를 들어 모델은 Age가 구매 동작의 가장 좋은 지표임을 확인할 수 있습니다. 특히, 30 세 이상의 고객은 자전거를 구입할 가능성이 매우 높으며 다른 모든 고객은 구매할 가능성이 낮습니다. 이 시나리오에서 모델은 Age 특성에 분할 을 만듭니다. 즉, 트리는 두 개의 분기로 나뉘며, 하나는 30세 이상의 고객을 포함하고 다른 하나는 30세 미만의 고객을 포함합니다. 새 분기는 모델 구조에서 두 개의 새 내부 트리로 표시됩니다(NODE_TYPE = 3).

각 분기에 대해 모델은 고객을 차별화하는 데 사용할 추가 특성을 계속 찾습니다. 데이터의 증거가 부족하여 고객의 하위 그룹을 계속 만들 수 없는 경우 모델은 트리 빌드를 중지합니다. 또한 분할이 얼마나 좋은지 또는 값이 null이거나 누락되었는지에 관계없이 노드의 사례 수가 너무 작아서 계속할 수 없을 때마다 모델에서 트리 빌드를 중지합니다. 트리의 증가를 일찍 중지하면 모델이 특정 데이터 집합에 너무 가깝게 학습되지 않도록 방지할 수 있습니다.

각 내부 트리 노드는 현재 분류 결과에 따른 결과의 분석을 제공하는 리프 노드를 포함합니다. 예를 들어 Age >= 30 및 Gender = Male을 나타내는 내부 노드가 있을 수 있습니다. 이 그룹의 노드는 이 범주에서 구매했거나 구매하지 않은 고객의 수를 보여줍니다. 예를 들어 분류에는 다음 트리 분할이 포함될 수 있습니다.

실내 나무 분할
나이 = 30세 > 나이 >= 30 그리고 성별 = 남성
나이 >= 30 그리고 성별 = 여성
30세 < 30세 < 및 성별 = 남성
30세 < 및 성별 = 여성

예측에 의사 결정 트리 모델을 사용하는 경우 모델은 사용자가 제공하는 특성을 인수로 사용하고 트리를 통해 특성의 경로를 따릅니다. 일반적으로 모든 예측은 리프로 이동하고 내부 노드는 분류에만 사용됩니다.

리프 노드는 항상 NODE_TYPE 4(분포)를 가지며 사용자가 제공하는 특성에 따라 각 결과(구매 또는 구매 안 됨)의 확률을 알려주는 히스토그램을 포함합니다. 예를 들어 60세 이상의 남성인 새 고객에 대한 예측을 요청하는 경우 모델은 해당 노드(30세 > 및 성별 = 남성)를 조회한 다음 지정한 결과에 대한 확률을 반환합니다. 이러한 확률은 노드의 NODE_DISTRIBUTION 테이블에 저장됩니다.

예측 가능한 특성이 연속 숫자인 경우 알고리즘은 예측 가능한 특성과 입력 간의 관계를 모델화하는 회귀 수식을 만들려고 합니다.

노드 캡션 및 노드 설명

의사 결정 트리 모델에서 노드 캡션 및 노드 설명에는 유사한 정보가 포함됩니다. 그러나 노드 설명은 더 완전하며 리프 노드에 더 가깝게 이동할 때 더 많은 정보를 포함합니다. 노드 캡션과 노드 설명은 모두 지역화된 문자열입니다.

NODE_CAPTION 부모 노드를 기준으로 특정 노드를 구분하는 특성을 표시합니다. 노드 캡션은 분할 조건을 기반으로 모집단의 하위 세그먼트를 정의합니다. 예를 들어 분할이 [Age]에 있고 3방향 분할인 경우 세 자식 노드의 노드 캡션은 "[Age] < 40", "40 = [Age] < 50<", "[Age] >= 50"일 수 있습니다.
NODE_DESCRIPTION 모델 부모 노드에서 시작하여 해당 노드를 다른 노드와 구분하는 특성의 전체 목록을 포함합니다. 예를 들어 제품 이름 = Apple 및 Color = Red입니다.

노드 규칙 및 한계 규칙

NODE_RULE 및 MARGINAL_RULE 열은 NODE_CAPTION 및 NODE_DESCRIPTION 열과 동일한 정보를 포함하지만 정보를 XML 조각으로 나타냅니다. 노드 규칙은 전체 경로의 XML 버전인 반면 한계 규칙은 가장 최근의 분할을 나타냅니다.

XML 조각이 나타내는 특성은 단순하거나 복잡할 수 있습니다. 단순 특성에는 모델 열의 이름과 특성 값이 포함됩니다. 모델 열에 중첩 테이블이 포함된 경우 중첩 테이블 특성은 테이블 이름, 키 값 및 특성의 연결로 표시됩니다.

비고

SQL Server Analysis Services는 중첩 테이블 사용을 지원하는 확장과 함께 PMML 표준 버전 2.0을 지원합니다. 데이터에 중첩 테이블이 포함되어 있고 모델의 PMML 버전을 생성하는 경우 조건자를 포함하는 모델의 모든 요소가 확장으로 표시됩니다.

불연속 속성에 대한 노드 분포

의사 결정 트리 모델에서 NODE_DISTRIBUTION 테이블에는 유용한 통계가 포함되어 있습니다. 그러나 통계 유형은 트리가 불연속 특성 또는 연속 특성을 예측하는지 여부에 따라 달라집니다. 이 섹션에서는 불연속 특성에 대한 노드 분포 통계의 의미를 설명합니다.

특성 이름 및 특성 값

분류 트리에서 특성 이름에는 항상 예측 가능한 열의 이름이 포함됩니다. 이 값은 트리에서 예측하는 내용을 알려줍니다. 단일 트리는 항상 예측 가능한 단일 특성을 나타내므로 이 값은 트리 전체에서 반복됩니다.

이산 데이터 유형의 경우, 속성 값 필드에는 예측 가능한 열의 모든 가능한 값과 Missing 값이 나열됩니다.

지원

각 노드에 대한 지원 값은 이 노드에 포함된 사례 수를 알려줍니다. (모두) 수준에서 모델을 학습시키는 데 사용된 사례의 전체 수가 표시됩니다. 트리의 각 분할에 대해 지원 값은 트리의 해당 노드로 그룹화된 사례의 수입니다. 리프 노드의 사례 합계는 반드시 트리의 부모 노드에 있는 사례 수와 같습니다.

연속 특성을 나타내는 노드의 경우 데이터에 null이 있으면 직관적이지 않은 결과가 발생할 수 있습니다. 예를 들어 m 사례가 있는 경우 평균 값은 합계(모든 경우)/n으로 계산됩니다. 여기서 n은 m보다 작은 숫자이고 m-n은 누락된 값이 있는 사례 수를 나타냅니다. 지원도 n으로 표시됩니다.

확률

각 노드와 연결된 확률은 전체 데이터 집합의 모든 사례가 이 특정 노드에서 끝날 확률을 알려줍니다. 확률 점수는 트리 전체와 즉시 분할에 대해 모두 계산됩니다.

예를 들어 다음 표에서는 100개의 사례가 있는 매우 간단한 모델을 보여 줍니다.

실내 나무 경우 리프 노드 경우 부모 노드를 기준으로 하는 확률 상위 노드를 기준으로 하는 확률
나이 = 30세 > 60 (육십) 나이 >= 30 및 성별 = 남성 50 50/60 = .83 50/100 = .5
나이 >= 30 및 성별 = 여성 10 10/60 = .16 10/100 = .10
30세 < 40 30세 < 및 성별 = 남성 30 30/40 = .75 30/100 = .30
30세 < 및 성별 = 여성 10 10/40 = .25 10/100 = .10

누락 가능한 값을 고려하여 모든 모델에서 작은 조정이 이루어집니다. 연속 특성의 경우 각 값 또는 값 범위가 상태로 표시되고(예: Age 30, Age <= 30 및 Age >30) 확률은 다음과 같이 계산됩니다. 상태가 존재하고(값 = 1), 다른 일부 상태가 존재합니다(값 = 0), 상태는 Missing다음과 같습니다. 누락된 값을 나타내도록 확률을 조정하는 방법에 대한 자세한 내용은 누락 값(Analysis Services - 데이터 마이닝)을 참조하세요.

각 노드의 확률은 다음과 같이 분포에서 거의 직접 계산됩니다.

확률 = (상태에 대한 지지 + 이전 상태에 대한 지지) / (노드 지지 + 이전 노드 지지)

Analysis Services는 각 노드에 대한 확률을 사용하여 저장된 확률을 이전 확률과 비교하여 부모 노드에서 자식 노드로의 경로가 강한 유추를 나타내는지 여부를 결정합니다.

예측을 할 때 확률을 부드럽게 하려면 분포의 확률을 노드의 확률과 균형 조정해야 합니다. 예를 들어, 트리의 분할이 사례를 9000/1000의 비율로 구분하는 경우, 그 트리는 매우 불균형합니다. 따라서 작은 분기에서 들어오는 예측은 많은 경우의 분기에서 오는 예측과 동일한 가중치를 가지면 안 됩니다.

분산

가변성(Variance)은 예상되는 분포를 감안할 때 샘플의 분산된 값이 어떻게 표시되는지를 측정한 값입니다. 불연속 값의 경우 분산은 정의에 따라 0입니다.

연속 값에 대해 분산을 계산하는 방법에 대한 자세한 내용은 선형 회귀 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.

값 형식

값 형식 열은 NODE_DISTRIBUTION 테이블의 다른 열에 제공된 숫자 값의 의미에 대한 정보를 제공합니다. 쿼리에서 값 형식을 사용하여 중첩된 테이블에서 특정 행을 검색할 수 있습니다. 예제는 의사 결정 트리 모델 쿼리 예제를 참조하세요.

열거형의 MiningValueType 형식 중 분류 트리에 다음이 사용됩니다.

값 형식 설명
1(누락) 누락된 값과 관련된 개수, 확률 또는 기타 통계를 나타냅니다.
4 (불연속) 디스크리트 또는 디스크리트화된 값과 관련된 개수, 확률 또는 기타 통계를 나타냅니다.

모델에 연속 예측 가능한 특성이 포함된 경우 트리에는 회귀 수식에 고유한 값 형식도 포함될 수 있습니다. 회귀 트리에 사용되는 값 형식 목록은 선형 회귀 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.

노드 점수

노드 점수는 트리의 각 수준에서 약간 다른 정보를 나타냅니다. 일반적으로 점수는 조건에 따라 분할하여 분할이 얼마나 잘 이루어졌는지를 알려주는 숫자 값입니다. 값은 double로 표시되며, 더 높은 값이 더 좋습니다.

정의에 따라 모델 노드와 모든 리프 노드의 노드 점수는 0입니다.

각 트리의 위쪽을 나타내는 (All) 노드의 경우 MSOLAP_NODE_SCORE 열에는 전체 트리에서 가장 적합한 분할 점수가 포함됩니다.

트리의 다른 모든 노드(리프 노드 제외)의 경우 각 노드의 점수는 부모 노드의 분할 점수를 뺀 현재 노드에 대한 최상의 분할 점수를 나타냅니다. 일반적으로 부모 노드의 분할 점수는 자식 노드 중 하나의 분할 점수보다 항상 더 낫습니다. 의사 결정 트리 모델이 가장 중요한 특성을 먼저 분할하는 것이 이상적이기 때문입니다.

선택한 알고리즘 매개 변수에 따라 분할에 대한 점수를 계산하는 여러 가지 방법이 있습니다. 각 점수 매기기 방법에 대해 점수를 계산하는 방법에 대한 설명은 이 항목의 범위를 벗어납니다. 자세한 내용은 Microsoft Research 웹 사이트에서 "Bayesian 네트워크 학습: 지식과 통계 데이터의 조합"을 참조하세요.

비고

연속 및 불연속 예측 가능한 특성을 모두 포함하는 의사 결정 트리 모델을 만드는 경우 각 트리 유형을 나타내는 (All) 노드에서 완전히 다른 점수를 볼 수 있습니다. 각 모델은 독립적으로 고려해야 하며, 회귀 채점에 사용되는 메서드는 점수 매기기 분류에 사용되는 방법과 완전히 다릅니다. 노드 점수 값을 비교할 수 없습니다.

의사 결정 트리 모델 내의 회귀 노드

의사 결정 트리 모델에 연속 숫자 데이터가 있는 예측 가능한 특성이 포함된 경우 Microsoft 의사 결정 트리 알고리즘은 데이터에서 예측된 상태와 입력 변수 간의 관계가 선형인 영역을 찾으려고 합니다. 알고리즘이 선형 관계를 찾는 데 성공하면 선형 회귀를 나타내는 특수 트리(NODE_TYPE = 25)를 만듭니다. 이러한 회귀 트리 노드는 불연속 값을 나타내는 노드보다 더 복잡합니다.

일반적으로 회귀는 연속 종속(예측 가능한 변수)의 변경 내용을 입력의 변경 함수로 매핑합니다. 종속 변수에 연속 입력이 있고 입력과 예측 값 간의 관계가 선 그래프로 계산될 만큼 안정적이면 회귀 노드에 수식이 포함됩니다.

그러나 입력 값과 예측 값 간의 관계가 비선형이면 표준 의사 결정 트리처럼 분할이 대신 만들어집니다. 예를 들어 A가 예측 가능한 특성이고 B와 C가 입력이라고 가정합니다. 여기서 C는 연속 값 형식입니다. A와 C 간의 관계가 데이터의 일부에서 상당히 안정적이지만 다른 부분에서는 불안정한 경우 알고리즘은 데이터의 다른 영역을 나타내는 분할을 만듭니다.

분할 조건 노드 결과
n이 < 5보다 작은 경우 관계를 수식 1로 표현할 수 있습니다.
n이 5에서 10 사이이면 수식 없음
만약 n > 10이라면 관계를 수식 2로 표현할 수 있습니다.

회귀 노드에 대한 자세한 내용은 선형 회귀 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.

또한 참조하십시오

마이닝 모델 콘텐츠(분석 서비스 - 데이터 마이닝)
데이터 마이닝 모델 뷰어
데이터 마이닝 쿼리
Microsoft 의사 결정 트리 알고리즘