이 항목에서는 Microsoft 선형 회귀 알고리즘을 사용하는 모델과 관련된 마이닝 모델 콘텐츠에 대해 설명합니다. 모든 모델 형식에 대한 마이닝 모델 콘텐츠에 대한 일반적인 설명은 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.
선형 회귀 모델의 구조 이해
선형 회귀 모델에는 매우 간단한 구조가 있습니다. 각 모델에는 모델 및 해당 메타데이터를 나타내는 단일 부모 노드와 예측 가능한 각 특성에 대한 회귀 수식을 포함하는 회귀 트리 노드(NODE_TYPE = 25)가 있습니다.
선형 회귀 모델은 Microsoft 의사 결정 트리와 동일한 알고리즘을 사용하지만 트리를 제한하는 데 다른 매개 변수가 사용되며 연속 특성만 입력으로 허용됩니다. 그러나 선형 회귀 모델은 Microsoft 의사 결정 트리 알고리즘을 기반으로 하므로 선형 회귀 모델은 Microsoft 의사 결정 트리 뷰어를 사용하여 표시됩니다. 자세한 내용은 Microsoft 트리 뷰어를 사용하여 모델 찾아보기를 참조하세요.
다음 섹션에서는 회귀 수식 노드의 정보를 해석하는 방법을 설명합니다. 이 정보는 선형 회귀 모델뿐만 아니라 트리의 일부에 회귀가 포함된 의사 결정 트리 모델에도 적용됩니다.
선형 회귀 모델에 대한 모델 콘텐츠
이 섹션에서는 선형 회귀와 특별한 관련성이 있는 마이닝 모델 콘텐츠의 해당 열에 대한 세부 정보 및 예제만 제공합니다.
스키마 행 집합의 범용 열에 대한 자세한 내용은 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.
모델 카탈로그
모델이 저장되는 데이터베이스의 이름입니다.
MODEL_NAME
모델의 이름입니다.
속성_이름
루트 노드: 빈
회귀 노드: 예측 가능한 특성의 이름입니다.
노드 이름
항상 NODE_UNIQUE_NAME 동일합니다.
노드_고유_이름
모델 내의 노드에 대한 고유 식별자입니다. 이 값은 변경할 수 없습니다.
노드_유형
선형 회귀 모델은 다음 노드 형식을 출력합니다.
| 노드 형식 ID | 유형 | 설명 |
|---|---|---|
| 이십오 (25) | 회귀 트리 루트 | 입력 변수와 출력 변수 간의 관계를 설명하는 수식을 포함합니다. |
노드 캡션
노드와 연결된 레이블 또는 캡션입니다. 이 속성은 주로 표시용입니다.
루트 노드: 빈
회귀 노드: 모두.
자식 수
노드에 있는 자식 수의 추정값입니다.
루트 노드: 회귀 노드 수를 나타냅니다. 모델의 예측 가능한 각 특성에 대해 하나의 회귀 노드가 만들어집니다.
회귀 노드: 항상 0.
상위_고유_이름
노드 부모의 고유 이름입니다. 루트 수준의 모든 노드에 대해 NULL이 반환됩니다.
노드 설명
노드에 대한 설명입니다.
루트 노드: 빈
회귀 노드: 모두.
NODE_RULE
선형 회귀 모델에는 사용되지 않습니다.
주변 규칙
선형 회귀 모델에는 사용되지 않습니다.
노드 확률
이 노드와 연결된 확률입니다.
루트 노드: 0
회귀 노드: 1
한계 확률
부모 노드에서 노드에 도달할 확률입니다.
루트 노드: 0
회귀 노드: 1
노드 분포
노드의 값에 대한 통계를 제공하는 중첩 테이블입니다.
루트 노드: 0
회귀 노드: 회귀 수식을 작성하는 데 사용되는 요소가 포함된 테이블입니다. 회귀 노드에는 다음 값 형식이 포함됩니다.
| 밸류타입 |
|---|
| 1(누락) |
| 3(연속) |
| 7(계수) |
| 8(점수 획득) |
| 9(통계) |
| 11(인터셉트) |
노드 지원
이 노드를 지원하는 사례 수입니다.
루트 노드: 0
회귀 노드: 학습 사례의 수입니다.
MSOLAP_MODEL_COLUMN
예측 가능한 특성의 이름입니다.
MSOLAP_NODE_SCORE
NODE_PROBABILITY와 동일합니다.
MSOLAP_NODE_SHORT_CAPTION
표시 용도로 사용되는 레이블입니다.
비고
Microsoft 선형 회귀 알고리즘을 사용하여 모델을 만들 때 데이터 마이닝 엔진은 의사 결정 트리 모델의 특수 인스턴스를 만들고 단일 노드의 모든 학습 데이터를 포함하도록 트리를 제한하는 매개 변수를 제공합니다. 모든 연속 입력은 플래그가 지정되고 잠재적인 회귀 변수로 평가되지만 데이터에 맞는 회귀기만 최종 모델에서 회귀 변수로 유지됩니다. 분석은 각 회귀에 대해 단일 회귀 수식을 생성하거나 회귀 수식을 전혀 생성하지 않습니다.
Microsoft 트리 뷰어에서 (모두) 노드를 클릭하여 마이닝 범례에서 전체 회귀 수식을 볼 수 있습니다.
또한 예측 가능한 연속 특성을 포함하는 의사 결정 트리 모델을 만들 때 트리에 회귀 트리 노드의 속성을 공유하는 회귀 노드가 있는 경우가 있습니다.
연속 특성에 대한 노드 배포
회귀 노드의 중요한 정보는 대부분 NODE_DISTRIBUTION 테이블에 포함되어 있습니다. 다음 예제에서는 NODE_DISTRIBUTION 테이블의 레이아웃을 보여 줍니다. 이 예제에서는 대상 메일링 마이닝 구조를 사용하여 연령에 따라 고객 수입을 예측하는 선형 회귀 모델을 만들었습니다. 모델은 기존 AdventureWorks2012 샘플 데이터 및 마이닝 구조를 사용하여 쉽게 빌드할 수 있으므로 그림 전용입니다.
| 속성_이름 | ATTRIBUTE_VALUE | 별칭 | 확률 | 분산 | 밸류타입 |
|---|---|---|---|---|---|
| 연간 소득 | 없어진 | 0 | 0.000457142857142857 | 0 | 1 |
| 연간 소득 | 57220.8876687257 | 17484 | 0.999542857142857 | 1041275619.52776 | 3 |
| 나이 | 471.687717702463 | 0 | 0 | 126.969442359327 | 7 |
| 나이 | 234.680904692439 | 0 | 0 | 0 | 8 (여덟) |
| 나이 | 45.4269617936399 | 0 | 0 | 126.969442359327 | 9 |
| 35793.5477381267 | 0 | 0 | 1012968919.28372 | 11 |
NODE_DISTRIBUTION 테이블에는 각각 변수별로 그룹화된 여러 행이 포함됩니다. 처음 두 행은 항상 값 형식 1과 3이며 대상 특성을 설명합니다. 다음 행은 특정 회귀 변수에 대한 수식에 대한 세부 정보를 제공합니다. 회귀 변수는 출력 변수와 선형 관계가 있는 입력 변수입니다. 회귀 변수가 여러 개 있을 수 있으며 각 회귀 변수에는 계수(VALUETYPE = 7), 점수 게인(VALUETYPE = 8) 및 통계(VALUETYPE = 9)에 대한 별도의 행이 있습니다. 마지막으로 테이블에는 수식의 절편이 포함된 행이 있습니다(VALUETYPE = 11).
회귀 수식의 요소
중첩된 NODE_DISTRIBUTION 테이블에는 회귀 수식의 각 요소가 별도의 행에 포함됩니다. 예제 결과에서 데이터의 처음 두 행에는 종속 변수를 모델로 하는 예측 가능한 특성인 Yearly Income에 대한 정보가 포함됩니다. SUPPORT 열에는 이 속성의 두 상태에 대한 사례 수가 표시됩니다. 연간 소득 값이 제공되었거나, 연간 소득 값이 누락된 경우입니다.
분산 열은 예측 가능한 특성의 계산된 분산을 알려줍니다. 가변성 값은 예상되는 분포를 고려하여 샘플에 분산된 값을 측정한 값입니다. 여기서 분산은 평균에서 제곱 편차의 평균을 사용하여 계산됩니다. 분산의 제곱근을 표준 편차라고도 합니다. Analysis Services는 표준 편차를 제공하지 않지만 쉽게 계산할 수 있습니다.
각 회귀에 대해 세 개의 행이 출력됩니다. 계수, 점수 증가 및 회귀 계수 통계가 포함됩니다.
마지막으로 표에는 수식에 대한 절편을 제공하는 행이 포함됩니다.
계수
각 회귀에 대해 계수(VALUETYPE = 7)가 계산됩니다. 계수 자체는 ATTRIBUTE_VALUE 열에 표시되는 반면 분산 열은 계수의 분산을 알려줍니다. 계수는 선형성을 최대화하기 위해 계산됩니다.
점수 증가
각 회귀에 대한 점수 게인(VALUETYPE = 8)은 특성의 흥미롭기 점수를 나타냅니다. 이 값을 사용하여 여러 회귀자의 유용성을 예측할 수 있습니다.
통계
회귀 통계(VALUETYPE = 9)는 값이 있는 경우 특성의 평균입니다. ATTRIBUTE_VALUE 열에는 평균 자체가 포함되는 반면 VARIANCE 열에는 평균의 편차 합계가 포함됩니다.
가로채
일반적으로 절편 (VALUETYPE = 11) 또는 회귀 수식의 잔차 는 입력 특성이 0인 지점에서 예측 가능한 특성의 값을 알려줍니다. 대부분의 경우 이 작업은 발생하지 않을 수 있으며 직관에 반하는 결과를 초래할 수 있습니다.
예를 들어 연령에 따라 소득을 예측하는 모델에서는 0세 소득에 대해 배우는 것은 쓸모가 없습니다. 실제 생활에서는 일반적으로 평균 값과 관련하여 선의 동작에 대해 아는 것이 더 유용합니다. 따라서 SQL Server Analysis Services는 인터셉트를 수정하여 평균과의 관계에서 각 회귀자를 표현합니다.
이 조정은 마이닝 모델 콘텐츠에서 보기 어렵지만, Microsoft 트리 뷰어의 마이닝 레전드에서 완료된 수식을 보면 명백합니다. 회귀 수식은 0점에서 평균을 나타내는 지점으로 이동합니다. 현재 데이터를 고려할 때 더 직관적인 보기를 제공합니다.
따라서 평균 연령이 약 45세라고 가정하면 회귀 수식에 대한 절편(VALUETYPE = 11)은 평균 수입을 알려줍니다.
또한 참조하십시오
마이닝 모델 콘텐츠(분석 서비스 - 데이터 마이닝)
Microsoft 선형 회귀 알고리즘
Microsoft 선형 회귀 알고리즘 기술 참조
선형 회귀 모델 쿼리 예제