기본 마이닝 구조의 데이터를 사용하여 마이닝 모델을 설계하고 처리한 후에는 마이닝 모델이 완료되고 마이닝 모델 콘텐츠가 포함됩니다. 이 콘텐츠를 사용하여 예측을 수행하거나 데이터를 분석할 수 있습니다.
마이닝 모델 콘텐츠에는 모델에 대한 메타데이터, 데이터에 대한 통계 및 마이닝 알고리즘에서 검색한 패턴이 포함됩니다. 사용된 알고리즘에 따라 모델 콘텐츠에는 회귀 수식, 규칙 및 항목 집합의 정의, 가중치 및 기타 통계가 포함될 수 있습니다.
사용된 알고리즘에 관계없이 마이닝 모델 콘텐츠는 표준 구조로 표시됩니다. SSDT(SQL Server Data Tools)에 제공된 Microsoft 일반 콘텐츠 트리 뷰어의 구조를 찾아서 사용자 지정 뷰어 중 하나로 전환하여 각 모델 유형에 대해 정보가 해석되고 그래픽으로 표시되는 방식을 확인할 수 있습니다. MINING_MODEL_CONTENT 스키마 행 집합을 지원하는 모든 클라이언트를 사용하여 마이닝 모델 콘텐츠에 대한 쿼리를 만들 수도 있습니다. 자세한 내용은 데이터 마이닝 쿼리 작업 및 방법 방법을 참조하세요.
이 섹션에서는 모든 종류의 마이닝 모델에 제공되는 콘텐츠의 기본 구조를 설명합니다. 모든 마이닝 모델 콘텐츠에 공통적인 노드 형식을 설명하고 정보를 해석하는 방법에 대한 지침을 제공합니다.
마이닝 모델 콘텐츠의 구조
각 모델의 콘텐츠는 일련의 노드로 표시됩니다. 노드는 모델의 일부에 대한 메타데이터 및 정보를 포함하는 마이닝 모델 내의 개체입니다. 노드는 계층 구조에 정렬됩니다. 계층 구조에서 노드의 정확한 배열과 계층의 의미는 사용한 알고리즘에 따라 달라집니다. 예를 들어 의사 결정 트리 모델을 만드는 경우 모델에는 모델 루트에 연결된 여러 트리가 포함될 수 있습니다. 신경망 모델을 만들면 모델에 하나 이상의 네트워크와 통계 노드가 포함될 수 있습니다.
각 모델의 첫 번째 노드를 루트 노드 또는 모델 부모 노드라고 합니다. 모든 모델에는 루트 노드가 있습니다(NODE_TYPE = 1). 루트 노드는 일반적으로 모델에 대한 일부 메타데이터와 자식 노드 수를 포함하지만 모델에서 검색한 패턴에 대한 추가 정보는 거의 없습니다.
모델을 만드는 데 사용한 알고리즘에 따라 루트 노드에는 다양한 수의 자식 노드가 있습니다. 자식 노드는 알고리즘과 데이터의 깊이 및 복잡성에 따라 서로 다른 의미를 가지며 다른 콘텐츠를 포함합니다.
마이닝 모델 콘텐츠의 노드
마이닝 모델에서 노드는 모델의 전체 또는 일부에 대한 정보를 저장하는 범용 컨테이너입니다. 각 노드의 구조는 항상 동일하며 데이터 마이닝 스키마 행 집합에서 정의한 열을 포함합니다. 자세한 내용은 DMSCHEMA_MINING_MODEL_CONTENT 행 집합을 참조하세요.
각 노드에는 각 모델 내에서 고유한 식별자, 부모 노드의 ID 및 노드에 있는 자식 노드 수를 포함하여 노드에 대한 메타데이터가 포함됩니다. 메타데이터는 노드가 속한 모델과 해당 특정 모델이 저장되는 데이터베이스 카탈로그를 식별합니다. 노드에서 제공되는 추가 콘텐츠는 모델을 만드는 데 사용한 알고리즘 유형에 따라 다르며 다음을 포함할 수 있습니다.
특정 예측 값을 지원하는 학습 데이터의 사례 수입니다.
평균, 표준 편차 또는 분산과 같은 통계입니다.
계수 및 수식입니다.
규칙 및 횡적 포인터의 정의입니다.
모델의 일부를 설명하는 XML 조각입니다.
마이닝 콘텐츠 노드 형식 목록
다음 표에서는 데이터 마이닝 모델에 출력되는 다양한 유형의 노드를 나열합니다. 각 알고리즘은 정보를 다르게 처리하므로 각 모델은 몇 가지 특정 종류의 노드만 생성합니다. 알고리즘을 변경하면 노드 유형이 변경 될 수 있습니다. 또한 모델을 다시 처리하면 각 노드의 콘텐츠가 변경 될 수 있습니다.
비고
SQL Server 2014 SSAS(Analysis Services)에 제공된 것과 다른 데이터 마이닝 서비스를 사용하거나 자체 플러그 인 알고리즘을 만드는 경우 추가 사용자 지정 노드 유형을 사용할 수 있습니다.
| 노드_타입 ID | 노드 레이블 | 노드 내용 |
|---|---|---|
| 1 | 모델 | 메타데이터 및 루트 콘텐츠 노드입니다. 모든 모델 형식에 적용됩니다. |
| 2 | 나무 | 분류 트리의 루트 노드입니다. 의사 결정 트리 모델에 적용됩니다. |
| 3 | 내부 | 트리의 내부 분할 노드. 의사 결정 트리 모델에 적용됩니다. |
| 4 | 분포 | 트리의 터미널 노드입니다. 의사 결정 트리 모델에 적용됩니다. |
| 5 | 클러스터 | 알고리즘에 의해 검색된 클러스터입니다. 클러스터링 모델 및 시퀀스 클러스터링 모델에 적용됩니다. |
| 6 | 알 수 없음 | 알 수 없는 노드 유형입니다. |
| 7 | 아이템 세트 | 알고리즘에 의해 검색된 항목 집합입니다. 연결 모델 또는 시퀀스 클러스터링 모델에 적용됩니다. |
| 8 (여덟) | 연관 규칙 | 알고리즘에서 검색된 연결 규칙입니다. 연결 모델 또는 시퀀스 클러스터링 모델에 적용됩니다. |
| 9 | PredictableAttribute | 예측 가능한 특성입니다. 모든 모델 형식에 적용됩니다. |
| 10 | InputAttribute | 입력 속성. 의사 결정 트리 및 Naïve Bayes 모델에 적용됩니다. |
| 11 | InputAttributeState | 입력 특성의 상태에 대한 통계입니다. 의사 결정 트리 및 Naïve Bayes 모델에 적용됩니다. |
| 13 | 순서 | 시퀀스 클러스터의 Markov 모델 구성 요소에 대한 최상위 노드입니다. 시퀀스 클러스터링 모델에 적용됩니다. |
| 14 | 전환 | Markov 전환 행렬입니다. 시퀀스 클러스터링 모델에 적용됩니다. |
| 15 | TimeSeries | 시계열 트리의 루트가 아닌 노드입니다. 시계열 모델에만 적용됩니다. |
| 16 | TsTree | 예측 가능한 시계열에 해당하는 시계열 트리의 루트 노드입니다. 시계열 모델에 적용되며 MIXED 매개 변수를 사용하여 모델을 만든 경우에만 적용됩니다. |
| 17 | NNetSubnetwork | 하나의 하위 네트워크. 신경망 모델에 적용됩니다. |
| 18 | NNetInputLayer | 입력 계층의 노드를 포함하는 그룹입니다. 신경망 모델에 적용됩니다. |
| 19 | NNetHiddenLayer | 숨겨진 계층을 설명하는 노드가 포함된 그룹입니다. 신경망 모델에 적용됩니다. |
| 21 | NNetOutputLayer | 출력 계층의 노드를 포함하는 그룹입니다. 신경망 모델에 적용됩니다. |
| 21 | NNetInputNode (뉴럴넷입력노드) | 입력 특성과 해당 상태와 일치하는 입력 계층의 노드입니다. 신경망 모델에 적용됩니다. |
| 22 (이십이) | NNetHiddenNode | 숨겨진 계층의 노드입니다. 신경망 모델에 적용됩니다. |
| 23 | NNetOutputNode | 출력 계층의 노드입니다. 이 노드는 일반적으로 출력 특성 및 해당 상태와 일치합니다. 신경망 모델에 적용됩니다. |
| 24 | NNetMarginalNode | 학습 집합에 대한 주변 통계입니다. 신경망 모델에 적용됩니다. |
| 이십오 (25) | RegressionTreeRoot | 회귀 트리의 루트 연속 입력 특성을 포함하는 선형 회귀 모델 및 의사 결정 트리 모델에 적용됩니다. |
| 26 | NaiveBayesMarginalStatNode | 학습 집합에 대한 한계 통계입니다. Naïve Bayes 모델에 적용됩니다. |
| 27 | ArimaRoot | ARIMA 모델의 루트 노드입니다. ARIMA 알고리즘을 사용하는 시계열 모델에만 적용됩니다. |
| 28 | ArimaPeriodicStructure | ARIMA 모델의 주기적 구조입니다. ARIMA 알고리즘을 사용하는 시계열 모델에만 적용됩니다. |
| 이십구 | ArimaAutoRegressive | ARIMA 모델의 단일 용어에 대한 자동 회귀 계수입니다. ARIMA 알고리즘을 사용하는 시계열 모델에만 적용됩니다. |
| 30 | ARIMA 이동 평균 | ARIMA 모델에서 단일 용어에 대한 이동 평균 계수입니다. ARIMA 알고리즘을 사용하는 시계열 모델에만 적용됩니다. |
| 1000 | CustomBase | 사용자 지정 노드 형식의 시작점입니다. 사용자 지정 노드 형식은 이 상수보다 값이 큰 정수여야 합니다. 사용자 지정 플러그 인 알고리즘을 사용하여 만든 모델에 적용됩니다. |
노드 ID, 이름, 캡션 및 설명
모든 모델의 루트 노드에는 항상 고유 ID(NODE_UNIQUE_NAME)가 0입니다. 모든 노드 ID는 Analysis Services에서 자동으로 할당되며 수정할 수 없습니다.
각 모델의 루트 노드에는 모델에 대한 몇 가지 기본 메타데이터도 포함되어 있습니다. 이 메타데이터에는 모델이 저장되는 Analysis Services 데이터베이스(MODEL_CATALOG), 스키마(MODEL_SCHEMA) 및 모델 이름(MODEL_NAME)이 포함됩니다. 그러나 이 정보는 모델의 모든 노드에서 반복되므로 이 메타데이터를 가져오기 위해 루트 노드를 쿼리할 필요가 없습니다.
고유 식별자로 사용되는 이름 외에도 각 노드에는 이름 (NODE_NAME)이 있습니다. 이 이름은 표시 목적으로 알고리즘에 의해 자동으로 생성되며 편집할 수 없습니다.
비고
Microsoft 클러스터링 알고리즘을 사용하면 사용자가 각 클러스터에 친숙한 이름을 할당할 수 있습니다. 그러나 이러한 친숙한 이름은 서버에 유지되지 않으며 모델을 다시 처리하면 알고리즘에서 새 클러스터 이름을 생성합니다.
각 노드에 대한 캡션 및 설명 은 알고리즘에 의해 자동으로 생성되며 노드의 콘텐츠를 이해하는 데 도움이 되는 레이블 역할을 합니다. 각 필드에 대해 생성된 텍스트는 모델 유형에 따라 달라집니다. 경우에 따라 이름, 캡션 및 설명에 정확히 동일한 문자열이 포함될 수 있지만 일부 모델에서는 설명에 추가 정보가 포함될 수 있습니다. 구현에 대한 자세한 내용은 개별 모델 유형에 대한 항목을 참조하세요.
비고
Analysis Services 서버는 이름 바꾸기를 구현하는 사용자 지정 플러그 인 알고리즘을 사용하여 모델을 빌드하는 경우에만 노드의 이름 바꾸기를 지원합니다. 이름을 바꾸려면 플러그 인 알고리즘을 만들 때 메서드를 재정의해야 합니다.
노드 부모, 노드 자식 및 노드 카디널리티
트리 구조의 부모 노드와 자식 노드 간의 관계는 PARENT_UNIQUE_NAME 열의 값에 따라 결정됩니다. 이 값은 자식 노드에 저장되며 부모 노드의 ID를 알려줍니다. 이 정보를 사용하는 방법에 대한 몇 가지 예는 다음과 같습니다.
NULL인 PARENT_UNIQUE_NAME 노드가 모델의 최상위 노드임을 의미합니다.
PARENT_UNIQUE_NAME 값이 0이면 노드는 모델에서 최상위 노드의 직접 하위 항목이어야 합니다. 루트 노드의 ID가 항상 0이기 때문입니다.
DMX(데이터 마이닝 확장) 쿼리 내에서 함수를 사용하여 특정 노드의 하위 항목 또는 부모를 찾을 수 있습니다. 쿼리에서 함수를 사용하는 방법에 대한 자세한 내용은 데이터 마이닝 쿼리를 참조하세요.
카디널리티 는 집합의 항목 수를 나타냅니다. 처리된 마이닝 모델의 컨텍스트에서 카디널리티는 특정 노드의 자식 수를 알려줍니다. 예를 들어 의사 결정 트리 모델에 [Yearly Income]에 대한 노드가 있고 해당 노드에 두 개의 자식 노드가 있는 경우, 하나는 [Yearly Income] = High이고, 다른 하나는 [Yearly Income] = Low 조건에 대해 하나씩, [Yearly Income] 노드의 CHILDREN_CARDINALITY 값은 2입니다.
비고
Analysis Services에서는 노드의 카디널리티를 계산할 때 직계 자식 노드만 계산됩니다. 그러나 사용자 지정 플러그 인 알고리즘을 만드는 경우 CHILDREN_CARDINALITY 오버로드하여 카디널리티를 다르게 계산할 수 있습니다. 예를 들어 직계 자식뿐만 아니라 전체 후손 수를 계산하려는 경우 유용할 수 있습니다.
카디널리티는 모든 모델에 대해 동일한 방식으로 계산되지만 카디널리티 값을 해석하거나 사용하는 방법은 모델 유형에 따라 다릅니다. 예를 들어 클러스터링 모델에서 최상위 노드의 카디널리티는 발견된 총 클러스터 수를 알려줍니다. 다른 유형의 모델에서 카디널리티는 항상 노드 형식에 따라 설정된 값을 가질 수 있습니다. 카디널리티를 해석하는 방법에 대한 자세한 내용은 개별 모델 유형에 대한 항목을 참조하세요.
비고
Microsoft 신경망 알고리즘에서 만든 모델과 같은 일부 모델에는 전체 모델에 대한 학습 데이터에 대한 설명 통계를 제공하는 특수 노드 유형도 포함되어 있습니다. 정의에 따라 이러한 노드에는 자식 노드가 없습니다.
노드 배포
NODE_DISTRIBUTION 열에는 많은 노드에서 알고리즘에서 검색된 패턴에 대한 중요하고 자세한 정보를 제공하는 중첩 테이블이 포함되어 있습니다. 이 테이블에 제공된 정확한 통계는 모델 형식, 트리의 노드 위치 및 예측 가능한 특성이 연속 숫자 값인지 불연속 값인지에 따라 변경됩니다. 그러나 특성의 최소값과 최대값, 값에 할당된 가중치, 노드의 사례 수, 회귀 수식에 사용되는 계수 및 표준 편차 및 분산과 같은 통계 측정값을 포함할 수 있습니다. 노드 배포를 해석하는 방법에 대한 자세한 내용은 작업 중인 특정 유형의 모델 유형에 대한 항목을 참조하세요.
비고
NODE_DISTRIBUTION 테이블은 노드 유형에 따라 비어 있을 수 있습니다. 예를 들어, 일부 노드는 자식 노드의 컬렉션을 정리하는 데만 사용되며, 자세한 통계는 자식 노드가 포함하고 있습니다.
NODE_DISTRIBUTION 중첩 테이블은 항상 다음 열을 포함합니다. 각 열의 내용은 모델 유형에 따라 달라집니다. 특정 모델 형식에 대한 자세한 내용은 알고리즘 유형별 마이닝 모델 콘텐츠를 참조하세요.
속성_이름
콘텐츠는 알고리즘에 따라 다릅니다. 예측 가능한 특성, 규칙, 항목 집합 또는 알고리즘 내부 정보(예: 수식의 일부)와 같은 열의 이름이 될 수 있습니다.
이 열에는 특성-값 쌍도 포함될 수 있습니다.
속성 값
ATTRIBUTE_NAME이라는 속성의 값입니다.
특성 이름이 열인 경우 가장 간단한 경우 ATTRIBUTE_VALUE 해당 열에 대한 불연속 값 중 하나를 포함합니다.
알고리즘이 값을 처리하는 방법에 따라 ATTRIBUTE_VALUE 특성에 대한 값이 있는지() 또는 값이 null(ExistingMissing)인지 여부를 알려주는 플래그를 포함할 수도 있습니다.
예를 들어 특정 항목을 한 번 이상 구매한 고객을 찾기 위해 모델을 설정한 경우 ATTRIBUTE_NAME 열에는 관심 있는 항목(예: Model = 'Water bottle'관심 있는 항목)을 정의하는 특성-값 쌍이 포함될 수 있으며 ATTRIBUTE_VALUE 열에는 키워드 또는 Missing키워드 Existing 만 포함됩니다.
별칭
이 특성-값 쌍이 있거나 이 항목 집합 또는 규칙을 포함하는 사례의 수입니다.
일반적으로 각 노드에 대해 지원 값은 현재 노드에 포함된 학습 집합의 사례 수를 알려줍니다. 대부분의 모델 형식에서 지원은 정확한 사례 수를 나타냅니다. 지원 값은 학습 데이터를 쿼리하지 않고도 학습 사례 내에서 데이터 분포를 볼 수 있기 때문에 유용합니다. 또한 Analysis Services 서버는 이러한 저장된 값을 사용하여 저장된 확률과 이전 확률을 계산하여 유추가 강한지 약한지 여부를 결정합니다.
예를 들어 분류 트리에서 지원 값은 설명된 특성 조합이 있는 사례 수를 나타냅니다.
의사 결정 트리에서 트리의 각 수준에서 지원 합계는 부모 노드의 지원에 합산됩니다. 예를 들어, 1,200개의 사례를 포함하는 모델에서 성별에 따라 균등하게 나눈 다음, 소득 수준을 낮음, 중간, 높음으로 나누어 각각의 소분류로 세분화하면, 노드(2)의 자식 노드인 노드(4), (5) 및 (6)의 사례 수 합계는 항상 노드(2)와 동일한 사례 수로 계산됩니다.
| 노드 ID 및 노드 특성 | 지원 수 |
|---|---|
| (1) 모델 루트 | 1200 |
| (2) 성별 = 남성 (3) 성별 = 여성 |
600 600 |
| (4) 성별 = 남성 및 소득 = 높음 (5) 성별 = 남성 및 소득 = 중간 (6) 성별 = 남성 및 소득 = 낮음 |
200 200 200 |
| (7) 성별 = 여성 및 소득 = 높음 (8) 성별 = 여성 및 소득 = 중간 (9) 성별 = 여성 및 소득 = 낮음 |
200 200 200 |
클러스터링 모델의 경우 지원 수를 가중치로 지정하여 여러 클러스터에 속할 확률을 포함할 수 있습니다. 여러 클러스터 멤버 자격은 기본 클러스터링 방법입니다. 이 시나리오에서는 각 사례가 반드시 하나의 클러스터에만 속하는 것은 아니므로 이러한 모델의 지원은 모든 클러스터에서 최대 100%까지 추가되지 않을 수 있습니다.
확률
전체 모델 내에서 이 특정 노드의 확률을 나타냅니다.
일반적으로 확률은 노드 내의 총 사례 수(NODE_SUPPORT)로 나눈 이 특정 값에 대한 지원을 나타냅니다.
그러나 확률은 데이터의 값 누락으로 인한 바이어스 제거를 위해 약간 조정됩니다.
예를 들어 [Total Children]의 현재 값이 'One'과 'Two'인 경우 자식이 없거나 자식 세 명이 있을 수 없다고 예측하는 모델을 만들지 않으려고 합니다. 누락된 값이 불가능하지만 불가능하지는 않도록 하기 위해 알고리즘은 항상 모든 특성의 실제 값 수에 1을 추가합니다.
예제:
[총 자식 = 1] = [총 자식 수 = 1] + 1/[모든 사례 수] + 3의 확률
[총 자식 = 2]= [총 자식 수 = 2] +1/[모든 사례 수] +3의 확률
비고
3의 조정은 기존 값의 총 수인 n에 1을 추가하여 계산됩니다.
조정 후에도 모든 값의 확률은 1까지 추가합니다. 데이터가 없는 값의 확률(이 예제에서는 [Total Children = 'Zero', 'Three' 또는 기타 값)은 0이 아닌 매우 낮은 수준에서 시작하여 더 많은 사례가 추가되면 천천히 상승합니다.
분산
노드 내 값의 분산을 나타냅니다. 정의에 따라 분산은 불연속 값에 대해 항상 0입니다. 모델이 연속 값을 지원하는 경우 분모 n 또는 노드의 사례 수를 사용하여 분산이 σ(시그마)로 계산됩니다.
일반적으로 표준 편차()를 나타내는 데는 두 가지 정의가StDev 사용됩니다. 표준 편차를 계산하는 한 가지 방법은 바이어스를 고려하며, 다른 메서드는 바이어스를 사용하지 않고 표준 편차를 계산합니다. 일반적으로 Microsoft 데이터 마이닝 알고리즘은 표준 편차를 계산할 때 바이어스를 사용하지 않습니다.
NODE_DISTRIBUTION 테이블에 표시되는 값은 모든 불연속 및 불연속 특성의 실제 값과 연속 값의 평균입니다.
값 유형
값 또는 특성의 데이터 형식과 값의 사용량을 나타냅니다. 특정 값 형식은 특정 모델 형식에만 적용됩니다.
| VALUE_TYPE ID | 값의 레이블 | 값 유형 이름 |
|---|---|---|
| 1 | 없어진 | 사례 데이터에 이 특성의 값이 포함되어 있지 않음을 나타냅니다.
Missing 상태는 값이 있는 특성과 별도로 계산됩니다. |
| 2 | 현존하는 | 사례 데이터에 이 특성의 값이 포함되어 있음을 나타냅니다. |
| 3 | 지속적 | 특성 값이 연속 숫자 값이므로 분산 및 표준 편차와 함께 평균으로 나타낼 수 있음을 나타냅니다. |
| 4 | 불연속 | 불연속으로 처리되는 값(숫자 또는 텍스트)을 나타냅니다. 메모 불연속 값도 누락될 수 있습니다. 그러나 계산할 때는 다르게 처리됩니다. 자세한 내용은 누락 값(Analysis Services - 데이터 마이닝)을 참조하세요. |
| 5 | 불연속화된 | 특성에 불연속화된 숫자 값이 포함되어 있음을 나타냅니다. 이 값은 불연속화 버킷을 설명하는 형식이 지정된 문자열입니다. |
| 6 | 기존의 | 특성에 연속 숫자 값이 있고 해당 값이 데이터에 제공되었음을 나타내며 누락되거나 유추된 값과 비교됩니다. |
| 7 | 계수 | 계수를 나타내는 숫자 값을 나타냅니다. 계수는 종속 변수의 값을 계산할 때 적용되는 값입니다. 예를 들어 모델이 연령에 따라 수입을 예측하는 회귀 수식을 만드는 경우 연령과 소득의 관계를 나타내는 수식에 계수가 사용됩니다. |
| 8 (여덟) | 점수 획득 | 특성의 점수 게인을 나타내는 숫자 값을 나타냅니다. |
| 9 | 통계 | 회귀자에 대한 통계를 나타내는 숫자 값을 나타냅니다. |
| 10 | 노드 고유 이름 | 값이 숫자나 문자열이 아니라 모델의 다른 콘텐츠 노드의 고유 식별자로 처리되어야 임을 나타냅니다. 예를 들어 신경망 모델에서 ID는 출력 계층의 노드에서 숨겨진 계층의 노드로, 숨겨진 계층의 노드에서 입력 계층의 노드로 포인터를 제공합니다. |
| 11 | 가로채 | 회귀 수식의 절편을 나타내는 숫자 값을 나타냅니다. |
| 12 | 주기성 | 값이 모델의 주기적 구조를 나타냄을 나타냅니다. ARIMA 모델을 포함하는 시계열 모델에만 적용됩니다. 참고: Microsoft 시계열 알고리즘은 학습 데이터를 기반으로 정기적인 구조를 자동으로 검색합니다. 따라서 최종 모델의 주기에는 모델을 만들 때 매개 변수로 제공하지 않은 주기 값이 포함될 수 있습니다. |
| 13 | 자동 회귀 순서 | 값이 자동 회귀 계열의 수를 나타냅니다. ARIMA 알고리즘을 사용하는 시계열 모델에 적용됩니다. |
| 14 | 이동 평균 순서 | 계열의 이동 평균 수를 나타내는 값을 나타냅니다. ARIMA 알고리즘을 사용하는 시계열 모델에 적용됩니다. |
| 15 | 차이 순서 | 계열이 구분되는 횟수를 나타내는 값을 나타냅니다. ARIMA 알고리즘을 사용하는 시계열 모델에 적용됩니다. |
| 16 | 불리언 (Boolean) | 부울 타입을 나타냅니다. |
| 17 | 기타 | 알고리즘에서 정의한 사용자 지정 값을 나타냅니다. |
| 18 | 미리 렌더링된 문자열 | 알고리즘이 문자열로 렌더링하는 사용자 지정 값을 나타냅니다. 개체 모델에서 서식을 적용하지 않았습니다. |
값 형식은 ADMOMD.NET 열거형에서 파생됩니다. 자세한 내용은 Microsoft.AnalysisServices.AdomdServer.MiningValueType을 참조하세요.
노드 점수
노드 점수의 의미는 모델 유형에 따라 다르며 노드 유형에 따라 달라질 수도 있습니다. 각 모델 및 노드 형식에 대해 NODE_SCORE 계산되는 방법에 대한 자세한 내용은 알고리즘 유형별 마이닝 모델 콘텐츠를 참조하세요.
노드 확률 및 한계 확률
마이닝 모델 스키마 행 집합에는 모든 모델 형식에 대한 NODE_PROBABILITY 및 MARGINAL_PROBABILITY 열이 포함됩니다. 이러한 열에는 확률 값이 의미 있는 노드에만 값이 포함됩니다. 예를 들어 모델의 루트 노드에는 확률 점수가 포함되지 않습니다.
확률 점수를 제공하는 노드에서 노드 확률 및 한계 확률은 서로 다른 계산을 나타냅니다.
한계 확률 은 부모로부터 노드에 도달할 확률입니다.
노드 확률 은 루트에서 노드에 도달할 확률입니다.
노드 확률 은 항상 한계 확률보다 작거나 같습니다.
예를 들어 의사 결정 트리에 있는 모든 고객의 모집단이 성별에 따라 균등하게 분할되고 값이 누락되지 않은 경우 자식 노드의 확률은 .5여야 합니다. 각 성별 노드가 소득 수준인 높음, 중간 및 낮음으로 균등하게 나뉜다고 가정해 봅시다. 이 경우 각 자식 노드에 대한 MARGINAL_PROBABILITY 점수는 항상 .33이어야 하지만 NODE_PROBABILTY 값은 해당 노드로 이어지는 모든 확률의 곱이 되므로 항상 MARGINAL_PROBABILITY 값보다 작습니다.
| 노드/특성 및 값의 수준 | 한계 확률 | 노드 확률 |
|---|---|---|
| 모델 루트 모든 대상 고객 |
1 | 1 |
| 성별로 분할된 대상 고객 | .5 | .5 |
| 성별로 분할된 고객을 대상으로 하고 소득별로 세 가지 방법으로 다시 분할 | .33 | .5 * .33 = .165 |
노드 규칙 및 한계 규칙
마이닝 모델 스키마 행 집합에는 모든 모델 형식에 대한 NODE_RULE 및 MARGINAL_RULE 열도 포함됩니다. 이러한 열에는 모델을 직렬화하거나 모델 구조의 일부를 나타내는 데 사용할 수 있는 XML 조각이 포함되어 있습니다. 값이 의미가 없는 경우 일부 노드의 경우 이러한 열이 비어 있을 수 있습니다.
두 종류의 확률 값과 유사한 두 가지 종류의 XML 규칙이 제공됩니다. MARGINAL_RULE XML 조각은 현재 노드의 특성과 값을 정의하는 반면, NODE_RULE XML 조각은 모델 루트에서 현재 노드의 경로를 설명합니다.
알고리즘 유형별 마이닝 모델 콘텐츠
각 알고리즘은 콘텐츠 스키마의 일부로 다양한 유형의 정보를 저장합니다. 예를 들어 Microsoft 클러스터링 알고리즘은 가능한 클러스터를 나타내는 여러 자식 노드를 생성합니다. 각 클러스터 노드에는 클러스터의 항목에서 공유하는 특성을 설명하는 규칙이 포함되어 있습니다. 반면 Microsoft 선형 회귀 알고리즘에는 자식 노드가 포함되지 않습니다. 대신 모델의 부모 노드에는 분석에 의해 검색된 선형 관계를 설명하는 수식이 포함됩니다.
다음 표에서는 각 알고리즘 유형에 대한 토픽에 대한 링크를 제공합니다.
모델 콘텐츠 항목: 각 알고리즘 형식에 대한 각 노드 형식의 의미를 설명하고 특정 모델 형식에 가장 관심이 있는 노드에 대한 지침을 제공합니다.
쿼리 항목: 특정 모델 형식에 대한 쿼리 예제와 결과를 해석하는 방법에 대한 지침을 제공합니다.
마이닝 모델 콘텐츠를 보기 위한 도구
SSDT(SQL Server Data Tools)에서 모델을 찾아보거나 탐색할 때 SSDT(SQL Server Data Tools) 및 SQL Server Management Studio 모두에서 사용할 수 있는 Microsoft 일반 콘텐츠 트리 뷰어에서 정보를 볼 수 있습니다.
Microsoft 일반 콘텐츠 뷰어는 마이닝 모델의 콘텐츠 스키마 행 집합에서 사용할 수 있는 것과 동일한 정보를 사용하여 모델의 열, 규칙, 속성, 특성, 노드 및 기타 콘텐츠를 표시합니다. 콘텐츠 스키마 행 집합은 데이터 마이닝 모델의 콘텐츠에 대한 자세한 정보를 제공하는 일반적인 프레임워크입니다. 계층적 행 집합을 지원하는 모든 클라이언트에서 모델 콘텐츠를 볼 수 있습니다. SSDT(SQL Server Data Tools)의 뷰어는 모든 모델을 일관된 형식으로 나타내는 HTML 테이블 뷰어에 이 정보를 제공하므로 사용자가 만드는 모델의 구조를 더 쉽게 이해할 수 있습니다. 자세한 내용은 Microsoft 일반 콘텐츠 트리 뷰어를 사용하여 모델 찾아보기를 참조하세요.
마이닝 모델 콘텐츠를 쿼리하는 도구
마이닝 모델 콘텐츠를 검색하려면 데이터 마이닝 모델에 대한 쿼리를 만들어야 합니다.
콘텐츠 쿼리를 만드는 가장 쉬운 방법은 SQL Server Management Studio에서 다음 DMX 문을 실행하는 것입니다.
SELECT * FROM [<mining model name>].CONTENT
자세한 내용은 데이터 마이닝 쿼리를 참조하세요.
데이터 마이닝 스키마 행 집합을 사용하여 마이닝 모델 콘텐츠를 쿼리할 수도 있습니다. 스키마 행 집합은 클라이언트가 마이닝 구조 및 모델에 대한 정보를 검색, 찾아보기 및 쿼리하는 데 사용하는 표준 구조입니다. XMLA, Transact-SQL 또는 DMX 문을 사용하여 스키마 행 집합을 쿼리할 수 있습니다.
SQL Server 2014에서는 Analysis Services 인스턴스에 대한 연결을 열고 시스템 테이블을 쿼리하여 데이터 마이닝 스키마 행 집합의 정보에 액세스할 수도 있습니다. 자세한 내용은 데이터 마이닝 스키마 행 집합 쿼리(Analysis Services - 데이터 마이닝)를 참조하세요.
또한 참조하십시오
Microsoft 일반 콘텐츠 트리 뷰어(데이터 마이닝)
데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)