Microsoft 연결 규칙 알고리즘은 잘 알려진 Apriori 알고리즘의 간단한 구현입니다.
Microsoft 의사 결정 트리 알고리즘과 Microsoft 연결 규칙 알고리즘을 모두 사용하여 연결을 분석할 수 있지만 각 알고리즘에서 찾은 규칙은 다를 수 있습니다. 의사 결정 트리 모델에서 특정 규칙으로 이어지는 분할은 정보 이득을 기반으로 하는 반면, 연결 모델에서는 규칙이 완전히 신뢰도를 기반으로 합니다. 따라서 연결 모델에서 강력한 규칙 또는 신뢰도가 높은 규칙은 새 정보를 제공하지 않으므로 반드시 흥미롭지는 않을 수 있습니다.
Microsoft 연관 알고리즘 구현
Apriori 알고리즘은 패턴을 분석하는 것이 아니라 후보 항목 집합을 생성한 다음 개수를 계산합니다. 항목은 분석 중인 데이터 형식에 따라 이벤트, 제품 또는 특성 값을 나타낼 수 있습니다.
가장 일반적인 유형의 연결 모델 부울 변수에서 예/아니요 또는 누락/기존 값을 나타내는 부울 변수는 제품 또는 이벤트 이름과 같은 각 특성에 할당됩니다. 시장 바구니 분석은 부울 변수를 사용하여 고객의 장바구니에 특정 제품의 존재 여부 또는 부재를 나타내는 연결 규칙 모델의 예입니다.
각 항목 집합에 대해 알고리즘은 지원 및 신뢰도를 나타내는 점수를 만듭니다. 이러한 점수는 항목 집합에서 흥미로운 규칙의 순위를 지정하고 파생하는 데 사용할 수 있습니다.
숫자 특성에 대한 연결 모델을 만들 수도 있습니다. 특성이 연속적이면 숫자를 불연속화하거나 버킷으로 그룹화할 수 있습니다. 그런 다음 이산화된 값을 부울 또는 특성-값 쌍으로 처리할 수 있습니다.
지원, 확률 및 중요도
빈도라고 하는 지원은 대상 항목 또는 항목의 조합을 포함하는 사례 수를 의미합니다. 지정된 지원 크기 이상이 있는 항목만 모델에 포함할 수 있습니다.
자주 사용하는 항목 집합은 항목의 조합이 MINIMUM_SUPPORT 매개 변수에 정의된 임계값을 초과하는 지원도 있는 항목 컬렉션을 나타냅니다. 예를 들어 항목 집합이 {A,B,C}이고 MINIMUM_SUPPORT 값이 10인 경우 모델에 포함할 개별 항목 A, B 및 C를 최소 10개 이상에서 찾아야 하며 항목 {A,B,C}의 조합도 10개 이상에서 찾아야 합니다.
메모 항목 집합의 최대 길이를 지정하여 마이닝 모델의 항목 집합 수를 제어할 수도 있습니다. 여기서 길이는 항목 수를 의미합니다.
기본적으로 특정 항목 또는 항목 집합에 대한 지원은 해당 항목 또는 항목을 포함하는 사례의 수를 나타냅니다. 그러나 숫자를 1보다 작은 10진수 값으로 입력하여 데이터 집합의 총 사례에 대한 백분율로 MINIMUM_SUPPORT 표현할 수도 있습니다. 예를 들어 MINIMUM_SUPPORT 값을 0.03으로 지정하면 데이터 집합의 총 사례 중 3개 이상의% 모델에 포함하기 위해 이 항목 또는 항목 집합을 포함해야 합니다. 개수 또는 백분율을 사용하는 것이 더 적합한지 여부를 확인하기 위해 모델을 실험해야 합니다.
반면, 규칙에 대한 임계값은 개수 또는 백분율이 아니라 확률로 표현되며 신뢰 도라고도 합니다. 예를 들어 항목 집합 {A,B,C}이(가) 50개 사례에서 발생하지만 항목 집합 {A,B,D}도 50개 사례에서 발생하고 다른 50개의 경우의 항목 집합 {A,B}은(는) {A,B}가 {C}의 강력한 예측자가 아님을 분명히 알 수 있습니다. 따라서 Analysis Services는 알려진 모든 결과에 대해 특정 결과의 가중치를 적용하기 위해 항목 집합 {A,B,C}에 대한 지원을 모든 관련 항목 집합에 대한 지원으로 나누어 개별 규칙의 확률(예: {A,B} 다음 {C})을 계산합니다.
MINIMUM_PROBABILITY 값을 설정하여 모델이 생성하는 규칙 수를 제한할 수 있습니다.
생성된 각 규칙에 대해 Analysis Services는 리프트라고도 하는 중요도를 나타내는 점수를 출력합니다. 리프트 중요도는 항목 집합 및 규칙에 대해 다르게 계산됩니다.
항목 집합의 중요도는 항목 집합에 있는 개별 항목의 복합 확률로 나눈 항목 집합의 확률로 계산됩니다. 예를 들어 항목 집합에 {A,B}가 포함된 경우 Analysis Services는 먼저 이 조합 A와 B를 포함하는 모든 사례를 계산하고 이를 총 사례 수로 나눈 다음 확률을 정규화합니다.
규칙의 중요성은 규칙의 왼쪽 부분이 주어졌을 때 오른쪽 부분의 로그 가능성에 따라 계산됩니다. 예를 들어 규칙 If {A} Then {B}에서 Analysis Services는 A와 B가 있는 사례의 비율을 B는 있지만 A는 없는 사례의 비율로 나눈 후, 그 비율을 로그 척도를 사용하여 표준화합니다.
기능 선택
Microsoft 연결 규칙 알고리즘은 어떤 종류의 자동 기능 선택도 수행하지 않습니다. 대신 알고리즘은 알고리즘에서 사용하는 데이터를 제어하는 매개 변수를 제공합니다. 여기에는 각 항목 집합의 크기에 대한 제한이나 모델에 항목 집합을 추가하는 데 필요한 최대 및 최소 지원 설정이 포함될 수 있습니다.
너무 일반적이어서 무관심한 항목 및 이벤트를 필터링하려면 MAXIMUM_SUPPORT 값을 줄여 모델에서 매우 빈번한 항목 집합을 제거합니다.
드문 항목 및 항목 집합을 필터링하려면 MINIMUM_SUPPORT 값을 늘립니다.
규칙을 필터링하려면 MINIMUM_PROBABILITY 값을 늘입니다.
Microsoft 연결 규칙 알고리즘 사용자 지정
Microsoft 연결 규칙 알고리즘은 결과 마이닝 모델의 동작, 성능 및 정확도에 영향을 주는 몇 가지 매개 변수를 지원합니다.
알고리즘 매개 변수 설정
SSDT(SQL Server Data Tools)의 데이터 마이닝 디자이너를 사용하여 언제든지 마이닝 모델에 대한 매개 변수를 변경할 수 있습니다. AMO의 컬렉션을 사용 AlgorithmParameters 하거나 XMLA에서 ASSL(MiningModels 요소) 을 사용하여 프로그래밍 방식으로 매개 변수를 변경할 수도 있습니다. 다음 표에서는 각 매개 변수에 대해 설명합니다.
비고
DMX 문을 사용하여 기존 모델의 매개 변수를 변경할 수 없습니다. DMX CREATE MODEL 또는 ALTER STRUCTURE에서 매개 변수를 지정해야 합니다. 모델을 만들 때 MODEL을 추가합니다.
MAXIMUM_ITEMSET_COUNT
생성할 최대 항목 집합 수를 지정합니다. 숫자를 지정하지 않으면 기본값이 사용됩니다.
기본값은 200000입니다.
비고
항목 집합은 지원에 따라 순위가 매겨집니다. 동일한 지원이 있는 항목 집합 중에서 순서 지정은 임의입니다.
MAXIMUM_ITEMSET_SIZE
항목 집합에서 허용되는 최대 항목 수를 지정합니다. 이 값을 0으로 설정하면 항목 집합의 크기에 제한이 없습니다.
기본값은 3입니다.
비고
이 값을 줄이면 제한에 도달할 때 모델 처리가 중지되기 때문에 모델을 만드는 데 필요한 시간이 줄어들 수 있습니다.
MAXIMUM_SUPPORT
항목 집합에서 지원해야 하는 최대 사례 수를 지정합니다. 이 매개 변수는 자주 나타나는 항목을 제거하는 데 사용할 수 있으므로 의미가 거의 없습니다.
이 값이 1보다 작은 경우 값은 총 사례의 백분율을 나타냅니다. 1보다 큰 값은 항목 집합을 포함할 수 있는 절대 사례 수를 나타냅니다.
기본값은 1입니다.
MINIMUM_ITEMSET_SIZE
항목 집합에 허용되는 최소 항목 수를 지정합니다. 이 수를 늘리면 모델에 더 적은 항목 집합이 포함될 수 있습니다. 예를 들어 단일 항목 항목 집합을 무시하려는 경우에 유용할 수 있습니다.
기본값은 1입니다.
비고
Analysis Services는 처리의 일부로 단일 항목에 대한 확률을 계산해야 하므로 최소값을 늘려 모델 처리 시간을 줄일 수 없습니다. 그러나 이 값을 더 높게 설정하면 더 작은 항목 집합을 필터링할 수 있습니다.
MINIMUM_PROBABILITY
규칙이 true인 최소 확률을 지정합니다.
예를 들어 이 값을 0.5로 설정하면 50% 미만의 확률을 가진 규칙을 생성할 수 없습니다.
기본값은 0.4입니다.
MINIMUM_SUPPORT
알고리즘이 규칙을 생성하기 전에 항목 집합을 포함해야 하는 최소 사례 수를 지정합니다.
이 값을 1보다 작게 설정하면 최소 사례 수가 총 사례의 백분율로 계산됩니다.
이 값을 1보다 큰 정수로 설정하면 최소 사례 수가 항목 집합을 포함해야 하는 사례 수로 계산되도록 지정합니다. 메모리가 제한된 경우 알고리즘이 이 매개 변수의 값을 자동으로 늘릴 수 있습니다.
기본값은 0.03입니다. 즉, 모델에 포함되려면 항목 집합이 최소한 전체 사례의 3% 이상에서 발견되어야 합니다.
OPTIMIZED_PREDICTION_COUNT
예측 최적화를 위해 캐시할 항목 수를 정의합니다.
기본값은 0입니다. 기본값을 사용하는 경우 알고리즘은 쿼리에서 요청된 만큼의 예측을 생성합니다.
OPTIMIZED_PREDICTION_COUNT 0이 아닌 값을 지정하는 경우 추가 예측을 요청하더라도 예측 쿼리는 지정된 수의 항목을 반환할 수 있습니다. 그러나 값을 설정하면 예측 성능이 향상될 수 있습니다.
예를 들어 값이 3으로 설정된 경우 알고리즘은 예측을 위해 3개 항목만 캐시합니다. 반환되는 3개 항목과 동일하게 발생할 수 있는 추가 예측을 볼 수 없습니다.
모델링 플래그
다음 모델링 플래그는 Microsoft 연결 규칙 알고리즘에서 사용할 수 있습니다.
NULL이 아님 (NOT NULL)
열에 null을 포함할 수 없음을 나타냅니다. 모델 학습 중에 Analysis Services가 null을 발견하면 오류가 발생합니다.
마이닝 구조 열에 적용됩니다.
모델_존재_전용
열이 두 가지 가능한 상태인 Missing 및 Existing 로 처리될 것임을 의미합니다. null이 누락된 값입니다.
마이닝 모델 열에 적용됩니다.
요구 사항
연결 모델에는 키 열, 입력 열 및 예측 가능한 단일 열이 포함되어야 합니다.
입력 열 및 예측 가능한 열
Microsoft 연결 규칙 알고리즘은 다음 표에 나열된 특정 입력 열과 예측 가능한 열을 지원합니다. 마이닝 모델에서 콘텐츠 형식의 의미에 대한 자세한 내용은 콘텐츠 형식(데이터 마이닝)을 참조하세요.
| 칼럼 | 내용 유형 |
|---|---|
| 입력 특성 | 순환, 불연속, 불연속화됨, 키, 테이블, 순서 지정 |
| 예측 가능한 특성 | 순환적인, 이산, 이산화된, 표, 정렬된 |
비고
주기적 및 순서가 지정된 콘텐츠 형식은 지원되지만 알고리즘은 이를 불연속 값으로 처리하며 특수한 처리를 수행하지 않습니다.
또한 참조하십시오
Microsoft 연관 알고리즘
연결 모델 쿼리 예제
연결 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)