다음을 통해 공유


Microsoft 연결 알고리즘

Microsoft 연결 알고리즘은 권장 엔진에 유용한 Analysis Services에서 제공하는 연결 알고리즘입니다. 추천 엔진은 이미 구매했거나 관심을 표시한 항목을 기반으로 고객에게 제품을 권장합니다. Microsoft Association 알고리즘은 시장 바구니 분석에도 유용합니다. 시장 바구니 분석의 예는 데이터 마이닝 자습서의 3단원: 시장 바구니 시나리오 빌드(중간 데이터 마이닝 자습서) 를 참조하세요.

연결 모델은 개별 사례와 사례에 포함된 항목 모두에 대한 식별자를 포함하는 데이터 세트를 기반으로 합니다. 사례의 항목 그룹을 항목 집합이라고 합니다. 연결 모델은 일련의 항목 집합과 해당 항목이 사례 내에서 함께 그룹화되는 방식을 설명하는 규칙으로 구성됩니다. 알고리즘이 식별하는 규칙은 고객의 쇼핑 카트에 이미 있는 항목을 기반으로 고객의 향후 구매를 예측하는 데 사용할 수 있습니다. 다음 다이어그램은 항목 집합의 일련의 규칙을 보여줍니다.

연결 모델에 대한 규칙 집합

다이어그램에서 알 수 있듯이 Microsoft 연결 알고리즘은 데이터 세트 내에서 여러 규칙을 찾을 수 있습니다. 알고리즘은 두 개의 매개 변수인 지원 및 확률을 사용하여 생성되는 항목 집합 및 규칙을 설명합니다. 예를 들어 X와 Y가 장바구니에 있을 수 있는 두 항목을 나타내는 경우 지원 매개 변수는 항목 X와 Y의 조합을 포함하는 데이터 세트의 사례 수입니다. MINIMUM_SUPPORT 및 MAXIMUM_SUPPORT 사용자 정의 매개 변수와 함께 지원 매개 변수를 사용하여 알고리즘은 생성된 항목 집합 수를 제어합니다. 신뢰 도라고도 하는 probability 매개 변수는 X를 포함하고 Y도 포함하는 데이터 세트의 사례 비율을 나타냅니다. 확률 매개 변수를 MINIMUM_PROBABILITY 매개 변수와 함께 사용하면 알고리즘은 생성된 규칙 수를 제어합니다.

예시

Adventure Works Cycle 회사는 웹 사이트의 기능을 다시 디자인하고 있습니다. 재설계의 목표는 제품의 판매량을 늘리는 것입니다. 회사는 각 판매를 트랜잭션 데이터베이스에 기록하기 때문에 Microsoft Association 알고리즘을 사용하여 함께 구매하는 경향이 있는 제품 집합을 식별할 수 있습니다. 그런 다음 고객의 장바구니에 이미 있는 항목을 기반으로 고객이 관심을 가지는 추가 항목을 예측할 수 있습니다.

알고리즘 작동 방식

Microsoft 연결 알고리즘은 데이터 세트를 트래버스하여 사례에 함께 표시되는 항목을 찾습니다. 그런 다음 알고리즘은 최소한 MINIMUM_SUPPORT 매개 변수로 지정된 사례 수에 표시되는 모든 연결된 항목을 항목 집합으로 그룹화합니다. 예를 들어 항목 집합은 "Mountain 200=Existing, Sport 100=Existing"일 수 있으며, 지원도는 710입니다. 그런 다음 알고리즘은 항목 집합에서 규칙을 생성합니다. 이러한 규칙은 알고리즘이 중요한 것으로 식별하는 다른 특정 항목의 존재에 따라 데이터베이스에 항목이 있는지 예측하는 데 사용됩니다. 예를 들어, 규칙은 "Touring 1000=존재 및 Road 병 케이지=존재, 그러면 Water 물병=존재"일 수 있으며, 이 경우 확률은 0.812가 될 수 있습니다. 이 예제에서 알고리즘은 Touring 1000 타이어의 바구니에 있는 것을 식별하고 물병 케이지는 물병이 바구니에 있을 가능성이 있다고 예측합니다.

알고리즘의 동작을 사용자 지정하고 마이닝 모델의 결과를 제어하기 위한 매개 변수 목록과 함께 알고리즘에 대한 자세한 설명은 Microsoft 연결 알고리즘 기술 참조를 참조하세요.

연결 모델에 필요한 데이터

연결 규칙 모델에서 사용할 데이터를 준비할 때 필요한 데이터의 양과 데이터 사용 방법을 포함하여 특정 알고리즘에 대한 요구 사항을 이해해야 합니다.

연결 규칙 모델에 대한 요구 사항은 다음과 같습니다.

  • 단일 키 열 각 모델에는 각 레코드를 고유하게 식별하는 하나의 숫자 또는 텍스트 열이 포함되어야 합니다. 복합 키는 허용되지 않습니다.

  • 예측 가능한 단일 열 연결 모델에는 예측 가능한 열이 하나만 있을 수 있습니다. 일반적으로 구매한 제품을 나열하는 열과 같이 중첩 테이블의 키 열입니다. 값은 개별적이거나 불연속화해야 합니다.

  • 입력 열 . 입력 열은 불연속이어야 합니다. 연결 모델의 입력 데이터는 종종 두 테이블에 포함됩니다. 예를 들어 한 테이블에는 고객 정보가 포함될 수 있고 다른 테이블에는 고객 구매가 포함될 수 있습니다. 중첩 테이블을 사용하여 이 데이터를 모델에 입력할 수 있습니다. 중첩 테이블에 대한 자세한 내용은 중첩 테이블(Analysis Services - 데이터 마이닝)을 참조하세요.

연결 모델에 대해 지원되는 콘텐츠 형식 및 데이터 형식에 대한 자세한 내용은 Microsoft 연결 알고리즘 기술 참조의 요구 사항 섹션을 참조하세요.

연결 모델 보기

모델을 탐색하려면 Microsoft 연결 뷰어를 사용할 수 있습니다. 연결 모델을 볼 때 Analysis Services는 데이터에 있는 관계 및 규칙을 더 잘 이해할 수 있도록 서로 다른 각도에서 상관 관계를 표시합니다. 뷰어의 항목 집합 창은 가장 일반적인 조합 또는 항목 집합에 대한 자세한 분석을 제공합니다. 규칙 창에는 데이터에서 일반화된 규칙 목록이 표시되고, 확률 계산이 추가되며, 상대적 중요도에 따라 규칙의 순위가 지정됩니다. 종속성 네트워크 뷰어를 사용하면 개별 항목이 어떻게 연결되는지 시각적으로 탐색할 수 있습니다. 자세한 내용은 Microsoft 클러스터 뷰어를 사용하여 모델 찾아보기를 참조하세요.

항목 집합 및 규칙에 대한 자세한 내용을 확인하려면 Microsoft 일반 콘텐츠 트리 뷰어에서 모델을 찾아볼 수 있습니다. 모델에 대해 저장된 콘텐츠에는 각 항목 집합에 대한 지원, 각 규칙의 점수 및 기타 통계가 포함됩니다. 자세한 내용은 연결 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.

예측 만들기

모델이 처리된 후 규칙 및 항목 집합을 사용하여 예측을 수행할 수 있습니다. 연결 모델에서 예측은 지정된 항목이 있는 경우 발생할 가능성이 있는 항목을 알려주며 예측에는 확률, 지원 또는 중요도와 같은 정보가 포함될 수 있습니다. 연결 모델에 대한 쿼리를 만드는 방법에 대한 예제는 연결 모델 쿼리 예제를 참조하세요.

데이터 마이닝 모델에 대해 쿼리를 만드는 방법에 대한 일반적인 내용은 데이터 마이닝 쿼리를 참조하세요.

성능

항목 집합을 만들고 상관 관계를 계산하는 프로세스는 시간이 오래 걸릴 수 있습니다. Microsoft 연결 규칙 알고리즘은 최적화 기술을 사용하여 공간을 절약하고 더 빠르게 처리하지만 다음과 같은 조건에서 성능 문제가 발생할 수 있음을 알아야 합니다.

  • 데이터 집합은 개별 항목이 많을 때 큰 규모입니다.

  • 최소 항목 집합 크기가 너무 낮게 설정되었습니다.

처리 시간을 최소화하고 항목 집합의 복잡성을 줄이려면 데이터를 분석하기 전에 관련 항목을 범주별로 그룹화해 볼 수 있습니다.

비고

  • PMML(예측 모델 태그 언어)을 사용하여 마이닝 모델을 만드는 것은 지원되지 않습니다.

  • 드릴스루 기능을 지원합니다.

  • OLAP 마이닝 모델의 사용을 지원합니다.

  • 데이터 마이닝 차원 만들기를 지원합니다.

또한 참조하십시오

데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)연결 모델에 대한 Microsoft 연결 규칙 뷰어마이닝 모델 콘텐츠를 사용하여 모델 찾아보기(Analysis Services - 데이터 마이닝)Microsoft Association 알고리즘 기술 참조연결 모델 쿼리 예제