Microsoft Naive Bayes 알고리즘은 Bayes의 정리를 기반으로 하는 분류 알고리즘이며 예측 모델링에 사용하기 위해 Microsoft SQL Server Analysis Services에서 제공합니다. Naïve Bayes라는 이름의 naïve라는 단어는 알고리즘이 Bayesian 기술을 사용하지만 존재할 수 있는 종속성을 고려하지 않는다는 사실에서 비롯됩니다.
이 알고리즘은 다른 Microsoft 알고리즘보다 계산 성능이 떨어지므로 마이닝 모델을 신속하게 생성하여 입력 열과 예측 가능한 열 간의 관계를 검색하는 데 유용합니다. 이 알고리즘을 사용하여 데이터의 초기 탐색을 수행하고 나중에 결과를 적용하여 계산이 더 강렬하고 더 정확한 다른 알고리즘을 사용하여 추가 마이닝 모델을 만들 수 있습니다.
예시
지속적인 홍보 전략으로 Adventure Works Cycle 회사의 마케팅 부서는 전단지를 우편으로 발송하여 잠재 고객을 대상으로 하기로 결정했습니다. 비용을 줄이기 위해 응답할 가능성이 있는 고객에게만 전단지를 보내려고 합니다. 이 회사는 이전 메일링에 대한 인구 통계 및 응답에 대한 정보를 데이터베이스에 저장합니다. 이 데이터를 사용하여 연령 및 위치와 같은 인구 통계학적 특성이 비슷한 고객과 과거에 회사에서 구매한 고객과 잠재 고객을 비교하여 프로모션에 대한 응답을 예측하는 데 어떻게 도움이 되는지 확인하려고 합니다. 특히 자전거를 구입한 고객과 그렇지 않은 고객 간의 차이점을 확인하려고 합니다.
마케팅 부서는 Microsoft Naive Bayes 알고리즘을 사용하여 특정 고객 프로필에 대한 결과를 신속하게 예측할 수 있으므로 전단지에 응답할 가능성이 가장 큰 고객을 결정할 수 있습니다. SSDT(SQL Server Data Tools)에서 Microsoft Naive Bayes 뷰어를 사용하여 전단지에 대한 긍정적인 응답에 기여하는 입력 열을 구체적으로 조사할 수도 있습니다.
알고리즘 작동 방식
Microsoft Naive Bayes 알고리즘은 예측 가능한 열의 가능한 각 상태를 고려하여 각 입력 열의 모든 상태의 확률을 계산합니다.
이 작동 방식을 이해하려면 다음 그래픽과 같이 SSDT(SQL Server Data Tools)의 Microsoft Naive Bayes Viewer를 사용하여 알고리즘이 상태를 배포하는 방법을 시각적으로 탐색합니다.
여기서 Microsoft Naive Bayes 뷰어는 데이터 세트의 각 입력 열을 나열하고 예측 가능한 열의 각 상태를 고려하여 각 열의 상태를 분산하는 방법을 보여 줍니다.
모델의 이 보기를 사용하여 예측 가능한 열의 상태를 구분하는 데 중요한 입력 열을 식별합니다.
예를 들어 여기에 표시된 통근 거리에 대한 행에서 입력 값의 분포는 구매자와 비매매자의 경우 눈에 띄게 다릅니다. 이것은 통근 거리 = 0-1 마일인 입력이 잠재적인 예측 변수임을 알려줍니다.
또한 뷰어는 분포 값을 제공하므로 1~2마일에서 출퇴근하는 고객의 경우 자전거를 구입할 확률은 0.387이며 자전거를 구입하지 않을 확률은 0.287입니다. 이 예제에서 알고리즘은 고객 특성(예: 통근 거리)에서 파생된 숫자 정보를 사용하여 고객이 자전거를 구매할지 여부를 예측합니다.
Microsoft Naive Bayes 뷰어 사용에 대한 자세한 내용은 Microsoft Naive Bayes 뷰어를 사용하여 모델 찾아보기를 참조하세요.
Naive Bayes 모델에 필요한 데이터
Naive Bayes 모델 학습에 사용할 데이터를 준비할 때 필요한 데이터의 양과 데이터 사용 방법을 포함하여 알고리즘에 대한 요구 사항을 이해해야 합니다.
Naive Bayes 모델에 대한 요구 사항은 다음과 같습니다.
단일 키 열 각 모델에는 각 레코드를 고유하게 식별하는 하나의 숫자 또는 텍스트 열이 포함되어야 합니다. 복합 키는 허용되지 않습니다.
입력 열 Naive Bayes 모델에서는 모든 열이 불연속 열이거나 구간화된 열이어야 합니다. 열 불연속화에 대한 자세한 내용은 불연속화 메서드(데이터 마이닝)를 참조하세요.
Naive Bayes 모델의 경우 입력 특성이 서로 독립적인지 확인하는 것도 중요합니다. 이는 예측에 모델을 사용할 때 특히 중요합니다.
그 이유는 이미 밀접하게 관련된 두 개의 데이터 열을 사용하는 경우 결과에 영향을 주는 다른 요인을 모호하게 할 수 있는 해당 열의 영향을 곱하기 때문입니다.
반대로, 변수 간의 상관 관계를 식별하는 알고리즘의 기능은 입력 간의 관계를 식별하기 위해 모델 또는 데이터 세트를 탐색할 때 유용합니다.
하나 이상의 예측 가능한 열 예측 가능한 속성에는 이산 또는 이산화된 값이 포함되어야 합니다.
예측 가능한 열의 값을 입력으로 처리할 수 있습니다. 이 방법은 새 데이터 세트를 탐색할 때 열 간의 관계를 찾는 데 유용할 수 있습니다.
모델 보기
모델을 탐색하려면 Microsoft Naive Bayes 뷰어를 사용할 수 있습니다. 뷰어는 입력 특성이 예측 가능한 특성과 어떻게 관련되는지 보여줍니다. 또한 뷰어는 각 클러스터의 자세한 프로필, 각 클러스터를 다른 클러스터와 구별하는 특성 목록 및 전체 학습 데이터 집합의 특성을 제공합니다. 자세한 내용은 Microsoft Naive Bayes 뷰어를 사용하여 모델 찾아보기를 참조하세요.
자세한 내용을 확인하려면 Microsoft 일반 콘텐츠 트리 뷰어(데이터 마이닝)에서 모델을 찾아볼 수 있습니다. 모델에 저장된 정보 유형에 대한 자세한 내용은 Naive Bayes 모델용 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.
예측 만들기
모델을 학습한 후에는 결과를 패턴 집합으로 저장합니다. 이 패턴은 예측에 대해 탐색하거나 사용할 수 있습니다.
쿼리를 만들어 새 데이터가 예측 가능한 특성과 어떻게 관련되는지에 대한 예측을 반환하거나 모델에서 찾은 상관 관계를 설명하는 통계를 검색할 수 있습니다.
데이터 마이닝 모델에 대한 쿼리를 만드는 방법에 대한 자세한 내용은 데이터 마이닝 쿼리를 참조하세요. Naive Bayes 모델에서 쿼리를 사용하는 방법에 대한 예제는 Naive Bayes 모델 쿼리 예제를 참조하세요.
비고
PMML(예측 모델 태그 언어)을 사용하여 마이닝 모델을 만들도록 지원합니다.
드릴스루 기능을 지원합니다.
데이터 마이닝 차원의 생성을 지원하지 않습니다.
OLAP 마이닝 모델의 사용을 지원합니다.
또한 참조하십시오
데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)기능 선택(데이터 마이닝)Naive Bayes 모델 쿼리 예제Naive Bayes 모델용 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)Microsoft Naive Bayes 알고리즘 기술 참조