다음을 통해 공유


마이닝 모델 및 구조 사용자 지정

비즈니스 요구 사항을 충족하는 알고리즘을 선택한 후에는 다음과 같은 방법으로 마이닝 모델을 사용자 지정하여 결과를 개선할 수 있습니다.

  • 모델에서 다른 데이터 열을 사용하거나 열의 사용량, 콘텐츠 형식 또는 불연속화 방법을 변경합니다.

  • 마이닝 모델에 필터를 만들어 모델 학습에 사용되는 데이터를 제한합니다.

  • 데이터를 분석하는 데 사용된 알고리즘을 변경합니다.

  • 임계값, 트리 분할 및 기타 중요한 조건을 제어하도록 알고리즘 매개 변수를 설정합니다.

이 항목에서는 이러한 옵션에 대해 설명합니다.

모델에서 사용하는 데이터 변경

모델에서 사용할 데이터 열과 해당 데이터를 사용하고 처리하는 방법에 대한 결정은 분석 결과에 큰 영향을 줍니다. 다음 항목에서는 이러한 선택을 이해하는 데 도움이 되는 정보를 제공합니다.

기능 선택 사용

Analysis Services의 대부분의 데이터 마이닝 알고리즘은 기능 선택 이라는 프로세스를 사용하여 모델에 추가하기 위한 가장 유용한 특성만 선택합니다. 열 및 특성 수를 줄이면 모델 품질과 성능을 향상시킬 수 있습니다. 사용할 수 있는 기능 선택 방법은 선택한 알고리즘에 따라 다릅니다.

기능 선택(데이터 마이닝).

사용량 변경

마이닝 모델에 포함되는 열과 각 열의 사용 방법을 변경할 수 있습니다. 예상한 결과를 얻지 못하는 경우 입력으로 사용한 열을 예로 들어 열이 적합한지, 그리고 다음을 포함하여 데이터 처리를 개선하기 위해 수행할 수 있는 작업이 있는지 스스로에게 물어봐야 합니다.

  • 실수로 숫자로 레이블이 지정된 범주 변수 식별

  • 특성 수를 축소하고 상관 관계를 쉽게 찾을 수 있도록 범주를 추가합니다.

  • 숫자가 범주화되거나 불연속화되는 방식을 변경합니다.

  • 고유한 값이 많은 열 또는 실제로 참조 데이터이며 주소 또는 중간 이름과 같은 분석에 유용하지 않은 열을 제거합니다.

마이닝 구조에서 열을 물리적으로 제거할 필요가 없습니다. 열에 무시로 플래그를 지정할 수 있습니다. 열은 마이닝 모델에서 제거되지만, 구조의 다른 마이닝 모델에서 계속 사용할 수 있으며 드릴스루 쿼리에서 참조될 수 있습니다.

모델 열에 대한 별칭 만들기

Analysis Services는 마이닝 모델을 만들 때 마이닝 구조에 있는 것과 동일한 열 이름을 사용합니다. 마이닝 모델의 모든 열에 별칭을 추가할 수 있습니다. 이렇게 하면 열 내용이나 사용량을 더 쉽게 이해하거나 쿼리를 만드는 데 편의를 위해 이름을 더 짧게 만들 수 있습니다. 별칭은 열의 복사본을 만들고 설명적인 이름을 지정하려는 경우에도 유용합니다.

마이닝 모델 열의 Name 속성을 편집하여 별칭을 생성합니다. Analysis Services는 원래 이름을 열의 ID로 계속 사용하고, 당신이 입력하는 새로운 값 Name은 열 별칭이 되어 열 사용량 옆의 괄호 안에 표에 표시됩니다.

마이닝 모델 열의 별칭

그래픽은 Income과 관련된 마이닝 구조 열의 복사본이 여러개 있는 관련 모델을 보여 줍니다. 구조 열의 각 복사본은 다른 방식으로 불연속화되었습니다. 다이어그램의 모델은 각각 마이닝 구조와 다른 열을 사용합니다. 그러나 모델 전체의 열을 비교하는 데 편의를 위해 각 모델의 열 이름이 [Income]으로 바뀌었습니다.

필터 추가

마이닝 모델에 필터를 추가할 수 있습니다. 필터는 모델 사례의 데이터를 일부 하위 집합으로 제한하는 WHERE 조건 집합입니다. 필터는 모델을 학습할 때 사용되며, 모델을 테스트하거나 정확도 차트를 만들 때 선택적으로 사용할 수 있습니다.

필터를 추가하여 마이닝 구조를 다시 사용할 수 있지만 데이터의 매우 다른 하위 집합을 기반으로 모델을 만들 수 있습니다. 또는 필터를 사용하여 특정 행을 제거하고 분석 품질을 향상시킬 수 있습니다.

자세한 내용은 마이닝 모델 필터(Analysis Services - 데이터 마이닝)를 참조하세요.

알고리즘 변경

마이닝 구조에 추가하는 새 모델은 동일한 데이터 집합을 공유하지만 다른 알고리즘(데이터가 지원하는 경우)을 사용하거나 알고리즘에 대한 매개 변수를 변경하여 다른 결과를 얻을 수 있습니다. 모델링 플래그를 설정할 수도 있습니다.

알고리즘의 선택은 얻을 결과의 종류를 결정합니다. 특정 알고리즘의 작동 방식 또는 특정 알고리즘을 사용하면 도움이 되는 비즈니스 시나리오에 대한 일반적인 내용은 데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)을 참조하세요.

요구 사항 및 제한 사항에 대한 설명과 각 알고리즘이 지원하는 사용자 지정에 대한 자세한 내용은 각 알고리즘에 대한 기술 참조 항목을 참조하세요.

Microsoft 의사 결정 트리 알고리즘 Microsoft 시계열 알고리즘
Microsoft 클러스터링 알고리즘 Microsoft 신경망 알고리즘
Microsoft Naive Bayes 알고리즘 Microsoft 로지스틱 회귀 알고리즘
Microsoft 연관 알고리즘 Microsoft 선형 회귀 알고리즘
Microsoft 시퀀스 클러스터링 알고리즘

알고리즘 매개 변수 사용자 지정

각 알고리즘은 알고리즘의 동작을 사용자 지정하고 모델의 결과를 미세 조정하는 데 사용할 수 있는 매개 변수를 지원합니다. 각 매개 변수를 사용하는 방법에 대한 설명은 다음 항목을 참조하세요.

각 알고리즘 유형에 대한 항목에는 해당 알고리즘을 기반으로 모델에서 사용할 수 있는 예측 함수도 나열됩니다.

속성 이름 적용 대상
자동 감지 주기성 Microsoft 시계열 알고리즘 기술 참조
클러스터_수 Microsoft 클러스터링 알고리즘 기술 참조

Microsoft 시퀀스 클러스터링 알고리즘 기술 참조
클러스터 시드 Microsoft 클러스터링 알고리즘 기술 참조
클러스터링_방법 Microsoft 클러스터링 알고리즘 기술 참조
복잡성 패널티 Microsoft 의사 결정 트리 알고리즘 기술 참조

Microsoft 시계열 알고리즘 기술 참조
FORCE_REGRESSOR Microsoft 의사 결정 트리 알고리즘 기술 참조

Microsoft 선형 회귀 알고리즘 기술 참조

모델링 플래그(데이터 마이닝)
예측 방법 Microsoft 시계열 알고리즘 기술 참조
HIDDEN_NODE_RATIO Microsoft 신경망 알고리즘 기술 참조
HISTORIC_MODEL_COUNT Microsoft 시계열 알고리즘 기술 참조
역사적 모델 격차 Microsoft 시계열 알고리즘 기술 참조
보류 비율 Microsoft 로지스틱 회귀 알고리즘 기술 참조

Microsoft 신경망 알고리즘 기술 참조

참고: 이 매개 변수는 마이닝 구조에 적용되는 홀드아웃 백분율 값과 다릅니다.
HOLDOUT_SEED Microsoft 로지스틱 회귀 알고리즘 기술 참조

Microsoft 신경망 알고리즘 기술 참조

참고: 이 매개 변수는 마이닝 구조에 적용되는 홀드아웃 시드 값과 다릅니다.
불안정성 민감도 Microsoft 시계열 알고리즘 기술 참조
최대 입력 속성 Microsoft 클러스터링 알고리즘 기술 참조

Microsoft 의사 결정 트리 알고리즘 기술 참조

Microsoft 선형 회귀 알고리즘 기술 참조

Microsoft Naive Bayes 알고리즘 기술 참조

Microsoft 신경망 알고리즘 기술 참조

Microsoft 로지스틱 회귀 알고리즘 기술 참조
MAXIMUM_ITEMSET_COUNT Microsoft 연관 알고리즘 기술 참조
최대_항목집합_크기 Microsoft 연관 알고리즘 기술 참조
최대 출력 속성 Microsoft 의사 결정 트리 알고리즘 기술 참조

Microsoft 선형 회귀 알고리즘 기술 참조

Microsoft 로지스틱 회귀 알고리즘 기술 참조

Microsoft Naive Bayes 알고리즘 기술 참조

Microsoft 신경망 알고리즘 기술 참조
최대 시퀀스 상태 Microsoft 시퀀스 클러스터링 알고리즘 기술 참조
최대_시리즈_값 Microsoft 시계열 알고리즘 기술 참조
최대 상태 Microsoft 클러스터링 알고리즘 기술 참조

Microsoft 신경망 알고리즘 기술 참조

Microsoft 시퀀스 클러스터링 알고리즘 기술 참조
최대 지원 Microsoft 연관 알고리즘 기술 참조
최소 중요성 Microsoft 연관 알고리즘 기술 문서
최소_항목_집합_크기 (MINIMUM_ITEMSET_SIZE) Microsoft 연관 알고리즘 기술 참조
최소_의존_확률 Microsoft Naive Bayes 알고리즘 기술 참조
최소 확률 Microsoft 연관 알고리즘 기술 참조
MINIMUM_SERIES_VALUE Microsoft 시계열 알고리즘 기술 참조
최소 지원 Microsoft 연결 알고리즘 기술 참조

Microsoft 클러스터링 알고리즘 기술 참조

Microsoft 의사 결정 트리 알고리즘 기술 참조

Microsoft 시퀀스 클러스터링 알고리즘 기술 참조

Microsoft 시계열 알고리즘 기술 참조
MISSING_VALUE_SUBSTITUTION Microsoft 시계열 알고리즘 기술 참조
모델링_카디널리티 Microsoft 클러스터링 알고리즘 기술 참조
주기성 힌트 Microsoft 시계열 알고리즘 기술 참조
예측 평활화 Microsoft 시계열 알고리즘 기술 참조
표본 크기 Microsoft 클러스터링 알고리즘 기술 참조

Microsoft 로지스틱 회귀 알고리즘 기술 참조

Microsoft 신경망 알고리즘 기술 참조
점수_방법 Microsoft 의사 결정 트리 알고리즘 기술 참조
분할_메서드 Microsoft 의사 결정 트리 알고리즘 기술 참조
중지 허용 오차 Microsoft 클러스터링 알고리즘 기술 참조

또한 참조하십시오

데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)물리적 아키텍처(Analysis Services - 데이터 마이닝)