Excel용 테이블 분석 도구를 사용하여 데이터 마이닝을 수행하는 경우 데이터 마이닝 알고리즘 또는 매개 변수를 구성할 필요가 없습니다. 각 도구는 데이터를 분석하고 최적의 매개 변수를 자동으로 선택합니다. 그러나 모델을 수정하거나 마이닝 모델을 처음부터 만들려는 경우 Excel용 데이터 마이닝 클라이언트는 사용자 지정을 위한 몇 가지 옵션을 제공합니다.
고급을 클릭한 다음 구조체에 모델 추가를 클릭하여 데이터 마이닝 모델을 수동으로 만듭니다.
데이터 마이닝 클라이언트에서 모델링 마법사를 사용하고 매개 변수 를 클릭하여 Microsoft 데이터 마이닝 알고리즘의 동작을 제어합니다.
쿼리를 클릭하여 쿼리 모델 마법사를 연 다음 고급을 클릭하여 데이터 마이닝 고급 쿼리 편집기를 엽니다. 이 편집기에서는 DMX 템플릿을 사용하여 모델을 빌드할 수 있습니다.
이미 생성된 마이닝 모델의 동작을 수정하거나 마이닝 모델 뷰어에서 매개 변수를 설정하여 결과를 필터링할 수도 있습니다.
알고리즘 매개 변수 목록
매개 변수를 설정하여 모든 Microsoft 알고리즘을 사용자 지정할 수 있습니다. 최상의 매개 변수 설정은 데이터 컴퍼지션에 따라 달라지므로 매개 변수 변경의 영향에 대한 전체 설명은 이 항목의 범위를 벗어집니다.
다음 표에서는 매개 변수를 나열하고 해당 기능을 설명하며 추가 기술 정보에 대한 링크를 제공합니다.
| 매개 변수 이름 | 에 사용됨 | 설명 |
|---|---|---|
| 자동 감지 주기성 | Microsoft 시계열 알고리즘 | 주기를 검색하는 데 사용되는 0에서 1 사이의 숫자 값을 지정합니다. 이 값을 1에 가깝게 설정하면 많은 거의 주기적인 패턴을 검색하고 주기 힌트를 자동으로 생성할 수 있습니다. 많은 주기적 힌트를 처리하면 모델 학습 시간이 훨씬 길어지고 모델이 더 정확해질 수 있습니다. 값이 0에 가까울 경우 주기성은 강력한 주기적 데이터에 대해서만 검색됩니다. 기본값은 0.6입니다. |
| 클러스터_수 | Microsoft 클러스터링 알고리즘 Microsoft 시퀀스 클러스터링 알고리즘 |
알고리즘에서 빌드할 대략적인 클러스터 수를 지정합니다. 데이터에서 대략적인 수의 클러스터를 빌드할 수 없는 경우 알고리즘은 가능한 한 많은 클러스터를 빌드합니다. CLUSTER_COUNT 0으로 설정하면 알고리즘이 추론을 사용하여 빌드할 클러스터 수를 가장 잘 결정합니다. 기본값은 10입니다. |
| 클러스터 시드 | Microsoft 클러스터링 알고리즘 | 모델 빌드의 초기 단계에 대한 클러스터를 임의로 생성하는 데 사용되는 시드 번호를 지정합니다. 기본값은 0입니다. |
| 클러스터링_방법 | Microsoft 클러스터링 알고리즘 | 사용할 알고리즘의 클러스터링 메서드를 지정합니다. 다음과 같은 클러스터링 방법을 사용할 수 있습니다. 확장 가능한 EM(1), 확장할 수 없는 EM(2), 확장 가능한 K-평균(3) 및 확장할 수 없는 K-평균(4). 기본값은 1입니다. |
| 복잡성 패널티 | Microsoft 의사 결정 트리 알고리즘 Microsoft 시계열 알고리즘 |
의사 결정 트리의 증가를 제어합니다. 값이 낮을수록 분할 수가 증가하고 값이 높을수록 분할 수가 줄어듭니다. 기본값은 다음 목록에 설명된 대로 특정 모델의 특성 수를 기반으로 합니다. 1~9개 특성의 경우 기본값은 0.5입니다. 10~99개 특성의 경우 기본값은 0.9입니다. 100개 이상의 특성의 경우 기본값은 0.99입니다. 참고: 시계열 모델에서 이 매개 변수는 ARTxp 알고리즘을 사용하여 빌드된 모델 또는 혼합 모델에만 적용됩니다. |
| FORCED_REGRESSOR | Microsoft 의사 결정 트리 알고리즘 Microsoft 선형 회귀 알고리즘 |
알고리즘에서 계산한 열의 중요도에 관계없이 알고리즘이 표시된 열을 회귀 변수로 사용하도록 합니다. 참고: 이 매개 변수는 연속 특성을 예측하는 의사 결정 트리에만 사용됩니다. 정의에 따라 선형 회귀 모델은 연속 특성을 예측하는 의사 결정 트리의 특별한 사례입니다. 그러나 모든 의사 결정 트리 모델에는 선형 회귀 수식을 나타내는 노드가 포함될 수 있습니다. |
| 예측 방법 | Microsoft 시계열 알고리즘 | ARTxp 알고리즘, ARIMA 알고리즘 또는 둘의 조합을 사용하여 예측을 수행해야 하는지 여부를 나타냅니다. 기본값은 MIXED입니다. |
| 히든_노드_비율 | Microsoft 신경망 알고리즘 | 숨겨진 뉴런과 입력 및 출력 뉴런의 비율을 지정합니다. 다음 수식은 숨겨진 계층의 초기 뉴런 수를 결정합니다. HIDDEN_NODE_RATIO * SQRT(총 입력 뉴런 * 총 출력 뉴런) 기본값은 4.0입니다. |
| 역사적 모델 수 | Microsoft 시계열 알고리즘 | 빌드할 기록 모델의 수를 지정합니다. 기본값은 1입니다. |
| 역사적 모델 격차 | Microsoft 시계열 알고리즘 | 연속된 두 기록 모델 간의 시간 지연을 지정합니다. 예를 들어 이 값을 g로 설정하면 시간 조각에 의해 g, 2*g, 3*g 등의 간격으로 잘리는 데이터에 대해 기록 모델이 빌드됩니다. 기본값은 10입니다. |
| 보류 비율 | Microsoft 로지스틱 회귀 알고리즘 Microsoft 신경망 알고리즘 |
마이닝 모델을 학습하는 동안 중지 조건의 일부로 사용되는 홀드아웃 오류를 계산하는 데 사용되는 학습 데이터 내의 사례 비율을 지정합니다. 기본값은 30입니다. 참고: 이 매개 변수는 마이닝 구조에 적용되는 홀드아웃 백분율 값과 다릅니다. |
| HOLDOUT_SEED | Microsoft 로지스틱 회귀 알고리즘 Microsoft 신경망 알고리즘 |
알고리즘이 홀드아웃 데이터를 임의로 결정할 때 의사 임의 생성기를 시드하는 데 사용되는 숫자를 지정합니다. 이 매개 변수가 0으로 설정된 경우 알고리즘은 마이닝 모델의 이름을 기반으로 시드를 생성하여 다시 처리하는 동안 모델 콘텐츠가 동일하게 유지되도록 합니다. 기본값은 0입니다. 참고: 이 매개 변수는 마이닝 구조에 적용되는 홀드아웃 시드 값과 다릅니다. |
| 불안정성 민감도 | Microsoft 시계열 알고리즘 | 예측 분산이 특정 임계값을 초과하는 지점을 제어하여 ARTxp 알고리즘이 예측을 억제합니다. 기본값은 1입니다. 참고: 이 매개 변수는 ARTxp 알고리즘을 사용하는 혼합 모델 또는 모델에만 적용됩니다. |
| 최대 입력 속성 | Microsoft 클러스터링 알고리즘 Microsoft 의사 결정 트리 알고리즘 Microsoft 선형 회귀 알고리즘 Microsoft Naïve Bayes 알고리즘 Microsoft 신경망 알고리즘 Microsoft 로지스틱 회귀 알고리즘 |
알고리즘이 기능 선택을 호출하기 전에 처리할 수 있는 입력 특성 수를 정의합니다. 기능 선택을 해제하려면 이 값을 0으로 설정합니다. 기본값은 255입니다. |
| 최대 아이템 세트 수 | Microsoft 연결 알고리즘 | 생성할 최대 항목 집합 수를 지정합니다. 숫자가 지정되지 않은 경우 알고리즘은 가능한 모든 항목 집합을 생성합니다. 기본값은 200000입니다. |
| 최대_항목집합_크기 | Microsoft 연결 알고리즘 | 항목 집합에서 허용되는 최대 항목 수를 지정합니다. 이 값을 0으로 설정하면 항목 집합의 크기에 제한이 없습니다. 기본값은 3입니다. |
| 최대 출력 속성 | Microsoft 의사 결정 트리 알고리즘 Microsoft 선형 회귀 알고리즘 Microsoft 로지스틱 회귀 알고리즘 Microsoft Naïve Bayes 알고리즘 Microsoft 신경망 알고리즘 |
알고리즘이 기능 선택을 호출하기 전에 처리할 수 있는 출력 특성 수를 정의합니다. 기능 선택을 해제하려면 이 값을 0으로 설정합니다. 기본값은 255입니다. |
| 최대 시퀀스 상태 | Microsoft 시퀀스 클러스터링 알고리즘 | 시퀀스에 사용할 수 있는 최대 상태 수를 지정합니다. 이 값을 100보다 큰 숫자로 설정하면 알고리즘이 의미 있는 정보를 제공하지 않는 모델을 만들 수 있습니다. 기본값은 64입니다. |
| 최대_시리즈_값 | Microsoft 시계열 알고리즘 | 예측에 사용할 최대값을 지정합니다. 이 매개 변수는 MINIMUM_SERIES_VALUE 함께 사용하여 예측을 예상 범위로 제한합니다. 예를 들어 하루의 예상 판매 수량이 재고의 제품 수를 초과하지 않도록 지정할 수 있습니다. |
| 최대 상태 | Microsoft 클러스터링 알고리즘 Microsoft 신경망 알고리즘 Microsoft 시퀀스 클러스터링 알고리즘 |
알고리즘이 지원하는 특성 상태의 최대 수를 지정합니다. 특성이 있는 상태 수가 최대 상태 수보다 큰 경우 알고리즘은 특성의 가장 인기 있는 상태를 사용하고 나머지 상태를 무시합니다. 기본값은 100입니다. |
| 최대 지원 | Microsoft 연결 알고리즘 | 항목 집합에서 지원할 수 있는 최대 사례 수를 지정합니다. 이 값이 1보다 작은 경우 값은 총 사례의 백분율을 나타냅니다. 이 값이 1보다 크면 항목 집합을 포함할 수 있는 절대 사례 수를 나타냅니다. 기본값은 1입니다. |
| 최소 중요성 | Microsoft 연결 알고리즘 | 연결 규칙의 중요도 임계값을 지정합니다. 중요도가 이 값보다 작은 규칙은 필터링됩니다. |
| 최소_항목_집합_크기 (MINIMUM_ITEMSET_SIZE) | Microsoft 연결 알고리즘 | 항목 집합에 허용되는 최소 항목 수를 지정합니다. 기본값은 1입니다. |
| 최소_의존_확률 | Microsoft Naïve Bayes 알고리즘 | 입력 및 출력 특성 간의 최소 종속성 확률을 지정합니다. 이 값은 알고리즘에서 생성되는 콘텐츠의 크기를 제한하는 데 사용됩니다. 이 속성은 0에서 1로 설정할 수 있습니다. 값이 클수록 모델 콘텐츠의 특성 수가 줄어듭니다. 기본값은 0.5입니다. |
| 최소 확률 | Microsoft 연결 알고리즘 | 규칙이 true인 최소 확률을 지정합니다. 예를 들어 이 값을 0.5로 설정하면 확률이 50% 미만인 규칙이 생성되지 않습니다. 기본값은 0.4입니다. |
| 최소 시리즈 값 | Microsoft 시계열 알고리즘 | 시계열 예측에 대한 하한 제약 조건을 지정합니다. 예측 값은 이 제약 조건보다 작지 않습니다. |
| 최소 지원 | Microsoft 연결 알고리즘 | 알고리즘이 규칙을 생성하기 전에 항목 집합을 포함해야 하는 최소 사례 수를 지정합니다. 이 값을 1보다 작은 값으로 설정하면 최소 사례 수가 총 사례의 백분율로 지정됩니다. 이 값을 1보다 큰 정수로 설정하면 최소 사례 수가 항목 집합을 포함해야 하는 절대 사례 수로 지정됩니다. 메모리가 제한된 경우 알고리즘이 이 매개 변수의 값을 늘릴 수 있습니다. 기본값은 0.03입니다. |
| 최소 지원 | Microsoft 클러스터링 알고리즘 | 각 클러스터의 최소 사례 수를 지정합니다. 기본값은 1입니다. |
| 최소 지원 | Microsoft 의사 결정 트리 알고리즘 | 의사 결정 트리에서 분할을 생성하는 데 필요한 최소 리프 사례 수를 결정합니다. 기본값은 10입니다. |
| 최소 지원 | Microsoft 시퀀스 클러스터링 알고리즘 | 각 클러스터의 최소 사례 수를 지정합니다. 기본값은 10입니다. |
| 최소 지원 | Microsoft 시계열 알고리즘 | 각 시계열 트리에서 분할을 생성하는 데 필요한 최소 시간 조각 수를 지정합니다. 기본값은 10입니다. |
| 값 없음 대체 | Microsoft 시계열 알고리즘 | 기록 데이터의 간격을 채우는 데 사용되는 메서드를 지정합니다. 기본적으로 데이터의 불규칙한 간격 또는 비정형 가장자리는 허용되지 않습니다. 다음 메서드를 사용하여 불규칙한 간격 또는 가장자리를 채울 수 있습니다. 이전 값을 사용하거나 평균 값을 사용하거나 특정 숫자 상수 사용 |
| 모델링_카디널리티 | Microsoft 클러스터링 알고리즘 | 클러스터링 프로세스 중에 생성되는 샘플 모델의 수를 지정합니다. 기본값은 10입니다. |
| 주기성 힌트 | Microsoft 시계열 알고리즘 | 데이터의 주기성에 대한 힌트를 알고리즘에 제공합니다. 예를 들어 판매량이 연도별로 다르고 계열의 측정 단위가 월인 경우 주기는 12입니다. 이 매개 변수는 {n [, n]}의 형식을 사용합니다. 여기서 n은 양수입니다. 대괄호[] 내의 n은 선택 사항이며 필요에 따라 자주 반복할 수 있습니다. 기본값은 {1}입니다. |
| 예측 평활화 | Microsoft 시계열 알고리즘 | ARTXP 및 ARIMA 시계열 알고리즘의 혼합을 제어합니다. 지정된 값은 FORECAST_METHOD 매개 변수가 MIXED로 설정된 경우에만 유효합니다. 값은 0에서 1 사이여야 합니다. 값이 0이면 모델은 ARTXP만 사용합니다. 값이 1이면 모델은 ARIMA만 사용합니다. 0에 가까운 값은 ARTXP에 더 많은 가중치가 적용됩니다. 1에 가까운 값은 ARIMA에 더 가중치가 적용됩니다. |
| 표본 크기 | Microsoft 클러스터링 알고리즘 | CLUSTERING_METHOD 매개 변수가 확장 가능한 클러스터링 방법 중 하나로 설정된 경우 알고리즘이 각 패스에서 사용하는 사례 수를 지정합니다. SAMPLE_SIZE 매개 변수를 0으로 설정하면 전체 데이터 세트가 단일 패스로 클러스터됩니다. 이로 인해 메모리 및 성능 문제가 발생할 수 있습니다. 기본값은 50000입니다. |
| 표본 크기 | Microsoft 로지스틱 회귀 알고리즘 Microsoft 신경망 알고리즘 |
모델을 학습하는 데 사용할 사례 수를 지정합니다. 알고리즘 공급자는 이 숫자 또는 HOLDOUT_PERCENTAGE 매개 변수에 지정된 홀드아웃 백분율에 포함되지 않은 총 사례의 백분율(값이 더 작은 경우)을 사용합니다. 즉, HOLDOUT_PERCENTAGE 30으로 설정된 경우 알고리즘은 이 매개 변수의 값 또는 총 사례 수의 70%에 해당하는 값 중 더 작은 값을 사용합니다. 기본값은 10000입니다. |
| 점수_방법 | Microsoft 의사 결정 트리 알고리즘 | 분할 점수를 계산하는 데 사용되는 메서드를 결정합니다. 다음 옵션을 사용할 수 있습니다. (1) Entropy, (2) K2 Prior를 사용한 Bayesian 또는 (3) BDE(Bayesian Dirichlet Equivalent) Prior. 기본값은 3입니다. |
| 분할_메서드 | Microsoft 의사 결정 트리 알고리즘 | 노드를 분할하는 데 사용되는 메서드를 결정합니다. 사용할 수 있는 옵션은 바이너리(1), 완료(2), 또는 둘 다(3)입니다. 기본값은 3입니다. |
| 중지 허용 오차 | Microsoft 클러스터링 알고리즘 기술 참조 | 수렴에 도달하고 알고리즘이 모델 빌드를 완료하는 시기를 결정하는 데 사용되는 값을 지정합니다. 클러스터 확률의 전반적인 변화가 모델 크기로 나눈 STOPPING_TOLERANCE 매개 변수의 비율보다 작으면 수렴에 도달합니다. 기본값은 10입니다. |
코멘트
알고리즘에 대한 자세한 내용은 SQL Server 온라인 설명서를 참조하세요.