다음을 통해 공유


OLAP 마이닝 구조 만들기

OLAP 큐브 또는 기타 다차원 데이터 저장소를 기반으로 데이터 마이닝 모델을 만들 때는 여러 가지 이점이 있습니다. OLAP 솔루션에는 잘 구성되고 정리되고 올바르게 포맷된 방대한 양의 데이터가 이미 포함되어 있습니다. 그러나 데이터의 복잡성은 사용자가 임시 탐색을 통해 의미 있는 패턴을 찾을 가능성이 낮다는 것입니다. 데이터 마이닝은 새로운 상관 관계를 검색하고 실행 가능한 인사이트를 제공하는 기능을 제공합니다.

이 항목에서는 기존 다차원 솔루션의 차원 및 관련 측정값을 기반으로 OLAP 마이닝 구조를 만드는 방법을 설명합니다.

요구 사항

OLAP 데이터 마이닝 프로세스 개요

OLAP 솔루션에서 데이터 마이닝 사용 시나리오

필터

중첩 테이블 사용

데이터 마이닝 차원

OLAP 마이닝 구조 및 모델에 대한 요구 사항

OLAP 마이닝 모델을 디자인하는 경우 큐브를 빌드하는 데 사용된 데이터베이스에 데이터 원본이 이미 있습니다. 원격 큐브에 연결하고 데이터 마이닝 개체를 빌드할 수 없습니다. 큐브 개체는 빌드할 마이닝 구조와 데이터베이스와 동일한 솔루션 내에서 사용할 수 있어야 합니다.

원래 프로젝트 파일이 없거나 변경하지 않으려는 경우 Visual Studio, 서버에서 가져오기(다차원 또는 데이터 마이닝) 옵션을 사용하여 메타데이터 및 솔루션 개체의 복사본을 가져올 수 있습니다. 그런 다음, 기존 개체에 영향을 주지 않고 배포 대상을 수정하고, 데이터 원본을 편집하고, 큐브 개체를 사용할 수 있습니다.

자세한 내용은 Analysis Services 가져오기 마법사를 사용하여 데이터 마이닝 프로젝트 가져오기를 참조하세요.

OLAP 데이터 마이닝 프로세스 개요

솔루션 탐색기에서 마이닝 구조 노드를 마우스 오른쪽 단추로 클릭하고 새 마이닝 구조를 선택하여 데이터 마이닝 마법사를 시작합니다. 마법사는 다음 단계를 안내하여 새 구조 및 모델에 대한 구조를 만듭니다.

  1. 정의 방법을 선택합니다. 여기서 데이터 원본 형식을 선택하고 기존 큐브에서 선택합니다.

    비고

    원본으로 사용하는 OLAP 큐브는 위에서 설명한 대로 마이닝 구조와 동일한 데이터베이스 내에 있어야 합니다. 또한 PowerPivot for Excel 추가 기능에서 만든 큐브를 데이터 마이닝 원본으로 사용할 수 없습니다.

  2. 데이터 마이닝 구조 만들기: 구조체만 빌드할지 아니면 마이닝 모델을 사용하여 구조체를 빌드할지 결정합니다.

    또한 데이터를 분석하기 위한 적절한 알고리즘을 선택해야 합니다. 특정 작업에 가장 적합한 알고리즘에 대한 지침은 HYPERLINK "ms-help://SQL111033/as_1devconc/html/ed1fc83b-b98c-437e-bf53-4ff001b92d64.htm" 데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)을 참조하세요.

  3. 원본 큐브 차원 선택: 이 단계는 데이터 원본을 선택하는 것과 같습니다. 모델 학습에 사용되는 가장 중요한 데이터가 포함된 단일 차원을 선택해야 합니다. 나중에 다른 차원의 데이터를 추가하거나 차원을 필터링할 수 있습니다.

  4. 사례 키를 선택합니다. 방금 선택한 차원 내에서 사례 데이터의 고유 식별자로 사용할 특성(열)을 선택합니다.

    일반적으로 열을 미리 선택하지만 실제로 여러 키가 있는 경우 열을 변경할 수 있습니다.

  5. 사례 수준 열 선택: 여기에서 선택한 차원의 특성과 분석과 관련된 관련 측정값을 선택합니다. 이 단계는 테이블에서 열을 선택하는 것과 같습니다.

    마법사는 선택한 차원의 특성을 사용하여 생성된 모든 측정값을 검토 및 선택할 수 있도록 자동으로 포함합니다.

    예를 들어 큐브에 고객의 지리적 위치에 따라 화물 비용을 계산하는 측정값이 포함되어 있고 모델링을 위한 기본 데이터 원본으로 Customer 차원을 선택한 경우 측정값이 모델에 추가할 후보로 제안됩니다. 측정값 수식에 정의된 대로 열 사이에 암시적 관계가 이미 하나 있고 이(예상) 상관 관계의 강도가 다른 관계로 가려질 수 있으므로 특성을 기반으로 하는 측정값이 너무 많이 추가되지 않도록 주의하세요.

  6. 마이닝 모델 열 사용량 지정: 구조체에 추가한 각 특성 또는 측정값에 대해 특성을 예측에 사용할지 아니면 입력으로 사용해야 하는지 지정해야 합니다. 이러한 옵션 중 하나를 선택하지 않으면 데이터가 처리되지만 분석에는 사용되지 않습니다. 그러나 나중에 드릴스루를 사용하도록 설정하는 경우 백그라운드 데이터로 사용할 수 있습니다.

  7. 중첩 테이블 추가: 관련 테이블을 추가하려면 클릭합니다. 측정값 그룹 차원 선택 대화 상자에서 현재 차원과 관련된 차원 중에서 단일 차원을 선택할 수 있습니다.

    다음으로 중 첩 테이블 키 선택 대화 상자를 사용하여 새 차원이 사례 데이터를 포함하는 차원과 어떻게 관련되는지 정의합니다.

    중첩 테이블 열 선택 대화 상자를 사용하여 분석에 사용할 새 차원의 특성 및 측정값을 선택합니다. 또한 중첩된 특성을 예측에 사용할지 여부를 지정해야 합니다.

    필요한 중첩된 특성을 모두 추가한 후 페이지로 돌아가 마이닝 모델 열 사용량을 지정하고 다음을 클릭합니다.

  8. 열 내용 및 데이터 형식 지정: 이 시점까지 분석에 사용할 모든 데이터를 추가했으며 각 특성에 대한 데이터 형식콘텐츠 형식 을 지정해야 합니다.

    OLAP 모델에서는 데이터 형식이 다차원 솔루션에 의해 이미 정의되어 있으며 변경할 수 없으므로 데이터 형식을 자동으로 검색할 수 있는 옵션이 없습니다. 키도 자동으로 식별됩니다. 자세한 내용은 데이터 형식(데이터 마이닝)을 참조하세요.

    모델에서 사용하는 각 열에 대해 선택하는 콘텐츠 형식 은 데이터를 처리하는 방법을 알고리즘에 알려줍니다. 자세한 내용은 콘텐츠 형식(데이터 마이닝)을 참조하세요.

  9. 원본 큐브 조각화: 여기에서 큐브에서 필터를 정의하여 데이터의 하위 집합만 선택하고 더 많은 대상 모델을 학습시킬 수 있습니다.

    필터링할 차원을 선택하고 사용할 조건이 포함된 계층의 수준을 선택한 다음 필터로 사용할 조건을 입력하여 큐브를 필터링합니다.

  10. 테스트 집합 만들기: 이 페이지에서 모델을 테스트하는 데 사용하기 위해 따로 설정해야 하는 데이터의 양을 마법사에 알릴 수 있습니다. 데이터가 여러 모델을 지원하는 경우 모든 모델을 동일한 데이터에서 테스트할 수 있도록 홀드아웃 데이터 집합을 만드는 것이 좋습니다.

    자세한 내용은 테스트 및 유효성 검사(데이터 마이닝)를 참조하세요.

  11. 마법사 완료: 이 페이지에서 새 마이닝 구조 및 관련 마이닝 모델에 이름을 지정하고 구조와 모델을 저장합니다.

    이 페이지에서 다음 옵션을 설정할 수도 있습니다.

    • 세부 조회 허용

    • 마이닝 모델 차원 만들기

    • 마이닝 모델 차원을 사용하여 큐브 만들기

    이러한 옵션에 대한 자세한 내용은 이 항목의 뒷부분에 있는 데이터 마이닝 차원 및 드릴스루 이해 섹션을 참조하세요.

이 시점에서 마이닝 구조와 해당 모델은 메타데이터일 뿐입니다. 결과를 얻으려면 둘 다 처리해야 합니다.

OLAP 데이터와 함께 데이터 마이닝 사용 시나리오

OLAP 큐브에는 많은 멤버와 차원이 포함된 경우가 많기 때문에 데이터 마이닝으로 시작해야 할 위치를 알기 어려울 수 있습니다. 큐브에 포함된 패턴을 식별하기 위해 일반적으로 관심 있는 단일 차원을 식별한 다음 해당 차원과 관련된 패턴을 탐색하기 시작합니다. 다음 표에서는 몇 가지 일반적인 OLAP 데이터 마이닝 작업을 나열하고, 각 작업을 적용할 수 있는 샘플 시나리오를 설명하고, 각 작업에 사용할 데이터 마이닝 알고리즘을 식별합니다.

과업 샘플 시나리오 알고리즘
멤버를 클러스터로 그룹화 고객 구성원 속성, 고객이 구매하는 제품 및 고객이 지출하는 금액에 따라 고객 차원을 분할합니다. Microsoft 클러스터링 알고리즘
흥미롭거나 비정상적인 멤버 찾기 매출, 수익, 매장 위치 및 매장 크기에 따라 매장 차원의 흥미롭거나 비정상적인 매장을 식별합니다. Microsoft 의사 결정 트리 알고리즘
흥미롭거나 비정상적인 셀 찾기 시간에 따른 일반적인 추세에 반하는 매장 판매를 식별합니다. Microsoft 시계열 알고리즘
상관 관계 찾기 지역, 컴퓨터 유형, OS 또는 구매 날짜를 포함하여 서버 가동 중지 시간과 관련된 요인을 식별합니다. Microsoft Naïve Bayes 알고리즘

큐브 조각화 및 모델 필터링

모델을 빌드하는 동안 큐브를 조각화하면 관계형 마이닝 모델에 필터를 만드는 것과 같습니다. 관계형 모델에서 데이터 원본의 필터는 SQL 문의 WHERE 절로 정의됩니다. 큐브에서는 편집기를 사용하여 MDX로 필터를 생성합니다.

예를 들어 큐브에는 전 세계 제품 구매에 대한 정보가 포함될 수 있지만 마케팅 캠페인의 경우 영국에 거주하는 30세 이상의 여성 고객을 분석한 결과 모델을 만들려고 합니다.

이 시나리오에서는 두 개의 필터를 만듭니다.

  • 첫 번째 필터의 경우 Geography 차원을 선택하고 지역에 대한 계층 구조를 선택한 다음 필터 식 목록을 사용하여 가능한 값 중에서 "영국"을 선택합니다.

  • 두 번째 필터의 경우 Customer 차원을 선택하고 Gender 특성을 선택한 다음 특성 값 목록에서 "Female"을 선택합니다.

마이닝 구조를 만든 후 큐브 데이터의 정의와 필터 조건을 모두 수정할 수 있습니다. 자세한 내용은 마이닝 구조에 대한 원본 큐브 필터링을 참조하세요.

마이닝 구조 탭과 마이닝 모델 탭 모두 큐브 조각 정의를 클릭하여 기존 마이닝 구조에 필터를 추가하는 옵션을 제공합니다. 조각 큐브 대화 상자를 사용하면 드롭다운 목록에서 값을 선택하여 유효한 MDX 필터 식을 작성할 수 있습니다.

경고

큐브를 디자인하고 검색하기 위한 인터페이스가 SQL Server 2014에서 변경되었습니다. 자세한 내용은 큐브의 데이터 및 메타데이터 찾아보기를 참조하세요.

마이닝 모델에 필요한 데이터를 반환하는 데 필요한 만큼 큐브에 필터를 추가할 수 있습니다. 개별 큐브 조각에서 별도의 조각을 정의할 수도 있습니다. 예를 들어 구조에 제품을 기반으로 하는 두 개의 중첩 테이블이 포함된 경우 2004년 3월에 한 테이블을 조각화하고 다른 테이블은 2004년 4월에 조각화할 수 있습니다. 그런 다음 결과 모델을 사용하여 3월에 구매한 구매를 기반으로 4월에 구매한 제품을 예측할 수 있습니다.

OLAP 마이닝 모델에서 중첩 테이블 사용

데이터 마이닝 마법사를 사용하여 큐브 데이터를 기반으로 모델을 빌드하는 경우 관련 차원의 이름을 지정한 다음 모델에 추가할 특성 또는 측정값을 선택하여 중첩 테이블을 추가할 수 있습니다.

예를 들어 사례 데이터에 사용되는 주 차원이 Customer인 경우 고객이 시간이 지남에 따라 여러 제품을 주문했을 수 있고 큐브가 이미 주문 팩트 테이블을 통해 여러 제품에 각 고객을 연결하므로 제품 차원을 관련 차원으로 추가할 수 있습니다.

중첩 테이블 추가를 클릭하여 마법사의 마이닝 모델 열 사용량 지정 페이지에서 중첩 테이블을 추가합니다. 관련 차원과 측정값을 선택하는 과정을 안내하는 대화 상자가 열립니다. 사례와 중첩된 차원은 외래 키로 서로 연결되어야 하며, 측정값은 사례나 중첩 테이블에 이미 포함된 속성 중 하나를 사용해야 합니다. 아쉽게도 이러한 제한은 범위를 좁히는 데 큰 도움이 되지 않으므로 모델링에 유용한 특성만 선택하도록 주의해야 합니다.

중첩 테이블에 추가하는 각 특성 또는 측정값에 대해 중첩된 테이블 열 선택 대화 상자에서 예측 또는 입력 을 선택하여 중 첩된 특성을 예측에 사용할지 여부를 지정해야 합니다. 이러한 옵션 중 하나를 선택하지 않으면 데이터는 마이닝 구조에 추가되지만 분석에는 사용되지 않습니다.

각 특성 및 측정값에 대해 특성이 불연속인지, 불연속화되었는지 또는 연속인지를 지정해야 합니다. 마법사는 특성의 데이터 형식에 따라 기본값을 미리 선택하지만 알고리즘 요구 사항에 따라 이를 변경해야 할 수도 있습니다. 선택한 알고리즘과 호환되지 않는 콘텐츠 형식을 선택하는 경우(예: Naïve Bayes 모델에서 연속 숫자 형식 사용) 모델을 처리하려고 할 때까지 오류 메시지가 표시되지 않습니다.

이러한 옵션 설정을 완료하면 마법사가 중첩 테이블을 사례 테이블에 추가합니다. 중첩 테이블의 기본 이름은 중첩된 차원 이름이지만 중첩 테이블과 해당 열의 이름을 바꿀 수 있습니다. 이 프로세스를 반복하여 마이닝 구조에 여러 중첩 테이블을 추가할 수 있습니다.

이와 같이 중첩된 테이블 데이터를 사용하는 기능은 특히 강력한 SQL Server 데이터 마이닝의 기능이며 큐브에서는 관련 데이터 하위 집합을 사용할 가능성이 거의 없습니다.

데이터 마이닝 차원 및 드릴스루 이해

드릴스루 허용 옵션을 사용하면 모델을 탐색하는 동안 기본 큐브 데이터에 대해 쿼리를 실행할 수 있습니다. 데이터는 새 데이터 마이닝 차원에 포함되지 않지만 Analysis Services 데이터베이스는 데이터 바인딩을 사용하여 원본 큐브에서 정보를 검색할 수 있습니다.

마이닝 모델 차원 만들기 옵션을 사용하면 알고리즘에서 검색한 패턴을 포함하는 기존 큐브 내에서 새 차원을 생성할 수 있습니다. 새 차원 내의 계층 구조는 주로 모델 유형에 따라 결정됩니다. 예를 들어 클러스터링 모델의 표현은 계층 구조의 맨 위에 있는 (All) 노드와 다음 수준의 각 클러스터를 사용하여 상당히 평평합니다. 반면, 의사 결정 트리 모델에 대해 만들어진 차원에는 트리의 분기를 나타내는 매우 깊은 계층 구조가 있을 수 있습니다.

마이닝 모델 차원을 사용하여 큐브 만들기 옵션을 사용하면 새 데이터 마이닝 차원을 새 큐브로 내보낼 수 있습니다. 데이터 마이닝 차원의 드릴스루에 필요한 모든 개체가 자동으로 포함됩니다.

경고

이러한 모델 형식만 데이터 마이닝 차원 만들기를 지원합니다. Microsoft 클러스터링 알고리즘, Microsoft 의사 결정 트리 알고리즘 또는 Microsoft 연결 알고리즘을 기반으로 하는 모델입니다.

또한 참조하십시오

데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)
마이닝 데이터 구조 열
마이닝 모델 열
마이닝 모델 속성
마이닝 구조 및 구조 열의 속성