다음을 통해 공유


관계형 마이닝 구조 만들기

대부분의 데이터 마이닝 모델은 관계형 데이터 원본을 기반으로 합니다. 관계형 데이터 마이닝 모델을 만들 때의 장점은 임시 데이터를 어셈블하고 큐브를 만드는 복잡성 없이 모델을 학습 및 업데이트할 수 있다는 것입니다.

관계형 마이닝 구조는 서로 다른 원본에서 데이터를 그릴 수 있습니다. 데이터가 데이터 원본 뷰의 일부로 정의될 수 있는 한 원시 데이터는 테이블, 파일 또는 관계형 데이터베이스 시스템에 저장할 수 있습니다. 예를 들어 데이터가 Excel, SQL Server 데이터 웨어하우스 또는 SQL Server 보고 데이터베이스 또는 OLE DB 또는 ODBC 공급자를 통해 액세스되는 외부 원본에 있는 경우 관계형 마이닝 구조를 사용해야 합니다.

이 항목에서는 데이터 마이닝 마법사를 사용하여 관계형 마이닝 구조를 만드는 방법에 대한 개요를 제공합니다.

요구 사항

관계형 마이닝 구조를 만드는 프로세스

데이터 원본을 선택하는 방법

콘텐츠 형식 및 데이터 형식을 지정하는 방법

홀드아웃 데이터 집합을 만드는 이유 및 방법

드릴스루를 사용하도록 설정하는 이유 및 방법

요구 사항

먼저 기존 데이터 원본이 있어야 합니다. 데이터 원본 디자이너를 사용하여 데이터 원본이 아직 없는 경우 설정할 수 있습니다. 자세한 내용은 데이터 원본 만들기(SSAS 다차원)를 참조하세요.

다음으로, 데이터 원본 뷰 마법사를 사용하여 필요한 데이터를 단일 데이터 원본 뷰로 어셈블합니다. 데이터 원본 뷰를 사용하여 데이터를 선택, 변환, 필터링 또는 관리하는 방법에 대한 자세한 내용은 다차원 모델의 데이터 원본 뷰를 참조하세요.

프로세스 개요

솔루션 탐색기에서 마이닝 구조 노드를 마우스 오른쪽 단추로 클릭하고 새 마이닝 구조 추가를 선택하여 데이터 마이닝 마법사를 시작합니다. 마법사는 다음 단계를 안내하여 새 관계형 마이닝 모델에 대한 구조를 만듭니다.

  1. 정의 방법을 선택합니다. 여기서 데이터 원본 형식을 선택하고 관계형 데이터베이스 또는 데이터 웨어하우스에서 선택합니다.

  2. 데이터 마이닝 구조 만들기: 구조체만 빌드할지 아니면 마이닝 모델을 사용하여 구조체를 빌드할지 결정합니다.

    또한 초기 모델에 적합한 알고리즘을 선택합니다. 특정 작업에 가장 적합한 알고리즘에 대한 지침은 데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)을 참조하세요.

  3. 데이터 원본 뷰 선택: 모델 학습에 사용할 데이터 원본 뷰를 선택합니다. 데이터 원본 뷰에는 테스트에 사용되는 데이터 또는 관련 없는 데이터가 포함될 수도 있습니다. 구조체와 모델에서 실제로 사용되는 데이터를 선택하고 선택할 수 있습니다. 나중에 데이터에 필터를 적용할 수도 있습니다.

  4. 테이블 형식 지정: 분석에 사용되는 사례가 포함된 테이블을 선택합니다. 일부 데이터 집합, 특히 시장 바구니 모델을 빌드하는 데 사용되는 데이터 세트의 경우 중첩 테이블로 사용할 관련 테이블을 포함할 수도 있습니다.

    각 테이블에 대해 알고리즘에서 고유한 레코드를 식별하는 방법을 알 수 있도록 키를 지정해야 하며 중첩 테이블을 추가한 경우 관련 레코드를 지정해야 합니다.

    자세한 내용은 마이닝 구조 열을 참조하세요.

  5. 학습 데이터 지정: 이 페이지에서 분석에 가장 중요한 데이터가 포함된 테이블인 사례 테이블로 선택합니다.

    일부 데이터 집합, 특히 시장 바구니 모델을 빌드하는 데 사용되는 데이터 세트의 경우 관련 테이블을 포함할 수도 있습니다. 중첩 테이블의 값들은 주 테이블의 단일 행(또는 경우)과 관련된 여러 값으로 처리됩니다.

  6. 열 내용 및 데이터 형식 지정: 구조에서 사용하는 각 열에 대해 데이터 형식콘텐츠 형식을 모두 선택해야 합니다.

    마법사는 가능한 데이터 형식을 자동으로 검색하지만 마법사에서 권장하는 데이터 형식을 사용할 필요는 없습니다. 예를 들어 데이터에 숫자가 포함되어 있더라도 범주 데이터를 나타낼 수 있습니다. 키로 지정하는 열에는 해당 특정 모델 형식에 대한 올바른 데이터 형식이 자동으로 할당됩니다. 자세한 내용은 마이닝 모델 열 및데이터 형식(데이터 마이닝)을 참조하세요.

    모델에서 사용하는 각 열에 대해 선택하는 콘텐츠 형식 은 데이터를 처리하는 방법을 알고리즘에 알려줍니다.

    예를 들어 연속 값을 사용하는 대신 숫자를 불연속화하도록 결정할 수 있습니다. 열에 가장 적합한 콘텐츠 형식을 자동으로 검색하도록 알고리즘에 요청할 수도 있습니다. 자세한 내용은 콘텐츠 형식(데이터 마이닝)을 참조하세요.

  7. 테스트 집합 만들기: 이 페이지에서 모델을 테스트하는 데 사용하기 위해 따로 설정해야 하는 데이터의 양을 마법사에 알릴 수 있습니다. 데이터가 여러 모델을 지원하는 경우 모든 모델을 동일한 데이터에서 테스트할 수 있도록 홀드아웃 데이터 집합을 만드는 것이 좋습니다.

    자세한 내용은 테스트 및 유효성 검사(데이터 마이닝)를 참조하세요.

  8. 마법사 완료: 이 페이지에서 새 마이닝 구조 및 관련 마이닝 모델에 이름을 지정하고 구조와 모델을 저장합니다.

    모델 유형에 따라 몇 가지 중요한 옵션을 설정할 수도 있습니다. 예를 들어 구조체에서 드릴스루를 사용하도록 설정할 수 있습니다.

    이 시점에서 마이닝 구조와 해당 모델은 메타데이터일 뿐입니다. 결과를 얻으려면 둘 다 처리해야 합니다.

관계형 데이터를 선택하는 방법

관계형 마이닝 구조는 OLE DB 데이터 원본을 통해 사용할 수 있는 모든 데이터를 기반으로 할 수 있습니다. 원본 데이터가 여러 테이블에 포함된 경우 데이터 원본 뷰를 사용하여 한 곳에서 필요한 테이블과 열을 어셈블합니다.

예를 들어 테이블에 일대다 관계가 포함된 경우 분석하려는 각 고객에 대해 여러 구매 레코드가 있는 경우 두 테이블을 모두 추가한 다음 하나의 테이블을 사례 테이블로 사용하여 관계의 여러 쪽에 있는 데이터를 중첩 테이블로 연결할 수 있습니다.

마이닝 구조의 데이터는 기존 데이터 원본 뷰에 있는 모든 항목에서 파생됩니다. 데이터 원본 뷰 내에서 필요에 따라 데이터를 수정하여 기본 관계형 데이터에 없을 수 있는 관계 또는 파생 열을 추가할 수 있습니다. 데이터 원본 뷰 내에서 명명된 계산 또는 집계를 만들 수도 있습니다. 이러한 기능은 데이터 원본의 데이터 정렬을 제어할 수 없거나 데이터 마이닝 모델에 대한 다양한 데이터 집계를 실험하려는 경우에 매우 편리합니다.

사용 가능한 모든 데이터를 사용할 필요는 없습니다. 마이닝 구조에 포함할 열을 선택하고 선택할 수 있습니다. 그런 다음 해당 구조를 기반으로 하는 모든 모델은 해당 열을 사용하거나 특정 모델에 대해 Ignore 특정 열에 플래그를 지정할 수 있습니다. 데이터 마이닝 모델의 사용자가 마이닝 모델의 결과에서 드릴다운하여 마이닝 모델 자체에 포함되지 않은 추가 마이닝 구조 열을 볼 수 있도록 설정할 수 있습니다.

콘텐츠 형식 및 데이터 형식을 지정하는 방법

데이터 형식은 SQL Server 또는 다른 애플리케이션 인터페이스(날짜 및 시간, 다양한 크기의 숫자, 부울 값, 텍스트 및 기타 불연속 데이터)에서 지정한 데이터 형식과 거의 동일합니다.

그러나 콘텐츠 형식은 데이터 마이닝에 중요하며 분석 결과에 영향을 줍니다. 콘텐츠 형식은 알고리즘에 데이터로 수행해야 하는 작업을 알려줍니다: 숫자를 연속적 척도로 처리해야 하나요, 아니면 구간으로 나누어야 하나요? 잠재적인 값은 몇 개입니까? 각 값이 서로 다른가요? 값이 키인 경우 키의 종류는 무엇인가요? 날짜/시간 값, 시퀀스 또는 다른 종류의 키를 나타내나요?

데이터 형식의 선택은 콘텐츠 형식의 선택을 제한할 수 있습니다. 예를 들어 숫자가 아닌 값을 불연속화할 수 없습니다. 원하는 콘텐츠 형식을 볼 수 없는 경우 [뒤로 ]를 클릭하여 데이터 형식 페이지로 돌아가서 다른 데이터 형식을 사용해 볼 수 있습니다.

콘텐츠 형식을 잘못 가져오는 것에 대해 너무 걱정할 필요가 없습니다. 마이닝 구조의 데이터 형식 집합에서 새 콘텐츠 형식을 지원하는 한 새 모델을 만들고 모델 내에서 콘텐츠 형식을 변경하는 것은 매우 쉽습니다. 또한 실험으로 다른 콘텐츠 형식을 사용하여 여러 모델을 만들거나 다른 알고리즘의 요구 사항을 충족하는 것이 매우 일반적입니다.

예를 들어 데이터에 소득 열이 포함된 경우 Microsoft 의사 결정 트리 알고리즘을 사용할 때 두 개의 다른 모델을 만들고 열을 연속 숫자 또는 불연속 범위로 교대로 구성할 수 있습니다. 그러나 Microsoft Naïve Bayes 알고리즘을 사용하여 모델을 추가한 경우 해당 알고리즘이 연속 숫자를 지원하지 않으므로 열을 불연속 값으로만 변경해야 합니다.

학습 및 테스트 집합으로 데이터를 분할하는 이유 및 방법

마법사가 끝날 무렵, 데이터를 학습 및 테스트 집합으로 분할할지 여부를 결정해야 합니다. 테스트를 위해 임의로 샘플링된 데이터 부분을 프로비전하는 기능은 새 마이닝 구조와 연결된 모든 마이닝 모델에서 일관된 테스트 데이터 집합을 사용할 수 있도록 하기 때문에 매우 편리합니다.

경고

이 옵션은 모든 모델 형식에 사용할 수 없습니다. 예를 들어 예측 모델을 만드는 경우 시계열 알고리즘에 데이터 간격이 없어야 하므로 홀드아웃을 사용할 수 없습니다. 홀드아웃 데이터 집합을 지원하는 모델 형식 목록은 데이터 집합 학습 및 테스트를 참조하세요.

이 홀드아웃 데이터 집합을 만들려면 테스트에 사용할 데이터의 백분율을 지정합니다. 나머지 데이터는 모두 학습에 사용됩니다. 필요에 따라 테스트에 사용할 최대 사례 수를 설정하거나 임의 선택 프로세스를 시작하는 데 사용할 시드 값을 설정할 수 있습니다.

홀드아웃 테스트 집합의 정의는 마이닝 구조와 함께 저장되므로 구조를 기반으로 새 모델을 만들 때마다 테스트 데이터 집합을 사용하여 모델의 정확도를 평가할 수 있습니다. 마이닝 구조의 캐시를 삭제하면 학습에 사용된 사례와 테스트에 사용된 사례에 대한 정보도 삭제됩니다.

드릴스루를 사용하도록 설정하는 이유 및 방법

마법사가 거의 끝날 때 드릴스루를 사용하도록 설정하는 옵션이 있습니다. 이 옵션을 놓치기 쉽지만 중요한 옵션입니다. 드릴스루를 사용하면 마이닝 모델을 쿼리하여 마이닝 구조의 원본 데이터를 볼 수 있습니다.

이것이 유용한 이유는 무엇인가요? 클러스터링 모델의 결과를 보고 특정 클러스터에 배치된 고객을 보려고 하는 경우를 가정해 보겠습니다. 드릴스루를 사용하여 연락처 정보와 같은 세부 정보를 볼 수 있습니다.

경고

드릴스루를 사용하려면 마이닝 구조를 만들 때 이를 사용하도록 설정해야 합니다. 나중에 모델에서 속성을 설정하여 모델에서 드릴스루를 사용하도록 설정할 수 있지만 마이닝 구조에서는 이 옵션을 처음부터 설정해야 합니다. 자세한 내용은 드릴스루 쿼리(데이터 마이닝)를 참조하세요.

또한 참조하십시오

데이터 마이닝 디자이너
데이터 마이닝 마법사(Analysis Services - 데이터 마이닝)
마이닝 모델 속성
마이닝 구조 및 구조 열의 속성
마이닝 구조 작업 및 방법