다음을 통해 공유


데이터 마이닝 프로젝트

데이터 마이닝 프로젝트는 Analysis Services 솔루션의 일부입니다. 디자인 프로세스 중에 이 프로젝트에서 만든 개체를 작업 영역 데이터베이스의 일부로 테스트 및 쿼리할 수 있습니다. 사용자가 프로젝트에서 개체를 쿼리하거나 찾아볼 수 있도록 하려면 다차원 모드에서 실행되는 Analysis Services 인스턴스에 프로젝트를 배포해야 합니다.

이 항목에서는 데이터 마이닝 프로젝트를 이해하고 만드는 데 필요한 기본 정보를 제공합니다.

데이터 마이닝 프로젝트 만들기

SSDT(SQL Server Data Tools)에서는 템플릿, OLAP 및 데이터 마이닝 프로젝트를 사용하여 데이터 마이닝 프로젝트를 빌드합니다. AMO를 사용하여 프로그래밍 방식으로 데이터 마이닝 프로젝트를 만들 수도 있습니다. 개별 데이터 마이닝 개체는 ASSL(Analysis Services Scripting Language)을 사용하여 스크립팅할 수 있습니다. 자세한 내용은 다차원 모델 데이터 액세스(Analysis Services - 다차원 데이터)를 참조하세요.

기존 솔루션 내에서 데이터 마이닝 프로젝트를 만드는 경우 기본적으로 데이터 마이닝 개체는 솔루션 파일과 동일한 이름의 Analysis Services 데이터베이스에 배포됩니다. 프로젝트 속성 대화 상자를 사용하여 이 이름과 대상 서버를 변경할 수 있습니다. 자세한 내용은 SSDT(Analysis Services 프로젝트 속성) 구성을 참조하세요.

경고

프로젝트를 성공적으로 빌드하고 배포하려면 OLAP/데이터 마이닝 모드에서 실행되는 Analysis Services 인스턴스에 액세스할 수 있어야 합니다. 테이블 형식 모델을 지원하는 Analysis Services 인스턴스에서 데이터 마이닝 솔루션을 개발하거나 배포할 수 없으며 PowerPivot 통합 문서 또는 메모리 내 데이터 저장소를 사용하는 테이블 형식 모델에서 직접 데이터를 사용할 수도 없습니다. 가지고 있는 Analysis Services 인스턴스가 데이터 마이닝을 지원할 수 있는지 여부를 확인하려면 Analysis Services 인스턴스의 서버 모드를 확인하세요.

만드는 각 데이터 마이닝 프로젝트 내에서 다음 단계를 수행합니다.

  1. 모델 빌드에 사용할 원시 데이터가 포함된 큐브, 데이터베이스 또는 Excel 또는 텍스트 파일과 같은 데이터 원본을 선택합니다.

  2. 분석에 사용할 데이터 원본의 데이터 하위 집합을 정의하고 데이터 원본 뷰로 저장합니다.

  3. 모델링을 지원하는 마이닝 구조를 정의합니다.

  4. 알고리즘을 선택하고 알고리즘이 데이터를 처리하는 방법을 지정하여 마이닝 구조에 마이닝 모델을 추가합니다.

  5. 선택한 데이터 또는 필터링된 데이터 하위 집합으로 모델을 채워 모델을 학습시킵니다.

  6. 모델을 탐색, 테스트 및 다시 빌드합니다.

프로젝트가 완료되면 사용자가 예측 및 분석을 지원하기 위해 애플리케이션의 마이닝 모델에 대한 프로그래밍 방식 액세스를 찾아보거나 쿼리하거나 제공할 수 있도록 프로젝트를 배포할 수 있습니다.

데이터 마이닝 프로젝트의 개체

모든 데이터 마이닝 프로젝트에는 다음과 같은 네 가지 유형의 개체가 포함되어 있습니다. 모든 형식의 여러 개체를 가질 수 있습니다.

  • 데이터 원본

  • 데이터 원본 뷰

  • 마이닝 구조

  • 마이닝 모델

예를 들어 단일 데이터 마이닝 프로젝트에는 여러 데이터 원본에 대한 참조가 포함될 수 있으며 각 데이터 원본은 여러 데이터 원본 뷰를 지원합니다. 따라서 각 데이터 원본 뷰는 여러 마이닝 구조를 지원할 수 있으며, 각 마이닝 구조에는 여러 관련 마이닝 모델이 있습니다.

또한 프로젝트에 플러그 인 알고리즘, 사용자 지정 어셈블리 또는 사용자 지정 저장 프로시저가 포함될 수 있습니다. 그러나 이러한 개체는 여기에 설명되어 있지 않습니다. 자세한 내용은 개발자 가이드(Analysis Services)를 참조하세요.

데이터 소스

데이터 원본은 Analysis Services 서버가 데이터 원본에 연결하는 데 사용할 연결 문자열 및 인증 정보를 정의합니다. 데이터 원본에는 여러 테이블 또는 뷰가 포함될 수 있습니다. 단일 Excel 통합 문서 또는 텍스트 파일처럼 간단하거나 OLAP(온라인 분석 처리) 데이터베이스 또는 대규모 관계형 데이터베이스처럼 복잡할 수 있습니다.

단일 데이터 마이닝 프로젝트는 여러 데이터 원본을 참조할 수 있습니다. 마이닝 모델은 한 번에 하나의 데이터 원본만 사용할 수 있지만 프로젝트에는 여러 데이터 원본에 그리는 여러 모델이 있을 수 있습니다.

Analysis Services는 많은 외부 공급자의 데이터를 지원하며 SQL Server 데이터 마이닝은 관계형 데이터와 큐브 데이터를 모두 데이터 원본으로 사용할 수 있습니다. 그러나 OLAP 큐브를 기반으로 관계형 원본 및 모델을 기반으로 두 가지 유형의 프로젝트 모델을 모두 개발하는 경우 별도의 프로젝트에서 이러한 모델을 개발하고 관리할 수 있습니다.

  • 일반적으로 OLAP 큐브를 기반으로 하는 모델은 OLAP 디자인 솔루션 내에서 개발되어야 합니다. 한 가지 이유는 큐브를 기반으로 하는 모델이 큐브를 처리하여 데이터를 업데이트해야 하기 때문입니다. 일반적으로 데이터 스토리지 및 액세스의 주된 수단이거나 다차원 프로젝트에서 만든 집계, 차원 및 특성이 필요한 경우에만 큐브 데이터를 사용해야 합니다.

  • 프로젝트에서 관계형 데이터만 사용하는 경우 다른 개체를 불필요하게 다시 처리하지 않도록 별도의 프로젝트 내에서 관계형 모델을 만들어야 합니다. 대부분의 경우 큐브 만들기를 지원하는 데 사용되는 준비 데이터베이스 또는 데이터 웨어하우스에는 이미 데이터 마이닝 수행에 필요한 뷰가 포함되어 있으며, 큐브의 집계 및 차원을 사용하는 대신 데이터 마이닝에 이러한 보기를 사용할 수 있습니다.

  • 메모리 내 또는 PowerPivot 데이터를 직접 사용하여 데이터 마이닝 모델을 빌드할 수 없습니다.

데이터 원본은 서버 또는 공급자와 일반 데이터 형식만 식별합니다. 데이터 서식 및 집계를 변경해야 하는 경우 데이터 원본 뷰 개체를 사용합니다.

데이터 원본의 데이터가 처리되는 방식을 제어하려면 파생 열 또는 계산을 추가하거나, 집계를 수정하거나, 데이터 원본 뷰의 데이터 열 이름을 바꿀 수 있습니다. (마이닝 구조 열을 수정하거나 마이닝 모델 열 수준에서 모델링 플래그 및 필터를 사용하여 데이터 다운스트림으로 작업할 수도 있습니다.)

데이터 정리가 필요하거나 데이터 웨어하우스의 데이터를 수정하여 추가 변수를 만들거나, 데이터 형식을 변경하거나, 대체 집계를 만들어야 하는 경우 데이터 마이닝 지원을 위해 추가 프로젝트 형식을 만들어야 할 수 있습니다. 이러한 관련 프로젝트에 대한 자세한 내용은 데이터 마이닝 솔루션 관련 프로젝트를 참조하세요.

데이터 소스 보기

데이터 원본에 대한 이 연결을 정의한 후에는 모델과 관련된 특정 데이터를 식별하는 뷰를 만듭니다.

또한 데이터 원본 뷰를 사용하면 데이터 원본의 데이터가 마이닝 모델에 제공되는 방식을 사용자 지정할 수 있습니다. 데이터의 구조를 수정하여 프로젝트와 더 관련성을 높이거나 특정 종류의 데이터만 선택할 수 있습니다.

예를 들어 데이터 원본 뷰 편집기를 사용하여 다음을 수행할 수 있습니다.

  • dateparts, substrings 등과 같은 파생 열을 만듭니다.

  • GROUP BY와 같은 Transact-SQL 문을 사용하여 값 집계

  • 데이터를 일시적으로 제한하거나 샘플링하기

데이터 원본 뷰 내에서 데이터를 수정하는 방법에 대한 자세한 내용은 다차원 모델의 데이터 원본 뷰를 참조하세요.

경고

데이터를 필터링하려는 경우 데이터 원본 뷰에서 필터링할 수 있지만 마이닝 모델 수준에서 데이터에 대한 필터를 만들 수도 있습니다. 필터 정의는 마이닝 모델과 함께 저장되므로 모델 필터를 사용하면 모델 학습에 사용된 데이터를 더 쉽게 확인할 수 있습니다. 또한 서로 다른 필터 조건을 사용하여 여러 관련 모델을 만들 수 있습니다. 자세한 내용은 마이닝 모델 필터(Analysis Services - 데이터 마이닝)를 참조하세요.

사용자가 만든 데이터 원본 뷰에는 분석에 직접 사용되지 않는 추가 데이터가 포함될 수 있습니다. 예를 들어 테스트, 예측 또는 드릴스루 분석에 사용되는 데이터 원본 뷰에 추가할 수 있습니다. 이러한 사용에 대한 자세한 내용은 테스트 및 유효성 검사(데이터 마이닝)드릴스루를 참조하세요.

마이닝 구조

데이터 원본 및 데이터 원본 뷰를 만든 후에는 프로젝트 내에서 마이닝 구조를 정의하여 비즈니스 문제와 가장 관련된 데이터 열을 선택해야 합니다. 마이닝 구조는 모델링, 학습 및 테스트에 실제로 사용해야 하는 데이터 원본 뷰의 데이터 열을 프로젝트에 알려줍니다.

새 마이닝 구조를 추가하려면 데이터 마이닝 마법사를 시작합니다. 마법사는 자동으로 마이닝 구조를 정의하고, 데이터를 선택하는 프로세스를 안내하며, 필요에 따라 구조에 초기 마이닝 모델을 추가할 수 있습니다. 마이닝 구조 내에서 데이터 원본 뷰 또는 OLAP 큐브에서 테이블과 열을 선택하고 데이터에 중첩 테이블이 포함된 경우 테이블 간의 관계를 정의합니다.

데이터 마이닝 마법사에서 선택한 데이터는 OLAP(관계형 또는 온라인 분석 처리) 데이터 원본을 사용하는지 여부에 따라 매우 다르게 표시됩니다.

  • 관계형 데이터 원본에서 데이터를 선택하는 경우 마이닝 구조를 쉽게 설정할 수 있습니다. 데이터 원본 뷰의 데이터에서 열을 선택하고 별칭과 같은 추가 사용자 지정을 설정하거나 열의 값을 그룹화하거나 범주화할 방법을 정의합니다. 자세한 내용은 관계형 마이닝 구조 만들기를 참조하세요.

  • OLAP 큐브의 데이터를 사용하는 경우 마이닝 구조는 OLAP 솔루션과 동일한 데이터베이스에 있어야 합니다. 마이닝 구조를 만들려면 OLAP 솔루션의 차원 및 관련 측정값에서 특성을 선택합니다. 숫자 값은 일반적으로 측정값 및 차원의 범주 변수에서 찾을 수 있습니다. 자세한 내용은 OLAP 마이닝 구조 만들기를 참조하세요.

  • DMX를 사용하여 마이닝 구조를 정의할 수도 있습니다. 자세한 내용은 DMX(데이터 마이닝 확장) 데이터 정의 문을 참조하세요.

초기 마이닝 구조를 만든 후에는 구조 열 복사, 수정 및 별칭을 지정할 수 있습니다.

각 마이닝 구조에는 여러 마이닝 모델이 포함될 수 있습니다. 따라서 마이닝 구조를 다시 열고 데이터 마이닝 디자이너 를 사용하여 구조에 더 많은 마이닝 모델을 추가할 수 있습니다.

또한 모델을 빌드하는 데 사용되는 학습 데이터 집합과 마이닝 모델을 테스트하거나 유효성을 검사하는 데 사용할 홀드아웃 데이터 집합으로 데이터를 구분하는 옵션도 있습니다.

경고

시계열 모델과 같은 일부 모델 형식은 학습을 위해 연속 데이터 계열이 필요하기 때문에 홀드아웃 데이터 집합 생성을 지원하지 않습니다. 자세한 내용은 데이터 집합 학습 및 테스트를 참조하세요.

마이닝 모델

마이닝 모델은 데이터에 사용할 알고리즘 또는 분석 방법을 정의합니다. 각 마이닝 구조에 하나 이상의 마이닝 모델을 추가합니다.

필요에 따라 여러 모델을 단일 프로젝트에 결합하거나 각 유형의 모델 또는 분석 작업에 대해 별도의 프로젝트를 만들 수 있습니다.

구조 및 모델을 만든 후에는 데이터의 수학 모델을 생성하는 알고리즘을 통해 데이터 원본 뷰의 데이터를 실행하여 각 모델을 처리 합니다. 이 프로세스를 모델 학습이라고도 합니다. 자세한 내용은 처리 요구 사항 및 고려 사항(데이터 마이닝)을 참조하세요.

모델이 처리된 후 마이닝 모델을 시각적으로 탐색하고 이에 대한 예측 쿼리를 만들 수 있습니다. 학습 프로세스의 데이터가 캐시된 경우 드릴스루 쿼리를 사용하여 모델에 사용된 사례에 대한 자세한 정보를 반환할 수 있습니다.

프로덕션에 모델을 사용하려는 경우(예: 예측을 만들거나 일반 사용자가 탐색하는 데 사용) 다른 서버에 모델을 배포할 수 있습니다. 나중에 모델을 다시 처리해야 하는 경우 기본 마이닝 구조(및 반드시 데이터 원본 및 데이터 원본 뷰의 정의)의 정의를 동시에 내보내야 합니다.

모델을 배포할 때 구조 및 모델에 대해 올바른 처리 옵션이 설정되고 잠재적 사용자에게 쿼리, 모델 보기 또는 드릴스루를 수행하여 o 모델 데이터를 구성하는 데 필요한 권한이 있는지 확인해야 합니다. 자세한 내용은 보안 개요(데이터 마이닝)를 참조하세요.

완료된 데이터 마이닝 프로젝트 사용

이 섹션에서는 완료된 데이터 마이닝 프로젝트를 사용할 수 있는 방법을 요약합니다. 정확도 차트를 만들고, 데이터를 탐색 및 유효성을 검사하고, 사용자가 데이터 마이닝 패턴을 사용할 수 있도록 할 수 있습니다.

경고

데이터 마이닝 모델에서 사용하는 차트, 쿼리 및 시각화는 데이터 마이닝 프로젝트의 일부로 저장되지 않으며 배포할 수 없습니다. 이러한 개체를 유지해야 하는 경우 표시되는 콘텐츠를 저장하거나 각 개체에 대해 설명된 대로 스크립트해야 합니다.

모델 보기 및 탐색

모델을 만든 후에는 시각적 도구와 쿼리를 사용하여 모델의 패턴을 탐색하고 기본 패턴 및 통계에 대해 자세히 알아볼 수 있습니다. 데이터 마이닝 디자이너의 마이닝 모델 뷰어 탭에서 Analysis Services는 마이닝 모델을 탐색하는 데 사용할 수 있는 각 마이닝 모델 유형에 대한 뷰어를 제공합니다.

이러한 시각화는 임시이며 Analysis Services로 세션을 종료할 때 저장하지 않고 닫힙니다. 따라서 프레젠테이션 또는 추가 분석을 위해 이러한 시각화를 다른 애플리케이션으로 내보내야 하는 경우 뷰어 인터페이스의 각 탭 또는 창에 제공된 복사 명령을 사용합니다.

또한 Excel용 데이터 마이닝 추가 기능은 Visio 다이어그램에서 모델을 나타내고 Visio 도구를 사용하여 다이어그램에 주석을 달고 수정하는 데 사용할 수 있는 Visio 템플릿을 제공합니다. 자세한 내용은 Microsoft Office 2007용 Microsoft SQL Server 2008 SP2 데이터 마이닝 추가 기능을 참조하세요.

모델 테스트 및 유효성 검사

모델을 만든 후에는 결과를 조사하고 어떤 모델이 가장 적합한지 결정할 수 있습니다.

Analysis Services는 마이닝 모델을 직접 비교하고 가장 정확하거나 유용한 마이닝 모델을 선택하는 데 사용할 수 있는 도구를 제공하는 데 사용할 수 있는 여러 차트를 제공합니다. 이러한 도구에는 리프트 차트, 수익 차트 및 분류 행렬이 포함됩니다. 데이터 마이닝 디자이너의 마이닝 정확도 차트 탭을 사용하여 이러한 차트를 생성할 수 있습니다.

교차 유효성 검사 보고서를 사용하여 데이터의 반복 하위 샘플링을 수행하여 모델이 특정 데이터 집합에 편향되어 있는지 여부를 확인할 수도 있습니다. 보고서에서 제공하는 통계를 사용하여 모델을 객관적으로 비교하고 학습 데이터의 품질을 평가할 수 있습니다.

이러한 보고서와 차트는 프로젝트 또는 ssASnoversion 데이터베이스에 저장되지 않으므로 결과를 보존하거나 복제해야 하는 경우 결과를 저장하거나 DMX 또는 AMO를 사용하여 개체를 스크립트해야 합니다. 교차 유효성 검사에 저장 프로시저를 사용할 수도 있습니다.

자세한 내용은 테스트 및 유효성 검사(데이터 마이닝)를 참조하세요.

예측 만들기

Analysis Services는 예측을 만들기 위한 기초이며 쉽게 스크립팅할 수 있는 DMX(데이터 마이닝 확장)라는 쿼리 언어를 제공합니다. DMX 예측 쿼리를 빌드하는 데 도움이 되도록 SQL Server는 SQL Server Management Studio에서 사용할 수 있는 쿼리 작성기를 제공합니다. SQL Server Management Studio에는 쿼리 편집기용 DMX 템플릿도 많이 있습니다. 예측 쿼리를 처음으로 사용하는 경우 데이터 마이닝 디자이너와 SQL Server Management Studio 모두에서 제공되는 쿼리 작성기를 사용하는 것이 좋습니다. 자세한 내용은 데이터 마이닝 도구를 참조하세요.

SSDT(SQL Server Data Tools) 또는 SQL Server Management Studio에서 만든 예측은 유지되지 않으므로 쿼리가 복잡하거나 결과를 재현해야 하는 경우 DMX 쿼리 파일에 예측 쿼리를 저장하거나, 스크립트를 작성하거나, Integration Services 패키지의 일부로 쿼리를 포함하는 것이 좋습니다.

데이터 마이닝 개체에 대한 프로그래밍 방식 액세스

Analysis Services는 프로그래밍 방식으로 데이터 마이닝 프로젝트 및 그 안에 있는 개체를 사용하는 데 사용할 수 있는 몇 가지 도구를 제공합니다. DMX 언어는 데이터 원본 및 데이터 원본 뷰를 만들고 데이터 마이닝 구조 및 모델을 만들고 학습시키고 사용하는 데 사용할 수 있는 문을 제공합니다. 자세한 내용은 DMX(데이터 마이닝 확장) 참조를 참조하세요.

ASSL(Analysis Services Scripting Language)을 사용하거나 AMO(Analysis Management Objects)를 사용하여 이러한 작업을 수행할 수도 있습니다. 자세한 내용은 Analysis Services에서 XMLA를 사용하여 개발을 참조하세요.

다음 항목에서는 데이터 마이닝 마법사를 사용하여 데이터 마이닝 프로젝트 및 관련 개체를 만드는 방법을 설명합니다.

업무 토픽
마이닝 구조 열을 사용하는 방법을 설명합니다. 관계형 마이닝 구조 만들기
새 마이닝 모델을 추가하고 구조 및 모델을 처리하는 방법에 대한 자세한 정보를 제공합니다. 구조에 마이닝 모델 추가(Analysis Services - 데이터 마이닝)
마이닝 모델을 빌드하는 알고리즘을 사용자 지정하는 데 도움이 되는 리소스에 대한 링크를 제공합니다. 마이닝 모델 및 구조 사용자 지정
각 마이닝 모델 뷰어에 대한 정보에 대한 링크를 제공합니다. 데이터 마이닝 모델 뷰어
리프트 차트, 수익 차트 또는 분류 행렬을 만들거나 마이닝 구조를 테스트하는 방법을 알아봅니다. 테스트 및 유효성 검사(데이터 마이닝)
처리 옵션 및 사용 권한에 대해 알아보기 데이터 마이닝 개체 처리
Analysis Services에 대한 자세한 정보 제공 SSAS(다차원 모델 데이터베이스)

또한 참조하십시오

데이터 마이닝 디자이너
SSDT(SQL Server Data Tools)를 사용하여 다차원 모델 만들기
작업 영역 데이터베이스(SSAS 테이블 형식)