시계열 모델에 대한 요구 사항 이해(중급 데이터 마이닝 자습서)

예측 모델에서 사용할 데이터를 준비할 때 데이터에 시계열의 단계를 식별하는 데 사용할 수 있는 단일 열이 포함되어 있는지 확인해야 합니다. 이 열은 Key Time 열로 사용되며 고유한 숫자 값을 포함해야 합니다. 계열의 시작 또는 끝 외에 데이터 간격이 있을 경우 MISSING_VALUE_SUBSTITUTION 매개 변수를 사용하여 계열을 채울 수 있습니다. Analysis Services에서는 평균 또는 상수 사용과 같이 누락된 데이터를 값으로 바꾸는 여러 가지 옵션을 제공합니다.

여러 데이터 계열을 분석하려는 경우 모든 계열이 같은 날짜에 시작하고 종료해야 합니다.

이 태스크에서 Business Intelligence Development Studio에서 간단한 피벗 테이블을 작성하여 시계열 데이터를 탐색합니다. 데이터의 간격을 찾아 처리하는 방법에 대해 학습합니다.

예측 모델에 대한 시간 키를 식별하려면

SalesByRegion.dsv [디자인] 창에서 vTimeSeries 테이블을 마우스 오른쪽 단추로 클릭한 다음 데이터 탐색을 선택합니다.

vTimeSeries 테이블 탐색이라는 새 탭이 열립니다. 이 탭에는 테이블, 피벗 테이블, 차트 및 피벗 차트와 같이 4개의 탭이 있습니다.
테이블 탭에서 탭 오른쪽에 있는 샘플링 옵션 단추를 클릭합니다.
데이터 탐색 옵션 대화 상자의 샘플링 방법에서 기본 샘플링 방법은 최대 개수 옵션을 사용하고 처음 5000개 행을 샘플링하는 것입니다.
샘플링 방법을 무작위 샘플링으로 변경하고, 샘플 개수를 1000으로 변경한 다음 확인을 클릭합니다.

[!참고]

샘플링 옵션을 변경해도 데이터 마이닝에 사용된 데이터에는 영향을 주지 않습니다. 차트와 테이블은 데이터를 찾고 이해할 수 있는 유일한 도구입니다.
테이블 탭에서 TimeIndex 및 Reporting Date 열에 사용된 데이터를 검토합니다.

이 두 열은 고유한 값이 있는 시퀀스이지만 열의 데이터 형식을 확인할 수 있습니다.

[!참고]

Reporting Date 열이 표시되지 않은 경우 이전 버전의 AdventureWorksDW 데이터베이스를 갖고 있는 경우일 수 있습니다. 이 자습서는 SQL Server 2008의 새 날짜 및 시간 기능을 사용하기 위해 AdventureWorksDW2008 데이터베이스가 필요합니다. 날짜 및 시간 변경에 대한 자세한 내용은 SQL Server 2008 데이터베이스 엔진 기능의 주요 변경을 참조하십시오.
SalesByRegion.dsv [디자인] 탭을 클릭합니다.
Reporting Date 열을 선택합니다.

속성 창에서는 TimeIndex 필드가 System.Int32 데이터 형식이고 Reporting Date 필드는 System.DateTime 데이터 형식임을 보여 줍니다. Microsoft 시계열 알고리즘에는 datetime 데이터 형식이 필요하지 않으며, 고유하게 정렬할 수 있는 값만 필요합니다. 따라서 한 열을 예측 모델에 대한 시간 키로 사용할 수 있습니다. 그러나 날짜를 사용하여 예측한 매출 데이터를 나타낼 것이므로 Reporting Date 열을 고유한 계열 식별자로 사용합니다.

데이터 원본 뷰에 키를 설정하려면

SalesByRegion.dsv 창에서 vTimeSeries 테이블을 선택합니다.
Reporting Date 열을 마우스 오른쪽 단추로 클릭하고 논리적 기본 키 설정을 선택합니다.

피벗 차트를 사용하여 데이터 계열의 간격을 확인하려면

SalesByRegion.dsv [디자인] 창에서 vTimeSeries 테이블을 마우스 오른쪽 단추로 클릭한 다음 데이터 탐색을 선택합니다.
피벗 테이블 탭을 클릭합니다.
피벗 테이블 필드 목록 대화 상자에서 Quantity 및 Amount 필드를 선택하여 테이블의 합계 또는 세부 정보 필드를 여기로 끌어 옵니다 영역으로 끕니다.
마찬가지로 TimeIndex 필드를 열 필드를 여기로 끌어 옵니다 상자로 끕니다.

[!참고]

TimeIndex 필드는 시계열을 나타내는 데 사용할 필드가 아니라 이전 버전과의 호환성을 위해 제공되는 필드입니다. 또한 TimeIndex 필드는 피벗 차트에서 데이터를 검색할 때 사용할 수 있는 계열의 간단한 뷰를 제공합니다.
ModelRegion 필드를 행 필드를 여기로 끌어 옵니다 상자로 끕니다.

만들어진 피벗 테이블의 왼쪽 열에 제품과 지역 목록이 표시되고, 각 월별 및 연도별 매출 수량 및 금액이 포함된 다음 열이 표시됩니다.
스크롤 막대를 오른쪽으로 끌어 T1000 계열의 매출 데이터 시작 날짜를 확인합니다.

이 테이블에서 2003년 7월까지 T1000 제품 라인에 대한 데이터가 표시되지 않습니다. SQL Server 2008의 Microsoft 시계열 알고리즘은 단일 모델에 포함된 계열에 같은 끝점이 있어야 합니다. T1000 자전거 모델은 2003년에 추가되었으므로 이 계열의 데이터는 다른 자전거 모델의 계열보다 이후에 시작되지만 이 계열은 같은 날짜에 끝나므로 데이터를 사용할 수 있습니다.
TimeIndex를 테이블 밖으로 끌어서 시계열을 나타내는 데 사용된 필드를 변경합니다.
다음 필드 중 하나를 피벗 테이블 필드 목록에서 열 필드를 여기로 끌어 옵니다 상자로 끕니다. 열을 테이블 밖으로 끌거나 분기 또는 월과 같은 다른 집계를 선택하여 시계열을 다른 방법으로 표시할 수 있습니다.
- ReportingDate
- ReportingDate By Week
- ReportingDate By Month

누락된 데이터 처리(옵션)

계열에 누락된 데이터가 있을 경우 모델을 처리할 때 오류가 발생할 수 있습니다. 여러 가지 방법으로 누락된 데이터를 해결할 수 있습니다.

평균을 계산하거나 이전 값을 사용하여 Analysis Services에서 누락된 값을 채우도록 합니다. 이렇게 하려면 마이닝 모델을 만들 때 매개 변수를 설정합니다. 자세한 내용은 Microsoft 시계열 알고리즘 기술 참조를 참조하십시오.
데이터 원본을 변경하거나 기존 뷰를 필터링하여 계열을 삭제하거나 값을 바꿉니다. 관계형 데이터 원본에서 이 작업을 수행하거나 고객이 명명한 쿼리 또는 명명한 계산을 작성하여 데이터 원본 뷰를 수정할 수 있습니다. 자세한 내용은 데이터 원본 뷰 디자인(Analysis Services)을 참조하십시오. 이 단원의 이후 태스크는 명명된 쿼리와 사용자 지정 계산을 작성하는 방식에 대한 예를 제공합니다.

이 시나리오의 경우 일부 데이터가 한 계열의 시작 부분에서는 누락되었지만 모든 계열이 같은 날짜에 끝나며 누락된 데이터가 없습니다. 데이터가 시계열 모델의 요구 사항을 만족하므로 추가 변경을 하지 않아도 됩니다.

데이터 원본 뷰 디자이너를 닫으려면

vTimeSeries 테이블 탐색 탭을 마우스 오른쪽 단추로 클릭하고 닫기를 선택합니다.

단원의 다음 태스크

예측 구조 및 모델 만들기(중급 데이터 마이닝 자습서)

참고 항목

개념

Microsoft 시계열 알고리즘

Last updated on 2010-09-27