데이터 마이닝을 시작할 때 "필요한 데이터의 양"이나 "데이터를 정리하거나 서식을 지정할 때 알아야 할 특별한 요구 사항이 있나요?"
특히 데이터 마이닝을 접하는 사람들은 열 내에서 일관되게 데이터의 서식을 지정하거나 누락된 값을 정리하거나 숫자를 범주화해야 하는 등 Excel 데이터에 문제가 발생하는 경우가 많습니다. 이 섹션에서는 특정 종류의 모델에 대한 데이터 요구 사항도 나열합니다.
데이터 선택
분석에 사용되는 데이터 선택은 알고리즘 선택보다 데이터 마이닝 프로세스에서 가장 중요한 부분일 수 있습니다. 그 이유는 데이터 마이닝이 일반적으로 가설 기반이 아니라 데이터 기반이기 때문입니다. 기존 통계 모델링에서처럼 변수를 미리 선택하고 테스트하는 대신 데이터 마이닝은 데이터를 가져와서 새로운 상관 관계를 검색하거나 패턴을 전혀 검색하지 못할 수 있습니다. 데이터의 품질과 양은 결과에 큰 영향을 미칠 수 있습니다.
일반적으로 다음 규칙을 준수합니다.
가능한 한 많은 깨끗한 데이터를 가져옵니다.
모델을 시도하기 전에 데이터 프로파일링을 수행합니다. 데이터에서 의미를 파생하려면 데이터를 이해해야 합니다. 최소:
추가 기능의 도구를 사용하여 최대 및 최소값, 가장 일반적인 값 및 평균 값을 찾습니다.
누락된 값을 입력합니다. 추가 기능(및 일부 알고리즘)은 누락된 값을 보완하기 위한 도구를 제공합니다.
가능한 경우 언제든지 잘못된 데이터를 수정합니다. 데이터 마이닝 프로젝트는 종종 새로운 데이터 품질 이니셔티브의 원동력으로 사용됩니다.
테스트 모델을 빌드하고 이러한 방식으로 데이터 문제를 찾아보세요. 예를 들어 결과를 살펴보면, 판매 예측이 통화 변환 오류로 인한 비정상적인 데이터를 기반으로 한다는 것을 알 수 있습니다.
데이터를 다른 형식으로 캐스팅하거나 숫자를 버킷팅해 보세요. 데이터가 변환될 때 패턴이 나타나는 경우가 많습니다.
예를 들어, 콜 센터의 서비스 수준은 요일에 영향을 받을 수 있으며 이는 날짜/시간 값만 사용할 경우 보이지 않을 수 있습니다. 주 단위나 일 단위가 아닌 10일 주기로 생성되는 경우 예측이 더 좋을 수 있습니다.
분석에 사용할 수 있는 값의 수를 줄이기 위해 적절한 bin에 숫자를 넣습니다.
여러 버전의 데이터를 만들고 여러 모델을 빌드합니다.
데이터를 선택, 수정 및 검토하는 방법에 대한 추가 팁은 데이터 마이닝 준비 검사 목록을 참조하세요.
얼마나 많은 데이터가 필요한가요?
가장 간단한 모델 유형 및 시나리오에 대한 데이터 행이 50~100개 미만이면 안 됩니다. 예를 들어 Naïve Bayes 모델을 사용하여 단일 특성을 예측하고 데이터 집합이 올바른 형식인 경우 50-100개의 데이터 행을 사용하여 상당히 정확한 예측을 생성할 수 있습니다.
연결 모델의 경우 일반적으로 훨씬 더 많은 데이터가 필요합니다. 제품 간의 연결과 같은 많은 특성을 분석하는 경우 천 개의 행으로는 충분하지 않을 수 있습니다. 데이터 집합이 너무 크거나 너무 작으면 행을 범주로 축소하여 더 나은 결과를 얻을 수 있습니다. 예를 들어 개별 제품 간의 연결을 분석하는 대신 제품을 분류할 수 있습니다.
적절한 크기의 데이터 집합이 있는 경우 점점 더 많은 데이터를 추가하는 대신 데이터 품질에 더 집중합니다. 한 점 후에 통계적으로 유효한 모든 패턴이 발견되고 더 많은 데이터를 추가해도 유효성이 향상되지는 않습니다. 반대로 데이터를 더 추가하면 실수로 상관 관계가 발생할 수 있습니다.
불연속 및 연속 숫자
불연속 열에는 한정된 수의 값이 포함됩니다. 예를 들어 텍스트는 항상 불연속 값으로 처리됩니다.
불연속 값에 대한 몇 가지 중요한 특성이 있습니다. 예를 들어 숫자를 불연속 숫자로 처리하면 순서가 암시되지 않으며 숫자를 평균하거나 합계를 계산할 수 없습니다. 전화 영역 코드는 수학 연산을 수행하는 데 사용하지 않는 불연속 숫자 데이터의 좋은 예입니다.
불연속 값은 데이터 집합을 그룹화할 수 있는 반면 무한 계열로 정렬된 숫자로는 사용할 수 없으므로 범주 값이라고도 합니다.
값이 명확하게 구분되고 분수 값의 가능성이 없거나 분수 값이 유용하지 않을 때 숫자를 이산적으로 처리할 수도 있습니다.
연속 숫자 데이터에는 무한수의 소수 자릿수 값이 포함될 수 있습니다. 소득 열은 연속 특성 열의 예입니다. 열이 숫자로 지정되면 해당 열의 모든 값은 null을 제외한 숫자여야 합니다. Excel에서는 타임스탬프 및 SQL Server 데이터 형식으로 변환할 수 있는 다른 날짜-시간 표현을 고려할 수 있습니다.
숫자를 범주 변수로 변환
열에 숫자가 포함되어 있다고 해서 연속 숫자로 처리해야 하는 것은 아닙니다. 불연속화은 분석에 많은 이점을 제공합니다. 하나는 문제 공간이 줄어든다는 것입니다. 또 다른 하나는 때로는 숫자가 결과를 표현하는 적절한 방법이 아니라는 것입니다.
예를 들어 가구당 자식 수를 연속 또는 불연속 값으로 처리할 수 있습니다. 가구에 2.5명의 자녀를 둘 수 없으며, 자녀가 3명 이상인 가정은 2명의 자녀가 있는 가정과 매우 다르게 행동할 수 있으므로 이 숫자를 범주로 처리하여 더 나은 결과를 얻을 수 있습니다. 그러나 회귀 모델을 빌드하거나 평균(예: 가구당 1.357명의 자식)이 필요한 경우 연속 숫자 데이터 형식을 사용합니다.
연속 데이터가 있는 마이닝 모델을 만든 다음 나중에 열을 불연속으로 처리할 수 없습니다. 두 데이터 집합은 다르게 처리되어야 하며 백 엔드에서 별도의 마이닝 구조로 처리됩니다. 데이터를 처리하는 올바른 방법을 잘 모르는 경우 데이터를 다르게 처리하는 별도의 모델을 만들어야 합니다. 어떤 경우든 데이터에 대한 다른 관점과 다른 결과를 얻을 수 있는 좋은 방법입니다.
숫자를 텍스트로 변환
Male 및 Female과 같이 불연속이어야 하는 값은 레이블 1과 2를 사용하여 숫자 데이터로 표현되는 경우가 많습니다. 일반적으로 이 코딩은 데이터 입력을 간소화하거나 데이터베이스의 스토리지 공간을 절약하기 위해 수행되지만 코딩은 값의 특성이나 의미를 모호하게 만들 수 있습니다. 또한 불연속 값은 숫자로 저장되므로 애플리케이션 간에 데이터를 이동할 때 데이터 형식 변환 오류가 발생할 수 있으며 값이 계산되거나 연속 값으로 처리될 수 있습니다. 이러한 문제를 방지하려면 데이터 마이닝을 시작하기 전에 숫자 레이블을 다시 불연속 텍스트 레이블로 변환해야 합니다.
숫자 범주화
원칙적으로 모든 숫자는 무한하며 따라서 연속적이지만, 정보를 모델링할 때 사용 가능한 값을 불연속화 하거나 비지정 하는 것이 더 효과적일 수 있습니다.
다음과 같은 여러 가지 방법으로 데이터를 bin할 수 있습니다.
한정된 버킷 수를 지정하고 알고리즘에서 값을 버킷으로 정렬하도록 합니다.
비즈니스 의미가 있거나 작업하기 쉬운 그룹 집합을 만들어 직접 그룹화합니다. 이 방법을 사용하면 값의 실제 분포를 놓치는 경우가 많지만 사용자가 더 쉽게 읽을 수 있습니다.
알고리즘에서 최적의 버킷 수와 값 분포를 모두 결정하도록 합니다. 대부분의 도구에서 기본값이지만 데이터 마이닝 도구 모음 마법사에서 이러한 기본값을 재정의할 수 있습니다.
값을 중앙 평균 또는 대표 값에 근사화합니다.
일반적인 데이터 문제
Excel 숫자 서식
Excel은 용서하기 때문에 사용하기 쉬운 도구입니다. 어디서나 모든 종류의 데이터를 넣을 수 있습니다! 그러나 패턴을 찾고 상관 관계를 분석하기 전에 데이터에 몇 가지 구조 또는 제약 조건을 적용해야 합니다.
기본적으로 숫자 데이터를 Microsoft Office Excel로 가져올 때 숫자는 소수 자릿수가 두 자리인 10진수 형식으로 저장됩니다. 적절한 숫자 형식이 아닌 경우 다른 숫자 형식으로 변경하거나 소수 자릿수를 변경해야 합니다.
한 가지 옵션은 레이블 바꾸기 도구를 사용하여 숫자가 표시되거나 그룹화되는 방식을 변경하는 것입니다.
그러나 데이터가 너무 복잡하여 레이블 다시 지정 도구를 사용하여 처리할 수 없는 경우 Excel의 숫자 함수를 사용하여 데이터를 불연속 범위로 변환하고, 해당 결과를 별도의 열로 저장한 다음, 분류에 불연속 열을 대신 사용할 수 있습니다.
예를 들어 레이스 결과를 분석하고 완료 시간(분)으로 레이서를 그룹화하려는 경우 가장 가까운 분으로 반올림하여 반올림된 값을 새 열에 저장할 수 있습니다. 함수를 사용하여 MINUTE 분 값만 추출한 다음 분석에 사용할 새 열에 해당 값을 저장할 수도 있습니다.
Excel에서 숫자 및 날짜 구분하기
기본적으로 Excel의 숫자 데이터는 .로 Double저장됩니다. 날짜 및 시간도 숫자 형식으로 저장됩니다. 데이터 마이닝에 대한 숫자 또는 날짜를 불연속화해야 하는 경우 데이터 마이닝 모델을 빌드하기 전에 새 열을 추가하거나 날짜와 숫자를 다른 형식으로 미리 변환해야 합니다.
과학적 숫자 형식
데이터 마이닝 도구는 대개 매우 크거나 매우 작은 숫자를 나타내기 위해 과학적 표기법으로 확률을 출력합니다. 과학적 표기법을 잘 모르는 경우 셀 서식을 변경하기만 하면 이러한 숫자를 다른 형식으로 쉽게 표시할 수 있습니다.
과학적 표기법을 10진수 형식으로 변경하려면
Excel 데이터 테이블에서 과학적 표기법의 숫자가 들어 있는 열이나 셀을 강조 표시합니다.
마우스 오른쪽 단추를 클릭하고 바로 가기 메뉴에서 셀 서식 을 선택합니다.
범주 목록에서 번호를 선택합니다.
소수 자릿수를 늘림 과학적 표기법으로 표현되는 확률은 일반적으로 매우 작습니다.
숫자 표시만 변경되고 기본 값은 변경되지 않습니다.
날짜 및 시간 관리
Excel 테이블에 날짜가 있고 열을 입력 또는 예측으로 사용하는 경우 날짜 또는 시간 정보의 서식에 따라 예기치 않은 결과가 나타날 수 있습니다. 예를 들어 범주 검색 또는 분류 를 사용하고 날짜가 포함된 열을 포함하는 경우 날짜는 소수 자릿수가 많은 숫자로 분류됩니다. 이것은 오류가 아닙니다. 기본 데이터의 정확한 표현입니다. 데이터 마이닝 알고리즘은 표시 형식이 아닌 기본 스토리지 형식으로 작동합니다.
날짜 작업에 어려움이 있고 월 또는 일과 같은 상식적인 그룹화로 날짜를 분석하려는 경우 Excel의 DATE 함수를 사용하여 연도, 월 또는 일을 별도의 열로 추출한 다음 대신 분류에 해당 열을 사용할 수 있습니다.
기타 데이터 요구 사항
알고리즘 유형별 요구 사항
추가 기능에 사용되는 일부 알고리즘은 모델을 만들려면 특정 데이터 형식 또는 콘텐츠 형식이 필요합니다.
Naïve Bayes 모델
Microsoft Naive Bayes 알고리즘은 연속 열을 입력으로 사용할 수 없습니다. 즉, 숫자를 그룹화하거나, 값이 충분히 적은 경우에는 불연속 값으로 처리해야 합니다.
이 유형의 모델에서도 연속 값을 예측할 수 없습니다. 따라서 소득과 같은 연속 숫자를 예측하려면 먼저 값을 의미 있는 범위로 범주화해야 합니다. 적절한 범위가 무엇인지 잘 모르는 경우 클러스터링 알고리즘을 사용하여 데이터의 숫자 덩어리를 식별할 수 있습니다.
이 알고리즘에 기반한 마법사(예: 주요 영향 요인 분석(Excel용 테이블 분석 도구))를 사용할 때, 마법사가 연속되는 열을 범주화합니다.
고급 모델링(Excel용 데이터 마이닝 추가 기능) 옵션을 사용하여 Naive Bayes 모델을 빌드하는 경우 숫자 열이 모델에서 제거됩니다. 이를 방지하려면 레이블 다시 지정(SQL Server 데이터 마이닝 추가 기능) 도구를 사용하여 범주화된 값이 있는 새 열을 만듭니다.
클러스터링 모델
클러스터링 도구(클러스터 마법사(Excel용 데이터 마이닝 추가 기능) 및 범주 검색(Excel용 테이블 분석 도구)도 연속 번호를 사용할 수 없지만 두 도구 모두 자동으로 숫자 열을 비울 수 있습니다.
두 도구 모두 결과에서 출력 범주 수를 선택할 수 있는 옵션을 제공하지만 개별 열의 값이 그룹화되는 방식을 제어하려면 원하는 그룹화로 새 열을 만들어야 합니다.
예측 모델
모든 예측 도구를 사용하려면 연속 숫자를 예측해야 합니다. 텍스트로 저장된 숫자를 예측할 수 없습니다.
데이터에 잘못된 데이터 형식의 숫자 열이 포함된 경우 Excel 함수 또는 PowerPivot 함수를 사용하여 올바른 숫자 데이터 형식의 열 복사본을 만들 수 있습니다. 이렇게 하면 값이 중복되지 않도록 텍스트 번호가 있는 열의 복사본을 제거해야 합니다.
회귀 모델의 산점도를 만들려면 입력 변수도 적절한 데이터 형식으로 표현된 연속 숫자여야 합니다.
콘텐츠 형식을 사용하여 더 나은 모델 만들기
콘텐츠 형식은 열 데이터를 모델에서 사용하는 방법을 지정하기 위해 열에 적용하는 속성입니다. 알고리즘은 분석을 수행할 때 콘텐츠 형식을 명령 또는 힌트로 사용할 수 있습니다.
예를 들어 열에 특정 간격으로 반복되어 요일을 나타내는 숫자가 포함된 경우 해당 열의 콘텐츠 형식을 다음과 같이 Cyclical지정할 수 있습니다.
이 추가 기능에 제공된 마법사 및 도구를 사용하는 경우 콘텐츠 형식에 대해 걱정할 필요가 없습니다. 그러나 구조에 모델 추가(Excel용 데이터 마이닝 추가 기능) 모델링 옵션을 사용하여 기존 데이터에 새 모델을 추가하는 경우 콘텐츠 형식과 관련된 오류가 발생할 수 있습니다.
그 이유는 일부 유형의 모델에 특정 종류의 데이터(예: 타임스탬프를 포함)가 필요하기 때문입니다. 도구는 특정 요구 사항에 따라 이러한 열을 처리하고 콘텐츠 형식 속성도 추가합니다. 따라서 완전히 다른 알고리즘으로 데이터를 다시 사용하는 경우 데이터 형식 또는 콘텐츠 형식을 변경해야 할 수 있습니다.
다음 목록에서는 데이터 마이닝에 사용되는 콘텐츠 형식을 설명하고 각 형식을 지원하는 데이터 형식을 식별합니다.
Discrete
열에는 값 사이에 연속이 없는 한정된 수의 값이 포함됩니다. 예를 들어 성별 열은 데이터가 특정 개수의 범주를 나타낸다는 일반적인 불연속 특성 열입니다.
콘텐츠 형식은 Discrete 모든 데이터 형식과 함께 사용할 수 있습니다.
Continuous
열에는 중간 값을 허용하는 눈금의 숫자 데이터를 나타내는 값이 포함됩니다. 연속 열은 확장 가능한 측정값을 나타내며 데이터에 무한수의 소수 값이 포함될 수 있습니다. 온도 열은 연속 속성 열의 한 예입니다.
콘텐츠 형식은 Continuous 다음 데이터 형식DateDoubleLong과 함께 사용할 수 있습니다.
Discretized
열에는 연속 열에서 파생된 값 그룹을 나타내는 값이 포함됩니다. 버킷은 순서가 지정된 값과 불연속 값으로 처리됩니다.
콘텐츠 형식은 Discretized 다음 데이터 형식DateDoubleLong과 함께 사용할 수 있습니다.
키
열은 행을 고유하게 식별합니다.
일반적으로 키 열은 레코드 추적에만 분석에 사용해서는 안 되는 숫자 또는 텍스트 식별자입니다. 예외는 시계열 키 및 시퀀스 키입니다.
중첩 테이블 키 는 Analysis Services 데이터 원본 뷰로 정의된 외부 데이터 원본에서 데이터를 가져올 때만 사용됩니다. 중첩 테이블에 대한 자세한 내용은 다음을 참조하세요 https://msdn.microsoft.com/library/ms175659.aspx.
이 콘텐츠 형식은 다음 데이터 형식DateDoubleLongText과 함께 사용할 수 있습니다.
키 시퀀스
열에는 이벤트 시퀀스를 나타내는 값이 포함됩니다. 값은 순서가 지정되지만 간격이 같을 필요는 없습니다.
이 콘텐츠 형식은 다음 데이터 형식DoubleLongTextDate에서 지원됩니다.
중요 시간
열에는 정렬되고 시간 눈금을 나타내는 값이 포함됩니다. 모델이 시계열 모델 또는 시퀀스 클러스터링 모델인 경우에만 키 시간 콘텐츠 형식을 사용할 수 있습니다.
이 콘텐츠 형식은 다음과 같은 데이터 형식Double에서 LongDate지원됩니다.
테이블
이 콘텐츠 형식은 Analysis Services 데이터 원본 뷰로 정의된 외부 데이터 원본에서 데이터를 가져올 때만 사용됩니다.
즉, 데이터의 각 행에는 하나 이상의 열과 하나 이상의 행이 있는 중첩된 데이터 테이블이 실제로 포함됩니다.
중첩 테이블은 매우 편리하지만 고급 모델링(Excel용 데이터 마이닝 추가 기능) 모델링 옵션에서만 사용할 수 있습니다. 예를 들어 연결 마법사(Excel용 데이터 마이닝 클라이언트) 마법사 및 장바구니 분석(Excel용 Table AnalysisTools) 도구의 샘플 데이터에는 중첩 테이블에서 평면화된 데이터가 포함됩니다.