이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.
데이터 요약 구성 요소를 사용하여 입력 테이블의 각 열을 설명하는 표준 통계 측정값 집합을 만들 수 있습니다.
요약 통계는 전체 데이터 세트의 특성을 이해하려는 경우에 유용합니다. 예를 들어 다음을 알아야 할 수 있습니다.
- 각 열에 누락된 값은 몇 개입니까?
- 기능 열에는 몇 개의 고유 값이 있나요?
- 각 열의 평균 및 표준 편차는 무엇인가요?
구성 요소는 각 열의 중요한 점수를 계산하고 입력으로 제공된 각 변수(데이터 열)의 요약 통계 행을 반환합니다.
데이터 요약을 구성하는 방법
파이프라인에 데이터 요약 구성 요소를 추가합니다. 이 구성 요소는 디자이너의 통계 함수 범주에서 찾을 수 있습니다.
보고서를 생성할 데이터 세트를 연결합니다.
일부 열에 대해서만 보고하려는 경우 데이터 세트에서 열 선택 구성 요소를 사용하여 작업할 열의 하위 집합을 프로젝션합니다.
추가 매개 변수는 필요 없습니다. 기본적으로 이 구성 요소는 입력으로 제공된 모든 열을 분석하고, 열의 값 유형에 따라 결과 섹션에 설명된 대로 관련 통계 집합을 출력합니다.
파이프라인을 제출합니다.
결과
구성 요소의 보고서에는 다음 통계가 포함될 수 있습니다.
| 열 이름 | 설명 |
|---|---|
| 기능 | 열의 이름 |
| 개수 | 모든 행 수 |
| 고유 값 수 | 열의 고유 값 수 |
| 누락 값 개수 | 열의 고유 값 수 |
| 분 | 열에서 가장 낮은 값 |
| 최대 | 열에서 가장 높은 값 |
| 평균 | 모든 열 값의 평균값 |
| 평균 편차 | 열 값의 평균 편차 |
| 1분위수 | 첫 번째 사분위수의 값 |
| 중앙값 | 중앙값 열 값 |
| 3분위수 | 세 번째 사분위수의 값 |
| 모드 | 열 값의 모드 |
| 범위 | 최대값과 최소값 사이의 값 수를 나타내는 정수입니다. |
| 샘플 분산 | 열의 가변성, 참고 참조 |
| 샘플 표준 편차 | 열에 대한 표준 편차; 참고 참조 |
| 샘플 기울이기 | 열의 왜도, 참고 참조 |
| 샘플 첨도 | 열에 대한 첨도; 참고 참조 |
| P0.5 | 0.5% 백분위수 |
| P1 | 1% 백분위수 |
| P5 | 5% 백분위수 |
| P95 | 95% 백분위수 |
| P99.5 | 99.5% 백분위수 |
기술 정보
숫자가 아닌 열의 경우 개수, 고유 값 개수 및 누락된 값 개수의 값만 계산됩니다. 다른 통계의 경우 null 값이 반환됩니다.
부울 값이 포함된 열은 다음 규칙을 사용하여 처리됩니다.
Min을 계산할 때 논리 AND가 적용됩니다.
최대값 계산 시에는 논리 OR이 적용됩니다.
범위 계산 시 구성 요소는 먼저 열의 고유 값 수가 2인지를 확인합니다.
부동 소수점 계산이 필요한 통계를 계산할 때 True 값은 1.0으로 처리되고 False 값은 0.0으로 처리됩니다.
다음 단계
Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.