다음을 통해 공유


메타데이터 편집 구성 요소

이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.

메타데이터 편집 구성 요소를 사용하여 데이터 세트의 열과 연결된 메타데이터를 변경할 수 있습니다. 메타데이터 편집 구성 요소를 사용한 후에는 데이터 세트의 값과 데이터 형식이 변경됩니다.

일반적인 메타데이터 변경 내용에는 다음이 포함될 수 있습니다.

  • 부울 또는 숫자 열을 범주 값으로 처리합니다.

  • 클래스 레이블을 포함하거나 분류하거나 예측할 값을 포함하는 열을 나타냅니다.

  • 열을 기능으로 표시

  • 날짜/시간 값을 숫자 값으로 변경하거나 그 반대로 변경합니다.

  • 열 이름 바꾸기

일반적으로 다운스트림 구성 요소의 요구 사항을 충족하기 위해 열의 정의를 수정해야 하는 경우 언제든지 메타데이터 편집을 사용합니다. 예를 들어 일부 구성 요소는 특정 데이터 형식에서만 작동하거나 IsFeature 또는 IsCategorical과 같은 플래그가 열에 있어야 합니다.

필요한 작업을 수행한 후 메타데이터를 원래 상태로 다시 설정할 수 있습니다.

메타데이터 편집 구성

  1. Azure Machine Learning 디자이너에서 메타데이터 편집 구성 요소를 파이프라인에 추가하고 업데이트할 데이터 세트를 연결합니다. 구성 요소는 데이터 변환 범주에서 찾을 수 있습니다.

  2. 구성 요소의 오른쪽 패널에서 열 편집을 클릭하고 사용할 열 또는 열 집합을 선택합니다. 이름 또는 인덱스별로 열을 개별적으로 선택하거나 형식별로 열 그룹을 선택할 수 있습니다.

  3. 선택한 열에 다른 데이터 형식 을 할당해야 하는 경우 데이터 형식 옵션을 선택합니다. 특정 작업에 대한 데이터 형식을 변경해야 할 수도 있습니다. 예를 들어 원본 데이터 세트에 텍스트로 처리된 숫자가 있는 경우 수학 연산을 사용하기 전에 숫자 데이터 형식으로 변경해야 합니다.

    • 지원되는 데이터 형식은 문자열, 정수, Double, 부울, 날짜/시간입니다.

    • 여러 열을 선택하는 경우 선택한 모든 열에 메타데이터 변경 내용을 적용해야 합니다. 예를 들어 두세 개의 숫자 열을 선택한다고 가정해 봅시다. 모두 문자열 데이터 형식으로 변경하고 하나의 작업에서 이름을 바꿀 수 있습니다. 그러나 한 열을 문자열 데이터 형식으로, 다른 열을 부동 소수점에서 정수로 변경할 수는 없습니다.

    • 새 데이터 형식을 지정하지 않으면 열 메타데이터가 변경되지 않습니다.

    • 메타데이터 편집 작업을 수행한 후 열 형식과 값이 변경됩니다. 메타데이터 편집을 통해 열 데이터 형식을 다시 설정하여 언제든지 원래 데이터 형식을 복구할 수 있습니다.

    참고 항목

    DateTime 형식은 Python 기본 제공 datetime 형식을 따릅니다.
    숫자 유형을 DateTime 형식으로 변경하면 DateTime 형식 필드를 비워 둡 니다. 현재 대상 데이터 형식은 지정할 수 없습니다.

  4. 범주 옵션을 선택하여 선택한 열의 값을 범주로 처리하도록 지정합니다.

    예를 들어 숫자 0, 1, 2를 포함하는 열이 있을 수 있지만 실제로는 “흡연자”, “비흡연자”, “알 수 없음”을 의미합니다. 이 경우 열을 범주별로 플래그 지정하여 값을 그룹 데이터에만 사용하고 숫자 계산에 사용하지 않도록 합니다.

  5. Azure Machine Learning에서 모델의 데이터를 사용하는 방식을 변경하려면 필드 옵션을 사용합니다.

    • 기능: 기능 열에서만 작동하는 구성 요소에서 열을 기능으로 플래그 지정하려면 이 옵션을 사용합니다. 기본적으로 모든 열은 처음에 기능으로 처리됩니다.

    • 레이블: 예측 가능한 특성 또는 대상 변수라고도 하는 레이블을 표시하려면 이 옵션을 사용합니다. 많은 구성 요소에서는 데이터 세트에 정확히 하나의 레이블 열이 있어야 합니다.

      대부분의 경우 Azure Machine Learning은 열에 클래스 레이블이 포함되어 있다고 유추할 수 있습니다. 이 메타데이터를 설정하면 열이 올바르게 식별되는지 확인할 수 있습니다. 이 옵션을 설정해도 데이터 값은 변경되지 않습니다. 일부 기계 학습 알고리즘에서 데이터를 처리하는 방법만 변경합니다.

    이러한 범주에 맞지 않는 데이터가 있나요? 예를 들어 데이터 세트에는 변수로 유용하지 않은 고유 식별자와 같은 값이 포함될 수 있습니다. 경우에 따라 이러한 ID는 모델에서 사용될 때 문제를 일으킬 수 있습니다.

    다행히 Azure Machine Learning은 모든 데이터를 유지하므로 데이터 세트에서 관련 열을 삭제할 필요는 없습니다. 몇 개의 특별한 열 집합에서 작업을 수행해야 하는 경우 데이터 세트에서 열 선택 구성 요소를 사용하여 다른 모든 열을 일시적으로 제거하면 됩니다. 나중에 열 추가 구성 요소를 사용하여 열을 데이터 세트에 다시 병합할 수 있습니다.

  6. 다음 옵션을 사용하여 이전 선택 항목을 지우고 메타데이터를 기본값으로 복원합니다.

    • 기능 지우기: 이 옵션을 사용하여 기능 플래그를 제거합니다.

      처음에는 모든 열이 기능으로 처리됩니다. 수학 연산을 수행하는 구성 요소의 경우 숫자 열이 변수로 처리되지 않도록 하기 위해 이 옵션을 사용해야 할 수도 있습니다.

    • 레이블 지우기: 지정된 열에서 레이블 메타데이터를 제거하려면 이 옵션을 사용합니다.

    • 점수 지우기: 지정된 열에서 점수 메타데이터를 제거하려면 이 옵션을 사용합니다.

      현재 명시적으로 Azure Machine Learning에서 열을 점수로 표시할 수는 없습니다. 그러나 일부 작업을 수행하면 내부적으로 열에 점수 플래그가 지정됩니다. 또한 사용자 지정 R 구성 요소에서 점수 값을 출력할 수도 있습니다.

  7. 새 열 이름의 경우 선택한 열 또는 열의 새 이름을 입력합니다.

    • 열 이름은 UTF-8 인코딩에서 지원되는 문자만 사용할 수 있습니다. 공백으로 완전히 구성된 빈 문자열, null 또는 이름은 허용되지 않습니다.

    • 여러 열의 이름을 바꾸려면 열 인덱스 순서대로 이름을 쉼표로 구분된 목록으로 입력합니다.

    • 선택한 모든 열의 이름을 바꿔야 합니다. 열을 생략하거나 건너뛸 수 없습니다.

  8. 파이프라인을 제출합니다.

다음 단계

Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.