다음을 통해 공유


사용자 지정 명명된 엔터티 인식 모델 학습

학습은 모델이 레이블이 지정된 데이터에서 학습하는 프로세스입니다. 학습이 완료되면 모델의 성능을 확인하여 모델을 향상시켜야 하는지 결정할 수 있습니다.

모델을 학습시키려면 학습 작업을 시작하고 성공적으로 완료된 작업에서만 모델이 생성됩니다. 학습 작업은 7일 후에 만료되므로 이 시간 후에는 작업 세부 정보를 검색할 수 없습니다. 학습 작업이 성공적으로 완료되고 모델이 만들어진 경우 모델은 영향을 받지 않습니다. 한 번에 하나의 학습 작업만 실행할 수 있으며, 동일한 프로젝트에서 다른 작업을 시작할 수 없습니다.

학습 시간은 다양합니다. 학습은 문서 수가 적을 경우 몇 분, 데이터 세트 크기와 스키마의 복잡성에 따라 몇 시간에 이를 수 있습니다.

필수 구성 요소

프로젝트 개발 수명 주기를 참조하세요.

데이터 분할

학습 프로세스를 시작하기 전에 프로젝트의 레이블이 지정된 문서는 학습 세트와 테스트 세트로 나뉩니다. 각각 다른 기능을 제공합니다. 학습 집합은 모델을 학습하는 데 사용됩니다. 모델이 레이블이 지정된 엔터티를 학습하고, 엔터티로 추출해야 할 텍스트 범위를 식별하는 데 사용하는 집합입니다. 테스트 세트는 학습 중이 아니라 평가 중에만 도입되는 블라인드 세트입니다. 모델 학습이 성공적으로 완료되면 모델을 사용하여 테스트 문서에서 예측하고 평가 메트릭을 계산합니다 . 모든 엔터티가 학습 및 테스트 집합 모두에서 적절하게 표현되도록 하는 것이 좋습니다.

사용자 지정 NER은 다음과 같은 두 가지 데이터 분할 방법을 지원합니다.

  • 테스트 집합을 학습 데이터에서 자동으로 분할: 선택한 비율에 따라 시스템이 학습 및 테스트 집합 간에 레이블이 지정된 데이터를 분할합니다. 권장되는 분할 백분율은 학습용으로 80%, 테스트용으로 20%입니다.

참고

학습 데이터 옵션에서 테스트 집합 자동 분할을 선택하는 경우 학습 집합에 할당된 데이터만 제공된 백분율에 따라 분할됩니다.

  • 학습 및 테스트 데이터에 대한 수동 분할 사용: 이 방법을 사용하면 사용자가 특정 레이블이 지정된 문서가 속해야 하는 세트를 정의할 수 있습니다. 이 단계는 데이터 레이블 지정 중에 테스트 집합에 문서를 추가한 경우에만 사용하도록 설정됩니다.

REST API로 모델 학습하기

데이터에 레이블을 지정하고 데이터 분할 설정을 구성한 후에는 REST API를 사용하여 사용자 지정 NER 모델 학습을 시작할 수 있습니다. 학습 프로세스에는 학습 작업 요청을 제출하고 완료될 때까지 진행 상황을 모니터링하는 작업이 포함됩니다. 이 섹션에서는 학습을 시작하고 학습 작업의 상태를 확인하는 데 필요한 API 호출을 제공합니다.

학습 작업 시작

학습 작업을 제출하려면 다음 URL, 헤더 및 JSON 본문을 사용하여 POST 요청을 제출합니다. 자리 표시자 값을 사용자 고유의 값으로 바꿉니다.

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}
자리 표시자 예제
{ENDPOINT} API 요청을 인증하기 위한 엔드포인트입니다. https://<your-custom-subdomain>.cognitiveservices.azure.com
{PROJECT-NAME} 프로젝트의 이름입니다. 이 값은 대/소문자를 구분합니다. myProject
{API-VERSION} 호출하는 API의 버전입니다. 참조되는 값은 릴리스된 최신 버전에 대한 값입니다. 자세한 내용은 모델 수명 주기참조하세요. 2022-05-01

headers

다음 헤더를 사용하여 요청을 인증합니다.

Ocp-Apim-Subscription-Key 리소스의 키입니다. API 요청을 인증하는 데 사용됩니다.

요청 본문

요청 본문에서 다음 JSON을 사용합니다. 학습이 완료되면 모델이 {MODEL-NAME} 로 제공됩니다. 성공적인 학습 작업만 모델을 생성합니다.

{
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "evaluationOptions": {
        "kind": "percentage",
        "trainingSplitPercentage": 80,
        "testingSplitPercentage": 20
    }
}
자리 표시자 예제
modelLabel {MODEL-NAME} 성공적으로 학습되면 모델에 할당할 모델 이름입니다. myModel
trainingConfigVersion {CONFIG-VERSION} 모델을 학습시키는 데 사용되는 모델 버전 입니다. 2022-05-01
evaluationOptions 데이터를 학습 세트 및 테스트 세트 간에 분할하는 옵션입니다. {}
kind percentage 분할 방법입니다. 가능한 값은 percentage 또는 manual입니다. 자세한 내용은 모델 학습 방법을참조하세요. percentage
trainingSplitPercentage 80 학습 세트에 포함할 태그가 지정된 데이터의 백분율입니다. 권장 값은 80입니다. 80
testingSplitPercentage 20 테스트 세트에 포함할 태그가 지정된 데이터의 백분율입니다. 권장 값은 20입니다. 20

참고

trainingSplitPercentagetestingSplitPercentage로 설정되고 두 백분율의 합계가 100이어야 하는 경우에만 Kindpercentage가 필요합니다.

API 요청을 보내면 작업이 올바르게 제출되었음을 나타내는 응답을 받게 됩니다 202 . 응답 헤더에서 다음과 같이 형식이 location 지정된 값을 추출합니다.

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

이 작업은 비동기식이므로 {JOB-ID}은 요청을 식별하는 데 사용됩니다. 이 URL을 사용하여 학습 상태를 가져올 수 있습니다.

학습 작업 상태 가져오기(REST API)

학습 데이터의 크기와 스키마의 복잡성에 따라 학습에 다소 시간이 걸릴 수 있습니다. 다음 요청을 사용하여 성공적으로 완료될 때까지 학습 작업의 상태를 계속 폴링할 수 있습니다.

다음 GET 요청을 사용하여 모델의 학습 진행률에 대한 상태를 가져옵니다. 자리 표시자 값을 사용자 고유의 값으로 바꿉니다.

요청 URL

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}
자리 표시자 예제
{ENDPOINT} API 요청을 인증하기 위한 엔드포인트입니다. https://<your-custom-subdomain>.cognitiveservices.azure.com
{PROJECT-NAME} 프로젝트의 이름입니다. 이 값은 대/소문자를 구분합니다. myProject
{JOB-ID} 모델의 학습 상태를 찾기 위한 ID입니다. 이 값은 이전 단계에서 받은 location 헤더 값에 있습니다. xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx
{API-VERSION} 호출하는 API의 버전입니다. 참조되는 값은 릴리스된 최신 버전에 대한 값입니다. 자세한 내용은 모델 수명 주기참조하세요. 2022-05-01

headers

다음 헤더를 사용하여 요청을 인증합니다.

Ocp-Apim-Subscription-Key 리소스의 키입니다. API 요청을 인증하는 데 사용됩니다.

응답 본문

요청을 보내면 다음 응답이 표시됩니다.

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

학습 작업 취소(REST API)

현재 진행 중인 학습 작업을 중지해야 하는 경우 REST API를 사용하여 취소할 수 있습니다. 학습 작업을 취소하는 것은 데이터 또는 구성 관련 문제를 검색하고 학습 프로세스를 다시 시작하기 전에 수정하려는 경우에 유용합니다.

다음 URL, 헤더 및 JSON 본문을 사용하여 학습 작업을 취소하는 POST 요청을 만듭니다.

요청 URL

API 요청을 만들 때 다음 URL을 사용합니다. 자리 표시자 값을 사용자 고유의 값으로 바꿉니다.

{Endpoint}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}
자리 표시자 예제
{ENDPOINT} API 요청을 인증하기 위한 엔드포인트입니다. https://<your-custom-subdomain>.cognitiveservices.azure.com
{PROJECT-NAME} 프로젝트의 이름입니다. 이 값은 대/소문자를 구분합니다. EmailApp
{JOB-ID} 이 값은 학습 작업 ID입니다. XXXXX-XXXXX-XXXX-XX
{API-VERSION} 호출하는 API의 버전입니다. 참조되는 값은 릴리스된 최신 모델 버전에 대한 값입니다. 2022-05-01

headers

다음 헤더를 사용하여 요청을 인증합니다.

Ocp-Apim-Subscription-Key 리소스의 키입니다. API 요청을 인증하는 데 사용됩니다.

API 요청을 보낸 후 작업 상태를 확인하는 데 사용되는 헤더가 포함된 Operation-Location 202 응답을 받게 됩니다.

다음 단계

학습이 완료되면 모델 성능을 확인하여 필요한 경우 선택적으로 모델을 향상시킬 수 있습니다. 모델이 만족스러우면 배포하여 텍스트에서 항목 추출에 사용할 수 있습니다.