개념에 대한 일반적인 질문과 Foundry Tools의 Azure Language에서 사용자 지정 NER와 관련된 시나리오에 대한 답변을 찾습니다.
서비스를 시작하려면 어떻게 해야 하나요?
자세한 내용은 빠른 시작 또는 프로젝트를 만드는 방법을참조하세요.
서비스의 제한 사항은 무엇입니까?
자세한 내용은 서비스 제한을참조하세요.
태그가 지정된 파일의 수는 몇 개인가요?
일반적으로 다양하고 대표적인 태그가 지정된 데이터는 태그 지정이 정확하고 일관되며 완벽하게 수행된다는 점에서 더 나은 결과로 이어집니다. 모델이 잘 수행되도록 태그가 지정된 인스턴스 수는 정해지지 않습니다. 성능은 스키마와 스키마의 모호성에 따라 크게 달라집니다. 모호한 엔터티 형식에는 더 많은 태그가 필요합니다. 성능도 태그 지정의 품질에 따라 달라집니다. 권장되는 엔터티당 태그가 지정된 인스턴스 수는 50개입니다.
모델을 학습하는 데 얼마나 걸리나요?
학습 프로세스는 오랜 시간이 걸릴 수 있습니다. 대략적으로 예측할 때 총 길이가 12,800,000자인 파일에 대한 예상 학습 시간은 6시간입니다.
사용자 지정 모델을 프로그래밍 방식으로 빌드하려면 어떻게 해야 하나요?
참고 항목
현재 REST API 또는 Language Studio만 사용하여 모델을 빌드할 수 있습니다.
사용자 지정 모델은 REST API를 사용하여 빌드할 수 있습니다. 이 빠른 시작에 따라 작성 API를 호출하는 방법의 예제에 대한 API를 통해 프로젝트 만들기 및 모델 만들기를 시작합니다.
모델을 사용하여 예측을 시작할 준비가 되면 REST API 또는 클라이언트 라이브러리를 사용할 수 있습니다.
권장되는 CI/CD 프로세스는 무엇인가요?
다음은 Microsoft Foundry 내에서 수행하는 작업 목록입니다.
- 단일 프로젝트 내에서 동일한 데이터 세트에서 여러 모델을 학습시킵니다.
- 모델의 성능을 봅니다.
- 모델을 배포 및 테스트하고 데이터에서 레이블을 추가하거나 제거합니다.
- 데이터 세트를 학습 및 테스트 집합으로 분할하는 방법을 선택합니다.
데이터를 학습 및 테스트 집합으로 임의로 분할할 수 있지만, 이는 모델 평가가 동일한 테스트 집합을 기반으로 하지 않아 결과를 비교할 수 없게 만들 수 있음을 의미합니다. 고유한 테스트 집합을 개발하고 이를 사용하여 두 모델을 평가하여 개선 사항을 정확하게 측정하는 것이 좋습니다.
프로젝트당 허용되는 학습된 모델의 최대 수를 이해하려면 서비스 제한을 검토해야 합니다.
낮거나 높은 모델 점수가 프로덕션에서 나쁘거나 좋은 성능을 보장하나요?
모델 평가가 항상 포괄적이지 않을 수 있습니다. 범위는 다음 요인에 따라 달라집니다.
- 테스트 집합의 크기입니다. 테스트 집합이 너무 작으면 양수/나쁜 점수가 모델의 실제 성능을 나타내는 것이 아닙니다. 또한 특정 엔터티 형식이 누락되었거나 테스트 집합에 미달로 표시되는 경우 모델 성능에 영향을 줍니다.
- 데이터의 다양성. 데이터에 제한된 수의 시나리오 또는 프로덕션 환경에서 예상되는 텍스트의 예제만 포함된 경우 모델은 가능한 모든 상황이 발생하지 않을 수 있습니다. 따라서 익숙하지 않은 시나리오에 직면하면 모델이 제대로 수행되지 않을 수 있습니다.
- 데이터 내의 표현입니다. 모델을 학습시키는 데 사용되는 데이터 세트가 프로덕션 환경에서 모델에 도입될 데이터를 대표하지 않는 경우 모델 성능에 큰 영향을 줍니다.
자세한 내용은 데이터 선택 및 스키마 디자인을참조하세요.
모델 성능을 향상시키려면 어떻게 해야 하나요?
- 모델 혼동 행렬을 봅니다. 특정 엔터티 형식이 자주 올바르게 예측되지 않는 경우 이 클래스에 태그가 지정된 인스턴스를 추가하는 것이 좋습니다.
서로 다른 두 엔터티 형식이 서로 예측되는 경우가 많을 때 스키마에 명확성이 없음을 나타냅니다. 성능을 향상시키려면 이러한 두 엔터티 형식을 단일 통합 형식으로 결합하는 방법을 고려해야 합니다. 예측 중에 두 엔터티 형식이 일관되게 서로 오인되는 경우 이 결과는 스키마의 모호성을 시사합니다. 이러한 형식을 하나의 엔터티 형식으로 병합하면 전체 모델 정확도를 향상시킬 수 있습니다.
테스트 세트 예측 검토. 엔터티 형식 중 하나에 다른 형식보다 태그가 지정된 인스턴스가 훨씬 더 많으면 모델이 이 형식으로 편향될 수 있습니다. 다른 엔터티 형식에 더 많은 데이터를 추가하거나 지배적인 형식에서 예제를 제거합니다.
데이터 선택 및 스키마 설계에 대해 자세히 알아봅니다.
테스트 집합을 검토합니다. 태그가 지정된 엔터티와 함께 예측된 엔터티를 검토하고 모델의 정확도를 더 명확하게 이해합니다. 이 비교는 스키마 또는 태그 집합에 대한 조정이 필요한지 여부를 결정하는 데 도움이 될 수 있습니다.
모델을 다시 학습시키면 다른 결과가 발생하는 이유는 무엇인가요?
모델을 학습할 때 데이터를 학습 및 테스트 세트로 임의로 분할할지 여부를 결정할 수 있습니다. 계속 진행하도록 선택하는 경우 모델 평가가 동일한 테스트 집합에서 수행된다는 보장이 없으므로 결과가 직접 비교할 수 없을 수 있습니다. 이렇게 하면 다른 테스트 집합에서 모델을 평가할 위험이 있으므로 결과를 안정적으로 비교할 수 없습니다.
동일한 모델을 다시 학습하는 경우 테스트 집합은 동일하지만 모델에 의한 예측이 약간 변경될 수 있습니다. 이 문제는 학습된 모델에 충분한 견고성이 부족하기 때문에 발생합니다. 이 결과는 데이터가 다양한 시나리오를 얼마나 잘 나타내는지, 데이터 요소가 얼마나 고유한지, 그리고 데이터 태그 지정의 전반적인 품질에 따라 달라집니다. 모델의 성능에 영향을 주는 몇 가지 요인이 있습니다. 모델의 견고성, 데이터 세트의 고유성 및 다양성, 데이터에 할당된 태그의 정밀도 및 균일성은 모두 중요한 역할을 합니다. 최적의 결과를 얻으려면 데이터 세트가 대상 도메인을 정확하게 나타낼 뿐만 아니라 고유한 예제를 제공하고 모든 태그가 데이터 전체에서 일관성과 정확도로 적용되도록 해야 합니다.
다른 언어로 예측을 얻으려면 어떻게 해야 하나요?
먼저 프로젝트를 만들 때 다국어 옵션을 사용하도록 설정해야 하거나 나중에 프로젝트 설정 페이지에서 이를 사용하도록 설정할 수 있습니다. 모델이 학습되고 배포되면 모델 쿼리를 여러 언어로 시작할 수 있습니다. 다른 언어에 대해 다양한 결과를 얻을 수 있습니다. 모든 언어의 정확도를 높이려면 태그가 지정된 인스턴스를 해당 언어의 프로젝트에 더 추가하여 학습된 모델을 해당 언어의 더 많은 구문에 도입합니다.
모델을 학습시켰지만 테스트할 수 없습니다.
테스트하려면 먼저 모델을 배포해야 합니다.
예측을 위해 학습된 모델을 어떻게 사용해야 하나요?
모델이 배포되면 REST API 또는 클라이언트 라이브러리를 사용하여 예측 API를 호출합니다.
데이터 개인 정보 보호 및 보안
데이터는 Azure Storage 계정에만 저장됩니다. 사용자 지정 NER은 학습 중에 읽을 수 있는 액세스 권한만 갖습니다. 사용자 지정 NER 사용자는 Foundry 를 통해 또는 REST API를 사용하여 프로그래밍 방식으로 사용자 콘텐츠를 보거나 내보내거나 삭제할 수 있는 모든 권한을 갖 습니다. 자세한 내용은 언어에 대한 데이터, 개인 정보 및 보안을참조하세요.
내 프로젝트를 복제하는 방법은 무엇인가요?
프로젝트를 복제하려면 내보내기 API를 사용하여 프로젝트 자산을 내보낸 다음 새 프로젝트로 가져와야 합니다. 두 작업에 대한 REST API 참조를 참조하세요.