이 문서를 사용하여 현재 사용자 지정 명명된 엔터티 인식에서 지원하는 언어에 대해 알아봅니다.
다국어 옵션
NER(사용자 지정 명명된 엔터티 인식)를 사용하면 모델을 한 언어로 학습시키고 다른 언어의 문서에서 엔터티를 추출하는 데 사용할 수 있습니다. 이 기능은 시간과 노력을 절약하는 데 도움이 되므로 강력합니다. 모든 언어에 대해 별도의 프로젝트를 빌드하는 대신 한 프로젝트에서 다국어 데이터 세트를 처리할 수 있습니다. 데이터 세트가 완전히 동일한 언어일 필요는 없지만 만드는 동안 또는 나중에 프로젝트 설정에서 프로젝트에 대해 다국어 옵션을 사용하도록 설정해야 합니다. 평가 프로세스 중에 모델이 특정 언어에서 제대로 수행되지 않는 경우 이 언어로 된 데이터를 학습 세트에 추가하는 것이 좋습니다.
프로젝트를 완전히 영어 문서로 학습시키고 프랑스어, 독일어, 북경어, 일본어, 한국어 등으로 쿼리할 수 있습니다. 사용자 지정 명명된 엔터티 인식을 사용하면 다국어 기술로 모델을 학습시켜서 프로젝트를 여러 언어로 쉽게 스케일링할 수 있습니다.
특정 언어가 다른 언어와 함께 수행되지 않는 것을 식별할 때마다 프로젝트에서 해당 언어에 대한 문서를 더 추가할 수 있습니다. Microsoft Foundry의 데이터 레이블 지정의 경우 추가하는 문서의 언어를 선택할 수 있습니다. 모델에 해당 언어에 대한 문서를 더 많이 소개하면 해당 언어의 구문이 더 많이 도입되고 더 잘 예측하는 방법을 알아봅니다.
모든 언어에 대해 동일한 수의 문서를 추가할 필요는 없습니다. 대부분의 프로젝트를 한 언어로 빌드해야 하며, 성능이 좋지 않은 것으로 관찰되는 언어로 몇 개의 문서만 추가해야 합니다. 주로 영어로 프로젝트를 개발한 다음 프랑스어, 독일어 및 스페인어로 테스트를 시작하면 몇 가지 차이점이 있을 수 있습니다. 특히 독일어는 다른 두 언어에 비해 성능이 저하될 수 있습니다. 프랑스어와 스페인어는 더 나은 결과를 얻을 수 있지만, 독일어는 더 많은 도전을 제시하거나 테스트하는 동안 덜 유리한 결과를 생성 할 수 있습니다. 이 경우 원본 영어 문서의 5%를 독일어로 추가하고, 새 모델을 학습시키고, 독일어로 다시 테스트하는 것이 좋습니다. 독일어 쿼리에 대해 더 나은 결과를 볼 수 있습니다. 더 많은 레이블이 지정된 문서를 추가할수록 더 좋은 결과를 얻을 가능성이 높습니다.
다른 언어로 데이터를 추가하는 경우 다른 언어에 부정적인 영향을 주지 않습니다.
언어 지원
사용자 지정 NER는 다음 언어로 된 .txt 파일을 지원합니다.
| 언어 | 언어 코드 |
|---|---|
| 아프리칸스어 | af |
| 암하라어 | am |
| 아랍어 | ar |
| 아삼어 | as |
| 아제르바이잔어 | az |
| 벨로루시어 | be |
| 불가리아어 | bg |
| 벵골어 | bn |
| 브르타뉴어 | br |
| 보스니아 헤르체고비나어 | bs |
| 카탈로니아어 | ca |
| 체코어 | cs |
| 웨일스어 | cy |
| 덴마크어 | da |
| 독일어 | de |
| 그리스어 | el |
| 영어(미국) | en-us |
| Esperanto | eo |
| 스페인어 | es |
| 에스토니아어 | et |
| 바스크어 | eu |
| 페르시아어 | fa |
| 핀란드어 | fi |
| 프랑스어/French | fr |
| 서 프리지아어 | fy |
| 아일랜드어 | ga |
| 스코틀랜드 게일어 | gd |
| 갈리시아어 | gl |
| 구자라트어 | gu |
| 하우사어 | ha |
| 히브리어 | he |
| 힌디어 | hi |
| 크로아티아어 | hr |
| 헝가리어 | hu |
| 아르메니아 | hy |
| 인도네시아어 | id |
| 이탈리아어 | it |
| 일본어 | ja |
| 자바어 | jv |
| 그루지야 문자 | ka |
| 카자흐어 | kk |
| 크메르어 | km |
| 칸나다어 | kn |
| 한국어 | ko |
| 쿠르드어(쿠르만지) | ku |
| 키르기스어 | ky |
| 라틴어 | la |
| 라오스어 | lo |
| 리투아니아어 | lt |
| 라트비아어 | lv |
| 말라가시어 | mg |
| 마케도니아어 | mk |
| 말라얄람어 | ml |
| 몽골어 | mn |
| 마라티어 | mr |
| 말레이어 | ms |
| Burmese | my |
| 네팔어 | ne |
| 네덜란드어 | nl |
| 노르웨이어(복말) | nb |
| 오디아어 | or |
| 펀잡어 | pa |
| 폴란드어 | pl |
| 파슈토어 | ps |
| 포르투갈어(브라질) | pt-br |
| 포르투갈어(포르투갈) | pt-pt |
| 루마니아어 | ro |
| 러시아어 | ru |
| 산스크리트어 | sa |
| 신디어 | sd |
| 싱할라어 | si |
| 슬로바키아어 | sk |
| 슬로베니아어 | sl |
| 소말리아어 | so |
| 알바니아어 | sq |
| 세르비아어 | sr |
| 순다어 | su |
| 스웨덴어 | sv |
| 스와힐리어 | sw |
| 타밀어 | ta |
| 텔루구어 | te |
| 태국어 | th |
| 필리핀어 | tl |
| 터키어 | tr |
| 위구르어 | ug |
| 우크라이나어 | uk |
| 우르두어 | ur |
| 우즈베크어 | uz |
| 베트남어 | vi |
| 코사어 | xh |
| 이디시어 | yi |
| 중국어(간체) | zh-hans |
| 줄루어 | zu |