この記事では、カスタム固有表現認識で現在サポートされている言語について説明します。
多言語オプション
カスタムの名前付きエンティティ認識 (NER) を使用すると、ある言語でモデルをトレーニングし、別の言語のドキュメントからエンティティを抽出するために使用できます。 この機能は、時間と労力の節約に役立つので強力です。 すべての言語に対して個別のプロジェクトを構築する代わりに、1 つのプロジェクトで多言語データセットを処理することができます。 データセットが完全に同じ言語である必要はありませんが、作成時に、または後でプロジェクトの設定で、プロジェクトの多言語オプションを有効にする必要があります。 評価プロセス中に特定の言語でモデルのパフォーマンスが低い場合は、それらの言語のデータをトレーニング セットに追加してください。
英語のドキュメントを使用してプロジェクト全体をトレーニングし、フランス語、ドイツ語、標準中国語、日本語、韓国語などでクエリを実行できます。 カスタム固有表現認識により、多言語テクノロジを使用してモデルをトレーニングすることで、プロジェクトを複数の言語に簡単に拡張できます。
特定の言語が他の言語と同様に実行されていないことを特定するたびに、その言語のドキュメントをプロジェクトに追加できます。 Microsoft Foundry のデータ ラベル付けの場合は、追加するドキュメントの言語を選択できます。 その言語のドキュメントをさらにモデルに導入すると、モデルはその言語の構文の多くに導入され、より適切に予測することを学習します。
すべての言語で同じ数のドキュメントを追加することは求められていません。 プロジェクトの大部分は1つの言語で作成し、パフォーマンスがあまり良くないと観察される言語でいくつかのドキュメントを追加するようにしてください。 主に英語でプロジェクトを開発し、フランス語、ドイツ語、スペイン語でテストを開始すると、いくつかの違いに気付くかもしれません。 具体的には、ドイツ語は他の 2 つの言語と比較してパフォーマンスが低い可能性があります。 フランス語とスペイン語はより良い結果をもたらすかもしれませんが、ドイツ語はより多くの課題を提示したり、テスト中に好ましくない結果を生み出したりする可能性があります。 その場合は、元の英語のドキュメントの 5% をドイツ語で追加し、新しいモデルをトレーニングし、ドイツ語でもう一度テストを行うことを検討してください。 ドイツ語のクエリで、より良い結果が得られます。 追加するラベル付けされたドキュメントが多いほど、結果が改善される可能性が高くなります。
別の言語でデータを追加することで他の言語に悪影響を及ぼすことはないはずです。
言語のサポート
カスタム NER では、次の言語の .txt ファイルがサポートされます。
| Language | 言語コード |
|---|---|
| アフリカーンス語 | af |
| アムハラ語 | am |
| アラビア語 | ar |
| アッサム語 | as |
| アゼルバイジャン語 | az |
| ベラルーシ語 | be |
| ブルガリア語 | bg |
| ベンガル語 | bn |
| ブルトン語 | br |
| ボスニア語 | bs |
| カタロニア語 | ca |
| チェコ語 | cs |
| ウェールズ語 | cy |
| デンマーク語 | da |
| ドイツ語 | de |
| ギリシャ語 | el |
| 英語 (米国) | en-us |
| エスペラント語 | eo |
| スペイン語 | es |
| エストニア語 | et |
| バスク語 | eu |
| ペルシャ語 | fa |
| フィンランド語 | fi |
| フランス語 | fr |
| 西フリジア語 | fy |
| アイルランド語 | ga |
| スコットランド ゲール語 | gd |
| ガリシア語 | gl |
| グジャラート語 | gu |
| ハウサ語 | ha |
| ヘブライ語 | he |
| ヒンディー語 | hi |
| クロアチア語 | hr |
| ハンガリー語 | hu |
| アルメニア語 | hy |
| インドネシア語 | id |
| イタリア語 | it |
| 日本語 | ja |
| ジャワ文字 | jv |
| ジョージア語 | ka |
| カザフ語 | kk |
| クメール語 | km |
| カンナダ語 | kn |
| 韓国語 | ko |
| クルド語 (クルマンジー) | ku |
| キルギス語 | ky |
| ラテン語 | la |
| ラオス語 | lo |
| リトアニア語 | lt |
| ラトビア語 | lv |
| マダガスカル語 | mg |
| マケドニア語 | mk |
| マラヤーラム語 | ml |
| モンゴル語 | mn |
| マラーティー語 | mr |
| マレー語 | ms |
| ミャンマー語 | my |
| ネパール語 | ne |
| オランダ語 | nl |
| ノルウェー語 (ブークモール) | nb |
| オディア語 | or |
| パンジャーブ語 | pa |
| ポーランド語 | pl |
| パシュトウ語 | ps |
| ポルトガル語 (ブラジル) | pt-br |
| ポルトガル語 (ポルトガル) | pt-pt |
| ルーマニア語 | ro |
| ロシア語 | ru |
| サンスクリット語 | sa |
| シンド語 | sd |
| シンハラ語 | si |
| スロバキア語 | sk |
| スロベニア語 | sl |
| ソマリ語 | so |
| アルバニア語 | sq |
| セルビア語 | sr |
| スンダ文字 | su |
| スウェーデン語 | sv |
| スワヒリ語 | sw |
| タミル語 | ta |
| テルグ語 | te |
| タイ語 | th |
| フィリピン語 | tl |
| トルコ語 | tr |
| ウイグル語 | ug |
| ウクライナ語 | uk |
| ウルドゥ語 | ur |
| ウズベク語 | uz |
| ベトナム語 | vi |
| コサ語 | xh |
| イディッシュ語 | yi |
| 簡体中国語 | zh-hans |
| ズールー語 | zu |