モデルをトレーニングする前に、ドキュメントを分類したいクラスにラベルを付ける必要があります。 データのラベル付けは開発ライフサイクルにおける重要なステップです。この手順では、データを分類するクラスを作成し、そのクラスを使用してドキュメントにラベルを付けることができます。 このデータは、ラベル付けされたデータからモデルが学習できるように、モデルをトレーニングするときに次の手順で使用されます。 既にデータにラベルを付けた場合は、プロジェクトに直接 インポート できますが、データが 許容されるデータ形式に従っていることを確認する必要があります。
カスタム テキスト分類モデルを作成する前に、まずラベル付けされたデータが必要です。 データがまだラベル付けされていない場合は、Language Studio でラベルを付けることができます。 ラベル付けされたデータは、テキストの解釈方法をモデルに示し、トレーニングと評価に使用されます。
前提条件
データにラベルを付けるには、以下が必要です。
- 構成済みの Azure Blob Storage アカウントで正常に作成されたプロジェクト
- ストレージ アカウントに アップロードされた テキスト データを含むドキュメント。
プロジェクト開発ライフサイクルを参照してください。
データのラベル付けガイドライン
データを準備し、スキーマを設計し、プロジェクトを作成したら、データにラベルを付ける必要があります。 データのラベル付けは、必要なクラスに関連するドキュメントをモデルから認識できるようにするために重要です。 Language Studio でデータにラベルを付ける (またはラベル付きデータをインポートする) と、これらのラベルは、このプロジェクトに接続したストレージ コンテナーの JSON ファイルに格納されます。
データにラベルを付けるときは、次のことに注意してください。
一般に、データが正確にラベル付けされていれば、ラベル付けされたデータが多いほど良い結果が得られます。
モデルが最適なパフォーマンスを保証できる固定数のラベルはありません。 モデルのパフォーマンスは、スキーマで生じる可能性があるあいまいさと、ラベル付けされたデータの品質によります。 それでも、クラスごとに 50 個のラベル付きドキュメントを用意することをお勧めします。
データにラベルを付ける
次の手順に従って、データにラベルを付けます。
Language Studio でプロジェクトのページに移動します。
左側のメニューから、[データのラベル付け] を選択します。 ストレージ コンテナー内のすべてのドキュメントのリストを見つけることができます。 下の画像を参照してください。
ヒント
上部のメニューのフィルターを使用して、ラベル付けされていないファイルを表示し、ラベル付けを開始できます。 フィルターを使用して、特定のクラスでラベル付けされているドキュメントを表示することもできます。
上部のメニューの左側から単一のファイル ビューに変更するか、ラベル付けを開始する特定のファイルを選択します。 プロジェクトで使用できるすべての
.txtファイルの一覧を、左側で確認できます。 ページの下部にある[戻る] と[次へ] のボタンを使用して、ドキュメント間を移動できます。メモ
プロジェクトで複数の言語を有効にした場合は、上部のメニューに [言語] ドロップダウンがあり、ドキュメントごとに言語を選択できます。
右側のペインで、プロジェクトにクラスを追加して、データのラベル付けを開始できるようにします。
ファイルのラベル付けを開始します。
複数ラベル分類: ファイルには複数のクラスでラベルを付けることができます。 これを行うには、このドキュメントにラベルを付けるクラスの横にある該当するすべてのチェック ボックスをオンにします。
自動ラベル付け機能を使用して、完全なラベル付けを確実に行うこともできます。
右側のペインの [ラベル] ピボットで、プロジェクト内のすべてのクラスと、それぞれのラベル付きインスタンスの数を確認できます。
右側のウィンドウの下部に、表示している現在のファイルをトレーニング セットまたはテスト セットに追加できます。 既定では、すべてのドキュメントがトレーニング セットに追加されます。 トレーニング用セットとテスト用セットの詳細と、モデルのトレーニングと評価に使用される方法について説明します。
ヒント
自動データ分割の使用を計画している場合は、すべてのドキュメントをトレーニング セットに割り当てる既定のオプションを使用します。
[分布] ピボットの下で、トレーニング用セットとテスト用セット全体の分布を表示できます。 表示には、2 つのオプションがあります。
- "インスタンスの合計数"。特定のクラスのすべてのラベル付きインスタンスの数を表示できます。
- "少なくとも 1 つのラベルが付いたドキュメント"。このクラスのラベル付きインスタンスが少なくとも 1 つ含まれている場合、各ドキュメントがカウントされます。
ラベル付け中、変更は定期的に同期されます。まだ保存されていない場合は、ページの上部に警告が表示されます。 手動で保存する場合は、ページの下部にある [ラベルの保存] ボタンを選択します。
ラベルを削除する
ラベルを削除する場合は、クラスの横にあるボタンをオフにします。
クラスの削除または名前変更
クラスを削除するには、削除するクラスの横にあるアイコンを選択します。 クラスを削除すると、すべてのラベル付きインスタンスがデータセットから削除されます。
次の手順
データのラベル付けが完了したら、データに基づいて学習するモデルのトレーニングを始めることができます。