この記事を使用して、カスタム テキスト分類の使用時に遭遇する可能性のあるいくつかの定義と用語について学習してください。
クラス
クラスは、テキストの全体的な分類を示すユーザー定義カテゴリです。 開発者は、トレーニングのためにモデルに渡す前に、クラスでデータにラベル付けします。
F1 スコア
F1 スコアは、精度とリコールの関数です。 精度と再現率のバランスを求める場合に必要です。
モデル
モデルは、特定のタスク (この場合はテキスト分類タスク) を実行するようにトレーニングされたオブジェクトです。 モデルは、ラベル付けされたデータを提供することによってトレーニングされ、後で分類タスクに使用できます。
- モデルのトレーニングは、ラベル付けされたデータに基づいてドキュメント分類する方法をモデルに教えるプロセスです。
- モデルの評価は、モデルがどの程度適切に実行されるかを把握するために、トレーニングの直後に行うプロセスです。
- デプロイは、モデルをデプロイに割り当てて、予測 API を介して使用できるようにするプロセスです。
有効桁数
モデルの精密さと正確さを測定します。 これは、正しく識別された陽性 (真陽性) と識別されたすべての陽性との比率です。 精度メトリックによって、予測クラスのうち、正しくラベル付けされている数が明らかになります。
Project
プロジェクトは、データに基づいてカスタム ML モデルを構築するための作業領域です。 プロジェクトには、使用されている Azure リソースにアクセスできるユーザーと他のユーザーのみがアクセスできます。
カスタム テキスト分類プロジェクトを作成するための前提条件として、新しいプロジェクトを作成するときに、データセットを含むストレージ アカウントにリソースを接続する必要があります。 プロジェクトには、コンテナー内にあるすべての .txt ファイルが自動的に組み込まれます。
プロジェクト内では、次のアクションを実行できます。
- データにラベル付けする: モデルのトレーニング時にそのモデルが抽出する内容を学習するように、データにラベルを付けるプロセスです。
- モデルを構築してトレーニングする: モデルがラベル付けされたデータから学習を開始する、プロジェクトのコア ステップです。
- モデル評価の詳細を表示する: モデルのパフォーマンスを確認して、改善の余地があるか、結果に満足しているかどうかを判断します。
- デプロイ: モデルのパフォーマンスを確認し、環境で使用できるかどうかを判断したら、クエリを実行できるようにデプロイに割り当てる必要があります。 モデルをデプロイに割り当てると、予測 API を通じて使用できるようになります。
- テスト モデル: モデルをデプロイした後、Language Studio でこの操作を使用してデプロイを試し、運用環境でどのように実行されるかを確認できます。
プロジェクトの種類
カスタム テキスト分類では、次の 2 種類のプロジェクトがサポートされています。
- 単一ラベル分類 - データセットの各ドキュメントに単一のクラスを割り当てることができます。 たとえば、映画のスクリプトは、"ロマンス" または "コメディ" としてのみ分類できます。
- 複数ラベル分類 - データセットの各ドキュメントに複数のクラスを割り当てることができます。 たとえば、映画のスクリプトは、"コメディ" または "ロマンス" と "コメディ" に分類できます。
呼び戻し
実際の陽性クラスを予測するモデルの能力を測定します。 予測された真陽性とタグ付けされた値の比率です。 リコール メトリックによって、予測クラスのうち、正しいものの数が明らかになります。