次の方法で共有


カスタム テキスト分類モデルをトレーニングする方法

トレーニングは、モデルがラベル付けされたデータから学習するプロセスです。 トレーニングが完了したら、 モデルのパフォーマンスを表示 して、モデルを改善する必要があるかどうかを判断できます。

モデルをトレーニングするには、トレーニング ジョブを開始します。 正常に完了したジョブでのみ、使用可能なモデルが作成されます。 トレーニング ジョブは 7 日後に有効期限が切れます。 この期間が経過すると、ジョブの詳細を取得できなくなります。 トレーニング ジョブが正常に完了し、モデルが作成された場合、ジョブの有効期限は影響を受けません。 一度に実行できるトレーニング ジョブは 1 つのみで、同じプロジェクトで他のジョブを開始することはできません。

データセットのサイズとスキーマの複雑さに応じて、トレーニング時間は数分から数時間まで異なる場合があります。

前提条件

モデルをトレーニングする前に、次のものが必要です。

プロジェクト開発ライフサイクルを参照してください。

データの分割

トレーニング プロセスを開始する前に、プロジェクト内のラベル付けされたドキュメントはトレーニング用セットとテスト用セットに分割されます。 これらはそれぞれ異なる機能を提供します。 トレーニング セットは、モデルのトレーニングで使用され、モデルは各ドキュメントに割り当てられたクラスまたはクラスを学習します。 テスト用セットは、トレーニング時ではなく、評価時にのみモデルに導入されるブラインド セットです。 モデルが正常にトレーニングされると、テスト セット内のドキュメントから予測を行うことができます。 これらの予測に基づいて、モデルの 評価メトリック が計算されます。 すべてのクラスがトレーニング セットとテスト セットの両方で適切に表現されていることを確認することをお勧めします。

カスタム テキスト分類では、データの分割方法として次の 2 つがサポートされています。

  • テスト セットをトレーニング データから自動的に分割する: 選択した割合に応じて、ラベル付きデータがトレーニング セットとテスト セットの間で分割されます。 システムは、トレーニング セット内のすべてのクラスの表現を試みます。 推奨される分割の割合は、トレーニング用 80%、テスト用 20% です。

Note

[ トレーニング データからテスト セットを自動的に分割 する] オプションを選択した場合、トレーニング セットに割り当てられたデータのみが、指定された割合に従って分割されます。

  • トレーニング用データとテスト用データの手動分割を使用: この方法を使用すると、ユーザーは、ラベル付けされたドキュメントがどちらのセットに属するかを定義できます。 この手順は、 データのラベル付け中にテスト セットにドキュメントを追加した場合にのみ有効になります。

モデルのトレーニング

Language Studio 内からモデルのトレーニングを開始するには:

  1. 左側のメニューから [トレーニング ジョブ] を選びます。

  2. 上部のメニューから [トレーニング ジョブの開始] を選択します。

  3. [新しいモデルのトレーニング] を選択し、テキスト ボックスにモデル名を入力します。 また、[既存のモデルを上書きする] オプションを選択し、ドロップダウン メニューから上書きするモデルを選択することにより、既存のモデルを上書きすることもできます。 トレーニング済みモデルを上書きすると、元に戻すことはできません。ただし、新しいモデルをデプロイするまで、デプロイされているモデルには影響しません。

    新しいトレーニング ジョブを作成する

  4. データの分割方法を選択します。 [トレーニング用データからテスト用セットを自動分割] を選択できます。その場合、システムにより、指定した割合に従って、ラベル付けされたデータがトレーニング用セットとテスト用セットに分割されます。 または、 トレーニング データとテスト データを手動で分割して使用することもできます。このオプションは、 データのラベル付け中にテスト セットにドキュメントを追加した場合にのみ有効になります。 データ分割の詳細については、モデルのトレーニング方法に関するセクションを参照してください。

  5. [トレーニング] ボタンを選択します。

  6. 一覧からトレーニング ジョブ ID を選択すると、サイド ペインが表示され、そのジョブの [トレーニングの進行状況][ジョブの状態]、その他の詳細を確認できます。

    Note

    • 正常に完了したトレーニング ジョブでのみ、モデルが生成されます。
    • モデルのトレーニングには、ラベル付けされたデータのサイズに基づいて、数分から数時間かかる場合があります。
    • 一度に実行できるトレーニング ジョブは 1 つだけです。 実行中のジョブが完了するまで、同じプロジェクト内で他のトレーニング ジョブを開始することはできません。

トレーニング ジョブのキャンセル

Language Studio でトレーニング ジョブをキャンセルするには、[トレーニング ジョブ] ページに移動します。 キャンセルするトレーニング ジョブを選び、上部のメニューから [キャンセル] を選びます。

次のステップ

トレーニングが完了すると、必要に応じて モデルのパフォーマンスを表示 して、必要に応じてモデルを改善できます。 モデルに問題がなければ、それをデプロイし、テキストを分類するために使うことができます。