Azure Machine Learning を使用した分散トレーニング

この記事では、分散トレーニングと、ディープラーニングモデルにおいて Azure Machine Learning がどのようにこれをサポートするかについて説明します。

分散トレーニングでは、ワークロードを分割してモデルをトレーニングし、ワーカーノードと呼ばれる複数のミニプロセッサ間で共有します。これらのワーカーノードは並行して動作し、モデルのトレーニングを高速化します。従来の機械学習モデルには分散トレーニングを使用できますが、ディープニューラルネットワークをトレーニングするためのディープラーニングなど、コンピューティングと時間のかかるタスクに適しています。

ディープラーニングと分散トレーニング

分散トレーニングには主に、データ並列とモデル並列の 2 つの種類があります。ディープラーニングモデルでの分散トレーニングのために、Azure Machine Learning SDK in Python は、PyTorch および TensorFlow との統合をサポートしています。どちらも人気があるフレームワークであり、分散トレーニングにデータ並列を採用していて、コンピューティング速度を最適化するために Horovod を使用できます。

分散トレーニングを必要としない機械学習モデルについては、「Azure Machine Learning を使用してモデルをトレーニングする」で Python SDK を使用してモデルをトレーニングするさまざまな方法を参照してください。

データ並列

データ並列は、2 つの分散トレーニングの内、より実装が簡単な方法で、ほとんどのユースケースに対応できます。

この方法では、データをパーティションに分割します。パーティションの数は、コンピューティングクラスターまたはサーバーレスコンピューティングで使用可能なノードの合計数と等しくなります。これらの各ワーカーノードでモデルをコピーすると、各ノードはデータの独自のサブセットで動作します。各ノードにはトレーニング対象のモデルをサポートするための容量が必要であることに注意してください。つまり、モデル全体が各ノードに適合している必要があります。

この手法を次の図に示します。

ワーカーノードにコピーされたモデルを示すデータ並列処理の図。

各ノードは、それぞれのトレーニングサンプルとラベル付き出力の予測の間のエラーを個別に計算します。各ノードは、エラーに基づいてモデルを更新し、対応するモデルを更新するためにそのすべての変更を他のノードに伝達する必要があります。ワーカーノードは、一貫したモデルがトレーニングされるように、バッチ計算の最後にモデルパラメーター (グラデーション) を同期する必要があります。

モデル並列

モデル並列処理 (ネットワーク並列処理とも呼ばれます) では、モデルを、異なるノードで同時に実行される異なる部分にセグメント化します。各パーツは同じデータで実行されます。このメソッドのスケーラビリティは、アルゴリズムのタスク並列化の程度によって異なります。データの並列処理よりも実装が複雑です。

モデル並列の場合、ワーカーノードは共有パラメーターを同期するだけでよく、通常、各フォワードまたはバックワードプロパゲーションのステップごとに1回です。また、各ノードは同じトレーニングデータのモデルのサブセクションで動作するため、大規模なモデルは問題になりません。

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-11-24

次の方法で共有

Azure Machine Learning を使用した分散トレーニング

ディープ ラーニングと分散トレーニング

データ並列

モデル並列

関連するコンテンツ

フィードバック

その他のリソース

ディープラーニングと分散トレーニング