次の方法で共有


Spark での長いジョブの診断

まず、ジョブの最も長いステージを特定します。 ジョブのページの一番下までスクロールしてステージの一覧に移動し、期間別に並べ替えます。

長いステージ

ステージ I/O の詳細

このステージが何を行っていたかについての概要データを確認するには、 入力出力シャッフル読み取り、シャ ッフル書き込み 列を確認します。

長いステージ I/O

列は次の意味です。

  • インプット: このステージがストレージから読み取ったデータの量。 これは、Delta、Parquet、CSV などから読み取る可能性があります。
  • アウトプット: このステージがストレージに書き込んだデータの量。 これは、Delta、Parquet、CSV などに書き込む可能性があります。
  • シャッフル読み取り: このステージで読み取られたシャッフル データの量。
  • シャッフル書き込み: このステージで書き込んだシャッフル データの量。

シャッフルとは何かよく知らない場合は、それが何を意味するのかを 学ぶ のに良い時期です。

後で必要になる可能性が高い場合は、これらの数値を書き留めます。

タスクの数

長い段階のタスクの数によって、問題の方向を示すことができます。 以下を参照して、タスクの数を決定します。

タスクの数の決定

1 つのタスクが表示される場合は、問題の兆候である可能性があります。 詳細については、「 1 つの Spark タスク」を参照してください。

ステージの詳細を表示する

ステージに複数のタスクがある場合は、さらに調査することをお勧めします。 ステージの説明のリンクをクリックすると、最長のステージに関する詳細情報が表示されます。

ステージ情報を開く

ステージのページに移動したら、「スキューとスピル」を参照してください。