まず、ジョブの最も長いステージを特定します。 ジョブのページの一番下までスクロールしてステージの一覧に移動し、期間別に並べ替えます。
ステージ I/O の詳細
このステージが何を行っていたかについての概要データを確認するには、 入力、 出力、 シャッフル読み取り、シャ ッフル書き込み 列を確認します。
列は次の意味です。
- インプット: このステージがストレージから読み取ったデータの量。 これは、Delta、Parquet、CSV などから読み取る可能性があります。
- アウトプット: このステージがストレージに書き込んだデータの量。 これは、Delta、Parquet、CSV などに書き込む可能性があります。
- シャッフル読み取り: このステージで読み取られたシャッフル データの量。
- シャッフル書き込み: このステージで書き込んだシャッフル データの量。
シャッフルとは何かよく知らない場合は、それが何を意味するのかを 学ぶ のに良い時期です。
後で必要になる可能性が高い場合は、これらの数値を書き留めます。
タスクの数
長い段階のタスクの数によって、問題の方向を示すことができます。 以下を参照して、タスクの数を決定します。
1 つのタスクが表示される場合は、問題の兆候である可能性があります。 詳細については、「 1 つの Spark タスク」を参照してください。
ステージの詳細を表示する
ステージに複数のタスクがある場合は、さらに調査することをお勧めします。 ステージの説明のリンクをクリックすると、最長のステージに関する詳細情報が表示されます。
ステージのページに移動したら、「スキューとスピル」を参照してください。