엎지르다
장기 실행 단계에서 가장 먼저 확인해야 할 것은 유출이 있는지 여부입니다.
스테이지 페이지 맨 위에는 유출에 대한 통계가 포함될 수 있는 세부 정보가 표시됩니다.
스필(Spill)은 Spark가 메모리가 부족할 때 발생하는 현상입니다. 메모리에서 디스크로 데이터를 이동하기 시작하면 비용이 많이 들 수 있습니다. 데이터 셔플링 중에가장 흔합니다.
유출에 대한 통계가 표시되지 않으면 스테이지에 유출이 없다는 것을 의미합니다. 스테이지에 약간의 유출이 있는 경우, 셔플로 인한 유출을 처리하는 방법에 대한 안내를 보려면 이 가이드를 참조하세요.
기울이기
다음으로 조사하려는 것은 왜곡이 있는지 여부입니다. 왜곡은 하나 혹은 소수의 작업이 나머지 작업보다 훨씬 오래 걸리는 경우입니다. 이로 인해 클러스터 사용률이 저하되고 작업이 길어질 수 있습니다.
요약 메트릭까지 아래로 스크롤하십시오. 가장 중요한 것은 최대 기간이 75번째 백분위수 기간보다 훨씬 높다는 것입니다. 아래 스크린샷은 75번째 백분위수와 Max이 동일한 건강한 상태를 보여줍니다.
최대 기간이 75번째 백분위수보다 50% 더 길다면, 데이터 편향 문제를 겪을 수 있습니다.
기울어짐이 보이면 기울어짐 수정 단계에 대해 여기에서 알아보세요.
기울어짐이나 유출이 없습니다.
기울이기 또는 유출이 표시되지 않는 경우 작업 페이지로 돌아가서 진행 상황에 대한 개요를 확인합니다. 페이지 맨 위로 스크롤하여 연결된 작업 ID를 클릭합니다.
스테이지에 분산 또는 오차가 없는 경우 다음 단계는 Spark 스테이지 높은 I/O 를 참조하세요.