共用方式為


Apache Spark for Fabric 中的高並行模式

高並行模式可讓使用者在適用於資料工程和資料科學工作負載的Spark for Fabric 中共用相同的 Spark 工作階段。 筆記本之類的項目會使用標準 Spark 工作階段來執行。 在高並行模式中,Spark 工作階段可以支援在Spark應用程式內個別「讀取、求值、輸出」迴圈(REPL)核心內獨立執行多個項目。 這些 REPL 核心會為每個項目提供隔離,並防止本機筆記本變數被共用相同工作階段之其他筆記本具有相同名稱的變數覆寫。

當工作階段已在執行時,這可讓使用者在跨多個筆記本重複使用工作階段時,提供立即執行體驗。

注意

在具有高並行模式的自定義集區案例中,相較於標準 Spark 工作階段,使用者會獲得超過 36 倍的工作階段啟動體驗。

顯示 Fabric 中高並行模式運作的圖表。

重要

工作階段共享條件包括:

  • 工作階段應位於單一使用者邊界內。
  • 工作階段應該具有相同的預設 Lakehouse 設定。
  • 工作階段應該具有相同的 Spark 計算屬性。

在 Spark 工作階段初始化期間,會建立 REPL 核心。 每次新項目開始共用相同的工作階段,且執行程式會以 FAIR 為基礎,配置給 Spark 應用程式內這些 REPL 核心中執行的筆記本,以防止耗盡案例。

高並行會話的計費

使用高並發模式時,只有啟動共享 Spark 應用程式的 啟動會話 會計費。 所有後續共用同一 Spark 會話的會話 不會產生額外費用。 此方法能優化團隊與使用者在共享環境中同時運行多個工作負載的成本。

📌 例:

  • 使用者啟動 Notebook 1,該會以高並發模式啟動 Spark 會話。
  • 同一場次會由 筆記本2筆記本3筆記本4筆記本5共享。
  • 此時 ,只有 Notebook 1 會被計費 Spark 的運算使用量。
  • 共用的筆記本(2 到 5 本) 不會單獨計費

這種計費行為也會反映在 容量指標 上——使用量只會針對啟動的筆記本(此例為筆記本 1)報告。

注意

當資料管線活動中使用高併發模式時,也適用相同的計費行為——只有啟動 Spark 會話的筆記本或活動會被收費。