共用方式為


SQL Server 巨量數據叢集上的 Spark 機器學習簡介

適用於:SQL Server 2019 (15.x)

Important

MICROSOFT SQL Server 2019 巨量數據叢集已淘汰。 SQL Server 2019 巨量數據叢集的支援已於 2025 年 2 月 28 日結束。 如需詳細資訊,請參閱 Microsoft SQL Server 平臺上的公告部落格文章和巨量數據選項。

本文說明如何在 SQL Server 巨量數據叢集上有效地使用 Spark 進行機器學習。

SQL Server 巨量數據叢集中的 Spark 機器學習

SQL Server 巨量數據叢集 可使用不同的技術堆疊來啟用機器學習案例和解決方案: SQL Server 機器學習服務和Apache Spark ML

若要進一步瞭解何時使用每個技術堆疊,請參閱 SQL Server 巨量數據叢集的機器學習指南。 本指南涵蓋 Apache Spark ML

針對以巨量數據為基礎的機器學習案例,HDFS 用於巨量數據裝載和 Apache Spark ML 功能,是更具成本效益、可調整且功能強大的方法。 然而,這遠未詳盡列出Spark Machine Learning所能達成的可能性,如需完整的功能清單,請參閱 :Spark MLlib

下一節提供 SQL Server 巨量數據叢集中 Spark 的策劃案例和參考清單。

SQL Server 巨量數據叢集上的 Spark 機器學習建置組塊

Learn Contents Link
Apache Spark 的 SQL Server 巨量數據叢集運行時間 這會顯示每個版本隨附的內容 適用於 Apache Spark 的 SQL Server 巨量數據叢集運行時間指南
存放集區 如何一起儲存和使用 HDFS + Spark 來解除鎖定機器學習的數據 SQL Server 巨量數據叢集中的存放集區簡介
使用以筆記本為基礎的體驗和您選擇的工具 使用您選擇的工具連線 Spark-Livy 端點 在 Azure Data Studio 中的 SQL Server 巨量數據叢集上提交 Spark 作業
在 Visual Studio Code 中的 SQL Server 巨量數據叢集上提交 Spark 作業
在 SQL Server 巨量數據叢集中使用 sparklyr
如何安裝額外的套件 如果套件未現成提供,請加以安裝 Spark 連結庫管理
如何進行疑難排解 萬一中斷 pyspark針對筆記本進行疑難解答
在 Spark 歷程記錄伺服器中對 SQL Server 巨量資料叢集上的 Spark 應用程式進行偵錯和診斷
如何提交機器學習批次作業 使用指令行執行機器學習訓練和批次評分 使用命令行工具提交 Spark 作業
如何在 SQL Server 與 Spark 之間快速移動資料 為您的Spark ML案例建立 SQL Server 來源和/或目的地。 使用 HDFS 並非必要專案 使用適用於 SQL Server 和 Azure SQL 的 Apache Spark 連接器
Spark 模型運作 定型之後,使用 MLeap進行操作 在 SQL Server 巨量數據叢集上建立、匯出和評分 Spark 機器學習模型
Data wrangling 除了 Spark 強大的數據整理功能之外,我們還提供 PROSE。 使用 PROSE 程式代碼加速器進行數據整頓

Next steps

如需詳細資訊,請參閱 SQL Server 巨量數據叢集簡介