適用於:SQL Server 2019 (15.x)
Important
MICROSOFT SQL Server 2019 巨量數據叢集已淘汰。 SQL Server 2019 巨量數據叢集的支援已於 2025 年 2 月 28 日結束。 如需詳細資訊,請參閱 Microsoft SQL Server 平臺上的公告部落格文章和巨量數據選項。
本文說明如何在 SQL Server 巨量數據叢集上有效地使用 Spark 進行機器學習。
SQL Server 巨量數據叢集中的 Spark 機器學習
SQL Server 巨量數據叢集 可使用不同的技術堆疊來啟用機器學習案例和解決方案: SQL Server 機器學習服務和Apache Spark ML。
若要進一步瞭解何時使用每個技術堆疊,請參閱 SQL Server 巨量數據叢集的機器學習指南。 本指南涵蓋 Apache Spark ML。
針對以巨量數據為基礎的機器學習案例,HDFS 用於巨量數據裝載和 Apache Spark ML 功能,是更具成本效益、可調整且功能強大的方法。 然而,這遠未詳盡列出Spark Machine Learning所能達成的可能性,如需完整的功能清單,請參閱 :Spark MLlib。
下一節提供 SQL Server 巨量數據叢集中 Spark 的策劃案例和參考清單。
SQL Server 巨量數據叢集上的 Spark 機器學習建置組塊
| Learn | Contents | Link |
|---|---|---|
| Apache Spark 的 SQL Server 巨量數據叢集運行時間 | 這會顯示每個版本隨附的內容 | 適用於 Apache Spark 的 SQL Server 巨量數據叢集運行時間指南 |
| 存放集區 | 如何一起儲存和使用 HDFS + Spark 來解除鎖定機器學習的數據 | SQL Server 巨量數據叢集中的存放集區簡介 |
| 使用以筆記本為基礎的體驗和您選擇的工具 | 使用您選擇的工具連線 Spark-Livy 端點 |
在 Azure Data Studio 中的 SQL Server 巨量數據叢集上提交 Spark 作業 在 Visual Studio Code 中的 SQL Server 巨量數據叢集上提交 Spark 作業 在 SQL Server 巨量數據叢集中使用 sparklyr |
| 如何安裝額外的套件 | 如果套件未現成提供,請加以安裝 | Spark 連結庫管理 |
| 如何進行疑難排解 | 萬一中斷 |
pyspark針對筆記本進行疑難解答在 Spark 歷程記錄伺服器中對 SQL Server 巨量資料叢集上的 Spark 應用程式進行偵錯和診斷 |
| 如何提交機器學習批次作業 | 使用指令行執行機器學習訓練和批次評分 | 使用命令行工具提交 Spark 作業 |
| 如何在 SQL Server 與 Spark 之間快速移動資料 | 為您的Spark ML案例建立 SQL Server 來源和/或目的地。 使用 HDFS 並非必要專案 | 使用適用於 SQL Server 和 Azure SQL 的 Apache Spark 連接器 |
| Spark 模型運作 | 定型之後,使用 MLeap進行操作 | 在 SQL Server 巨量數據叢集上建立、匯出和評分 Spark 機器學習模型 |
| Data wrangling | 除了 Spark 強大的數據整理功能之外,我們還提供 PROSE。 | 使用 PROSE 程式代碼加速器進行數據整頓 |
Next steps
如需詳細資訊,請參閱 SQL Server 巨量數據叢集簡介。