SQL Server 巨量數據叢集上的 Spark 機器學習簡介

適用於：SQL Server 2019 (15.x)

Important

MICROSOFT SQL Server 2019 巨量數據叢集已淘汰。 SQL Server 2019 巨量數據叢集的支援已於 2025 年 2 月 28 日結束。如需詳細資訊，請參閱 Microsoft SQL Server 平臺上的公告部落格文章和巨量數據選項。

本文說明如何在 SQL Server 巨量數據叢集上有效地使用 Spark 進行機器學習。

SQL Server 巨量數據叢集中的 Spark 機器學習

SQL Server 巨量數據叢集 可使用不同的技術堆疊來啟用機器學習案例和解決方案： SQL Server 機器學習服務和Apache Spark ML。

若要進一步瞭解何時使用每個技術堆疊，請參閱 SQL Server 巨量數據叢集的機器學習指南。本指南涵蓋 Apache Spark ML。

針對以巨量數據為基礎的機器學習案例，HDFS 用於巨量數據裝載和 Apache Spark ML 功能，是更具成本效益、可調整且功能強大的方法。然而，這遠未詳盡列出Spark Machine Learning所能達成的可能性，如需完整的功能清單，請參閱：Spark MLlib。

下一節提供 SQL Server 巨量數據叢集中 Spark 的策劃案例和參考清單。

SQL Server 巨量數據叢集上的 Spark 機器學習建置組塊

Learn	Contents	Link
Apache Spark 的 SQL Server 巨量數據叢集運行時間	這會顯示每個版本隨附的內容	適用於 Apache Spark 的 SQL Server 巨量數據叢集運行時間指南
存放集區	如何一起儲存和使用 HDFS + Spark 來解除鎖定機器學習的數據	SQL Server 巨量數據叢集中的存放集區簡介
使用以筆記本為基礎的體驗和您選擇的工具	使用您選擇的工具連線 Spark-Livy 端點	在 Azure Data Studio 中的 SQL Server 巨量數據叢集上提交 Spark 作業在 Visual Studio Code 中的 SQL Server 巨量數據叢集上提交 Spark 作業在 SQL Server 巨量數據叢集中使用 sparklyr
如何安裝額外的套件	如果套件未現成提供，請加以安裝	Spark 連結庫管理
如何進行疑難排解	萬一中斷	`pyspark`針對筆記本進行疑難解答在 Spark 歷程記錄伺服器中對 SQL Server 巨量資料叢集上的 Spark 應用程式進行偵錯和診斷
如何提交機器學習批次作業	使用指令行執行機器學習訓練和批次評分	使用命令行工具提交 Spark 作業
如何在 SQL Server 與 Spark 之間快速移動資料	為您的Spark ML案例建立 SQL Server 來源和/或目的地。使用 HDFS 並非必要專案	使用適用於 SQL Server 和 Azure SQL 的 Apache Spark 連接器
Spark 模型運作	定型之後，使用 MLeap進行操作	在 SQL Server 巨量數據叢集上建立、匯出和評分 Spark 機器學習模型
Data wrangling	除了 Spark 強大的數據整理功能之外，我們還提供 PROSE。	使用 PROSE 程式代碼加速器進行數據整頓

Next steps

如需詳細資訊，請參閱 SQL Server 巨量數據叢集簡介。

Last updated on 2021-10-05

共用方式為

SQL Server 巨量數據叢集上的 Spark 機器學習簡介

SQL Server 巨量數據叢集中的 Spark 機器學習

SQL Server 巨量數據叢集上的 Spark 機器學習建置組塊

Next steps

其他資源