重要
Azure Lab Services 將於 2027 年 6 月 28 日淘汰。 如需詳細資訊,請參閱退休指南。
注意
本文提到實驗室方案中可用的功能,已取代實驗室帳戶。
本文說明了如何設定實驗室,以便教導巨量資料分析課程。 巨量資料分析課程會教導使用者如何處理大量資料。 同時也會教導他們如何套用機器學習和統計學習演算法,深入解析資料。 主要目標是瞭解如何使用資料分析工具,例如 Apache Hadoop 的開放原始碼軟體套件。 該軟體套件提供了用來儲存、管理及處理巨量資料的工具。
在此實驗室中,實驗室使用者將使用 Cloudera 所提供的熱門商業版 Hadoop,稱為 Hortonworks Data Platform (HDP)。 具體而言,實驗室使用者會使用 HDP 沙箱 3.0.1,這是簡化過且容易在該平台上使用的版本。 HDP 沙箱 3.0.1 也是免費的,而且適用於學習和實驗。 雖然在此課程中,可以使用已部署HDP沙箱的Windows或Linux虛擬機器(VM)。 本文說明如何使用 Windows。
另一個有趣的層面是,您將使用 Docker 容器在實驗室虛擬機器上部署 HDP 沙箱。 每個 Docker 容器都會提供自己的獨立環境,讓軟體應用程式在容器內部執行。 在概念上,Docker 容器就像巢狀 VM,可根據 Docker Hub 上提供的容器映像,輕鬆地部署和執行各種不同的軟體應用程式。 Cloudera 的 HDP 沙箱部署指令碼會自動從 Docker Hub 提取 HDP Sandbox 3.0.1 Docker 映像,並執行兩個 Docker 容器:
- sandbox-hdp
- sandbox-proxy
必要條件
若要設定此實驗室,您需要 Azure 訂閱的存取權。 請與組織的系統管理員討論,以確認您是否可存取現有的 Azure 訂閱。 如尚未擁有 Azure 訂用帳戶,請在開始之前先建立免費帳戶。
實驗室組態
實驗室計劃設定
在擁有 Azure 訂用帳戶後,您就可以在 Azure 實驗室服務中建立實驗室計劃。 如需建立新實驗室方案的詳細資訊,請參閱快速入門:設定資源以建立實驗室。 您也可以使用現有的實驗室計劃。
此實驗室使用 Windows 10 專業版 Azure Marketplace 映像做為基礎 VM 映像。 您必須先在實驗室方案中啟用此映像。 這可讓實驗室建立者選取映像做為其實驗室的基礎映像。
請遵循下列步驟啟用可供實驗室建立者使用的 Azure Marketplace 映像。 選取其中一個 Windows 10 Azure Marketplace 映像。
實驗室設定
為您的實驗計劃建立虛擬實驗室。 如需如何建立實驗室的指示,請參閱教學課程:設定實驗室。 建立實驗室時,請使用下列設定。
| 實驗室設定 | 值/指示 |
|---|---|
| 虛擬機器大小 | 中型 (巢狀虛擬化)。 這個 VM 大小最適合用於關聯式資料庫、記憶體內部快取及分析。 此大小也支援巢狀虛擬化。 |
| 虛擬機器映像 | Windows 10 Pro |
提示
使用「中型(巢狀虛擬化)」虛擬機器大小,因為使用 Docker 部署 HDP 沙箱需要 Windows Hyper-V 支援巢狀虛擬化並至少具有 10 GB 的 RAM。
範本機器設定
若要設定範本電腦,需要:
- 安裝 Docker
- 部署 HDP 沙箱
- 使用 PowerShell 和 Windows 工作排程器自動啟動 Docker 容器
安裝 Docker
本節中的步驟是以 使用 Docker 容器部署的 Cloudera 指示為基礎。
若要使用 Docker 容器,您必須先在範本 VM 上安裝 Docker Desktop:
請遵循「必要條件」一節中的步驟,來安裝適用於 Windows 的 Docker。
重要
切勿勾選 [使用 Windows 容器而非 Linux 容器] 設定選項。
確保 Windows 容器和 Hyper-V 功能已開啟。
請遵循 Windows 的記憶體一節中的步驟,設定 Docker 的記憶體組態。
警告
如果您在安裝 Docker 時不小心勾選了 [使用 Windows 容器而非 Linux 容器] 選項,就不會看到記憶體組態設定。 若要修正此問題,您可以按一下 Windows 系統匣中的 Docker 圖示,切換成使用 Linux 容器;當 Docker Desktop 功能表開啟時,請選取 [切換到 Linux 容器]。
部署 HDP 沙箱
接著,部署 HDP 沙箱,然後使用瀏覽器存取 HDP 沙箱。
使用 Cloudera 的 Docker 部署和安裝指南,完成下列各節中的步驟:
- 部署 HDP 沙箱
- 驗證 HDP 沙箱
警告
當您下載 HDP 的最新 .zip 檔案時,「請勿」將 .zip 檔案儲存在包含空格的目錄路徑中。
注意
如果您在部署期間碰到例外狀況,指出尚未共用磁碟機,就必須與 Docker 共用 C 磁碟機,讓 HDP 的 Linux 容器可以存取本機 Windows 檔案。 若要修正此問題,請按一下 Windows 系統匣中的 Docker 圖示,以開啟 Docker Desktop 功能表,然後選取 [設定]。 當 [Docker 設定] 對話方塊開啟時,請選取 [資源與檔案共用]>,並檢查 C 磁碟機。 接著,您可以重複步驟以部署 HDP 沙箱。
部署和執行 HDP 沙箱的 Docker 容器後,只要啟動瀏覽器就可以存取環境。 請遵循 Cloudera 的指示來開啟沙箱歡迎頁面,並啟動 HDP 儀表板。
注意
這些指示是假設您已先將沙箱環境的本機 IP 位址,對應到範本 VM 上主機檔案中的 sandbox-hdp.hortonworks.com。 如果您不想執行此對應,可以流覽到
http://localhost:8080來存取沙箱歡迎頁面。
實驗室使用者登入時自動啟動 Docker 容器
為了讓實驗室使用者容易使用,需要建立會自動執行下列動作的 PowerShell 指令碼:
- 在實驗室使用者啟動並連線到自己的實驗室虛擬機器時,會啟動 HDP 沙箱 Docker 容器。
- 啟動瀏覽器並瀏覽到沙箱歡迎頁面。
在實驗室使用者登入自己的 VM 時,使用 Windows 工作排程器自動執行這個指令碼。 若要設定工作排程器,請遵循下列步驟:巨量資料分析指令碼。
結論
本文已逐步引導您完成建立巨量資料分析課程實驗室所需的步驟。 巨量資料分析課程會使用以 Docker 部署的 Hortonworks Data Platform。 此課程類型的設定,或許也可用於類似的資料分析課程。 此設定可能也適用於使用 Docker 進行部署的其他課程類型。
下一步
範本映像現在可以發佈至實驗室。 如需詳細資訊,請參閱發佈範本 VM。
當您設定實驗室時,請參閱下列文章: