大部分巨量數據解決方案的目標是透過分析和報告來提供數據的深入解析。 分析和報告可以包含預先設定的報表和視覺效果,或互動式數據探索。
數據分析技術選項
根據您的需求,在 Azure 中分析、視覺效果和報告有數個選項:
Power BI
Power BI 是一套商務分析工具。 它可以 連線到數百個數據源,而且您可以使用它進行非計劃性分析。 使用 Power BI Embedded 在您自己的應用程式中整合 Power BI,而不需要任何額外的授權。
組織可以使用Power BI來產生報表,並將其發佈至組織。 每個人都可以建立個人化的儀錶板,並具備內建的治理和安全性。 Power BI 會使用 Microsoft Entra 識別符 來驗證登入 Power BI 服務的使用者。 當用戶嘗試存取需要驗證的資源時,它會使用 Power BI 認證。
Jupyter 筆記本
Jupyter Notebook 提供瀏覽器型殼層,可讓數據科學家建立包含 Python、Scala 或 R 程式代碼和 Markdown 文字的 筆記本 檔案。 這些功能可讓筆記本成為共同作業的有效方式,方法是共用和記錄程序代碼,併產生單一檔。
大部分的 HDInsight 叢集,例如 Spark 或 Hadoop,都是 使用 Jupyter Notebook 預先 設定,以便與數據互動,並提交作業進行處理。 根據您使用的 HDInsight 叢集類型,會提供一或多個核心來解譯和執行程式代碼。 例如,HDInsight 上的 Spark 叢集提供 Spark 相關核心,您可以使用 Spark 引擎選取來執行 Python 或 Scala 程式代碼。
Jupyter 筆記本提供一個有效的環境,讓您能夠分析、視覺化及處理數據,然後再利用 Power BI 等 BI 報告工具建置更進階的視覺效果。
Zeppelin Notebook
Zeppelin Notebook 也提供瀏覽器型殼層,其功能與 Jupyter Notebook 類似。 某些 HDInsight 叢集中已經配置了 Zeppelin 筆記本。 不過,如果您使用 HDInsight 互動式查詢 (也稱為 Apache Hive LLAP)叢集, Zeppelin 是唯一可用來執行互動式 Hive 查詢的筆記本。 此外,如果您使用 已加入網域的 HDInsight 叢集,Zeppelin Notebook 是唯一可讓您指派不同使用者登入來控制筆記本和基礎 Hive 數據表存取權的筆記本類型。
VS Code 中的 Jupyter Notebook
VS Code 是免費的程式代碼編輯器和開發平臺,您可以在本機使用或連線到遠端計算。 當您搭配 Jupyter 擴充功能使用 VS Code 時,它會為 Jupyter 開發提供完全整合的環境,可透過更多語言延伸模組來增強。 如果您想要最佳、免費的 Jupyter 體驗,並且能夠使用您選擇的計算,請選擇此選項。
藉由使用 VS Code,您可以針對遠端和容器開發及執行筆記本。 為了簡化從 Azure Notebook 的轉換,容器映像也可供您搭配 VS Code 使用。
Jupyter (先前稱為 IPython Notebook) 是一個開放原始碼專案,可讓您輕鬆地將 Markdown 文字和可執行的 Python 原始程式碼結合在稱為筆記本的畫布上。 VS Code 支援以原生方式和透過 Python 程式代碼檔案使用 Jupyter Notebook。
關鍵選擇準則
請回答下列問題,開始縮小您的選擇範圍:
您是否需要連線到許多數據源,並提供集中位置來建立整個網域的數據報告? 如果您這樣做,請選擇可讓您連線到數百個數據源的選項。
您要在外部網站或應用程式中內嵌動態視覺效果嗎? 如果您這樣做,請選擇提供內嵌功能的選項。
您要在離線時設計視覺效果和報表嗎? 如果您這樣做,請選擇具有離線功能的選項。
您需要大量的處理能力來定型大型或複雜的 AI 模型,或使用大型數據集嗎? 如果您這麼做,請選擇可連線到巨量數據叢集的選項。
功能對照表
下表摘要說明功能的主要差異。
一般功能
| 能力 | Power BI | Jupyter 筆記本 | Zeppelin Notebook | VS Code 中的 Jupyter Notebook |
|---|---|---|---|---|
| 聯機到巨量數據叢集以進行進階處理 | 是的 | 是的 | 是的 | 不 |
| 受控服務 | 是的 | 是 1 | 是 1 | 是的 |
| 連接到幾百個資料來源 | 是的 | 不 | 不 | 不 |
| 離線功能 | 是 2 | 不 | 不 | 不 |
| 內嵌功能 | 是的 | 不 | 不 | 不 |
| 自動數據重新整理 | 是的 | 不 | 不 | 不 |
| 存取許多開放原始碼套件 | 不 | 是 3 | 是 3 | 是 4 |
| 數據轉換或清理選項 | Power Query,R | 40 種語言,包括 Python、R、Julia 和 Scala | 超過 20 個解釋器,包括 Python、JDBC 和 R | Python、F#、R |
| 定價 | Power BI Desktop 免費(撰寫)。 如需主機選項,請參閱 Power BI 定價 。 | 免費 | 免費 | 免費 |
| 多使用者共同作業 | 是 | 是 (透過共用或與 JupyterHub 之類的多用戶伺服器) | 是的 | 是 (透過共用) |
[1] 當做受控 HDInsight 叢集的一部分使用時。
[2] 使用 Power BI Desktop 軟體。
[3] 您可以搜尋 Maven 存放庫 以取得社群參與的套件。
[4] 您可以使用 pip 或 Conda 來安裝 Python 套件。 您可以從 CRAN 或 GitHub 安裝 R 套件。 您可以使用 Paket 相依性管理員,透過 nuget.org 在 F# 中安裝套件。
參與者
本文由 Microsoft 維護。 下列參與者撰寫本文。
主要作者:
- Zoiner Tejada | CEO 暨架構設計師
若要查看非公開的 LinkedIn 個人檔案,請登入 LinkedIn。
下一步
- Databricks 筆記本簡介
- 使用 Azure Data Factory 執行 Azure Databricks Notebook
- 在您的工作區中執行 Jupyter Notebook
- Power BI 是什麼?