通过运行 Azure Databricks 活动转换数据

Microsoft Fabric 数据工厂中的 Azure Databricks 活动允许协调以下 Azure Databricks 作业:

  • Notebook
  • 罐子
  • Python
  • Job

本文提供分步演练,介绍如何使用数据工厂界面创建 Azure Databricks 活动。

先决条件

如果要开始,必须满足以下先决条件:

配置 Azure Databricks 活动

若要在管道中使用 Azure Databricks 活动,请完成以下步骤:

配置连接

  1. 在工作区中创建新管道。

  2. 选择“添加管道活动”并搜索 Azure Databricks。

    Fabric 管道主页和 Azure Databricks 活动被突出显示的屏幕截图。

  3. 或者,可以在管道“活动”窗格中搜索“Azure Databricks”,然后选择它将其添加到管道画布上。

    Fabric UI 的屏幕截图,其中突出显示了“活动”窗格和 Azure Databricks 活动。

  4. 在画布上选择新 Azure Databricks 活动(如果尚未选择)。

    显示 Azure Databricks 活动的“常规设置”选项卡的屏幕截图。

若要配置“常规”设置选项卡,请参阅常规”设置指导。

配置群集

  1. 选择“群集”选项卡。然后,可以选择现有“Azure Databricks 连接”或新建一个,随后选择“新建作业群集”、“现有交互式群集”或“现有实例池”。

  2. 根据为群集选择的内容,填写显示的相应字段。

    • 在“新建作业群集”和“现有实例池”下,还可以配置辅助角色数并启用现成实例。
  3. 还可以根据需要指定其他群集设置,例如 群集策略Spark 配置Spark 环境变量自定义标记。 还可以在其他群集设置下添加“Databricks init 脚本”和“群集日志目标路径”。

    注意

    在 Microsoft Fabric 中的 Azure Databricks 活动的 UI 界面中,“附加群集配置”部分现在支持 Azure 数据工厂 Azure Databricks 链接服务中支持的所有高级群集属性和动态表达式。 由于这些属性现在包含在活动 UI 中,因此它们可与表达式(动态内容)一起使用,而无需高级 JSON 规范。

    显示 Azure Databricks 活动的“群集设置”选项卡的屏幕截图。

  4. Azure Databricks 活动现在还“支持群集策略和 Unity Catalog”

    • 在高级设置下,可以选择 群集策略 ,以便指定允许哪些群集配置。
    • 此外,在高级设置下,可以配置 Unity 目录访问模式 以增加安全性。 可用的访问模式类型包括:
      • 单用户访问模式此模式专为单个用户使用每个群集的应用场景而设计。 它确保群集中的数据访问仅限于该用户。 此模式适用于需要隔离和单个数据处理的任务。
      • 共享访问模式在此模式下,多个用户可以访问同一群集。 它将 Unity Catalog 的数据治理与旧表访问控制列表 (ACL) 组合在一起。 此模式支持协作数据访问,同时维护治理和安全协议。 但是,它具有特定限制,例如不支持 Databricks Runtime ML、Spark 提交作业以及特定的 Spark API 和 UDF。
      • 无访问模式 此模式禁用与 Unity 目录的交互,这意味着群集无权访问 Unity 目录管理的数据。 此模式对于不需要 Unity 目录治理功能的工作负载非常有用。

    显示 Azure Databricks 活动的“群集设置”选项卡下的策略 ID 和 Unity Catalog 支持的屏幕截图。

配置设置

选择 “设置” 选项卡,可以在要安排的 Azure Databricks 类型的 4 个选项之间进行选择。

显示 Azure Databricks 活动的“设置”选项卡的屏幕截图。

在 Azure Databricks 活动中协调 Notebook 类型:

在“设置”选项卡下,可以选择“Notebook”单选按钮来运行 Notebook。 需要指定要在 Azure Databricks 上执行的笔记本路径、要传递给笔记本的可选基参数,以及要安装在群集上以执行作业的任何其他库。

显示 Azure Databricks 活动的 Notebook 类型的屏幕截图。

在 Azure Databricks 活动中协调 Jar 类型:

在“设置”选项卡下,可以选择“Jar”单选按钮来运行 Jar。 需要指定要在 Azure Databricks 上执行的类名、要传递给 Jar 的可选基参数,以及要安装在群集上以执行作业的任何其他库。

显示 Azure Databricks 活动的 Jar 类型的屏幕截图。

在 Azure Databricks 活动中协调 Python 类型:

在“设置”选项卡下,可以选择“Python”单选按钮来运行 Python 文件。 需要在 Azure Databricks 中指定要执行的 Python 文件的路径、要传递的可选基参数,以及要安装在群集上以执行作业的任何其他库。

显示 Azure Databricks 活动的 Python 类型的屏幕截图。

在 Azure Databricks 活动中协调作业类型:

“设置” 选项卡下,可以选择 “作业 ”单选按钮来运行 Databricks 作业。 我们需要使用下拉列表来指定要在 Azure Databricks 上执行的作业,并传递任何可选作业参数。 可以使用此选项运行无服务器作业。

显示 Azure Databricks 活动的作业类型的屏幕截图。

Azure Databricks 活动支持的库

在以上 Databricks 活动定义中,可以指定这些库类型:jar、egg、whl、maven、pypi、cran

有关详细信息,请参阅针对库类型的 Databricks 文档

在 Azure Databricks 活动和管道之间传递参数

可以在 Databricks 活动中使用 baseParameters 属性将参数传递给笔记本。

显示如何在 Azure Databricks 活动中传递基参数的屏幕截图。

有时,可能需要将笔记本中的值返回到服务,以便控制流或在下游活动中使用(大小限制为 2 MB)。

  1. 例如,在笔记本中,可以调用 dbutils.notebook.exit(“returnValue”),相应的“returnValue ”将返回到服务。

  2. 可以使用表达式(如 @{activity('databricks activity name').output.runOutput})在服务中使用该输出。

进行保存,并运行或计划管道

配置管道所需的任何其他活动后,切换到管道编辑器顶部的“主页”选项卡,然后选择“保存”按钮以保存管道。 选择“运行”来直接运行它,或者选择“计划”进行计划。 还可以在此处查看运行历史记录,或者配置其他设置。

屏幕截图显示了如何保存和运行管道。

如何监视管道运行