通过运行 Azure Databricks 活动转换数据

Microsoft Fabric 数据工厂中的 Azure Databricks 活动允许协调以下 Azure Databricks 作业：

Notebook
罐子
Python
Job

本文提供分步演练，介绍如何使用数据工厂界面创建 Azure Databricks 活动。

先决条件

如果要开始，必须满足以下先决条件：

具有有效订阅的租户帐户。免费创建帐户。
创建了工作区。

配置 Azure Databricks 活动

若要在管道中使用 Azure Databricks 活动，请完成以下步骤：

配置连接

在工作区中创建新管道。
选择“添加管道活动”并搜索 Azure Databricks。
或者，可以在管道“活动”窗格中搜索“Azure Databricks”，然后选择它将其添加到管道画布上。
在画布上选择新 Azure Databricks 活动（如果尚未选择）。

若要配置“常规”设置选项卡，请参阅“常规”设置指导。

配置群集

选择“群集”选项卡。然后，可以选择现有“Azure Databricks 连接”或新建一个，随后选择“新建作业群集”、“现有交互式群集”或“现有实例池”。
根据为群集选择的内容，填写显示的相应字段。
- 在“新建作业群集”和“现有实例池”下，还可以配置辅助角色数并启用现成实例。
还可以根据需要指定其他群集设置，例如 群集策略、 Spark 配置、 Spark 环境变量和 自定义标记。还可以在其他群集设置下添加“Databricks init 脚本”和“群集日志目标路径”。

注意

在 Microsoft Fabric 中的 Azure Databricks 活动的 UI 界面中，“附加群集配置”部分现在支持 Azure 数据工厂 Azure Databricks 链接服务中支持的所有高级群集属性和动态表达式。由于这些属性现在包含在活动 UI 中，因此它们可与表达式（动态内容）一起使用，而无需高级 JSON 规范。
Azure Databricks 活动现在还“支持群集策略和 Unity Catalog”。
- 在高级设置下，可以选择 群集策略 ，以便指定允许哪些群集配置。
- 此外，在高级设置下，可以配置 Unity 目录访问模式 以增加安全性。可用的访问模式类型包括：
  - 单用户访问模式此模式专为单个用户使用每个群集的应用场景而设计。它确保群集中的数据访问仅限于该用户。此模式适用于需要隔离和单个数据处理的任务。
  - 共享访问模式在此模式下，多个用户可以访问同一群集。它将 Unity Catalog 的数据治理与旧表访问控制列表 (ACL) 组合在一起。此模式支持协作数据访问，同时维护治理和安全协议。但是，它具有特定限制，例如不支持 Databricks Runtime ML、Spark 提交作业以及特定的 Spark API 和 UDF。
  - 无访问模式 此模式禁用与 Unity 目录的交互，这意味着群集无权访问 Unity 目录管理的数据。此模式对于不需要 Unity 目录治理功能的工作负载非常有用。