通过运行笔记本转换数据

使用 Notebook 活动运行在 Microsoft Fabric 中创建的 笔记本 ,作为数据工厂管道的一部分。 笔记本 允许运行 Apache Spark 作业,以引入、清理或转换数据作为数据工作流的一部分。 可以轻松地将 Notebook 活动添加到 Fabric 中的管道,本指南将引导你完成每个步骤。

先决条件

如果要开始,必须满足以下先决条件:

创建笔记本活动

  1. 在工作区中创建新管道。

  2. 在管道的“活动”窗格中搜索“笔记本”,然后将其添加到管道画布上。

    Fabric UI 屏幕截图,其中突出显示了“活动”窗格和笔记本活动。

  3. 在画布上选择新的笔记本活动(如果尚未选择)。

    屏幕截图显示笔记本活动的“常规”设置选项卡。

    若要配置“常规”设置选项卡,请参阅常规”设置指导。

配置笔记本设置

选择 “设置” 选项卡。

“连接”下,选择笔记本运行的身份验证方法,并根据所选内容提供所需的凭据或标识配置:

  • 服务主体 (SPN) - 建议用于生产方案,以确保安全、自动执行,而无需依赖用户凭据。
  • 工作区标识 (WI) - 非常适合需要集中标识治理的托管环境。

“笔记本” 下拉列表中选择现有笔记本,并根据需要指定要传递给笔记本的任何参数。

屏幕截图显示“笔记本”设置选项卡,并突出显示用于选择笔记本和用于添加参数的选项卡。

设置会话标记

为了尽量减少执行笔记本作业所需的时间,可以选择设置会话标签。 设置会话标记会指示 Spark 重复使用任何现有的 Spark 会话,从而最大限度地减少启动时间。 会话标签可以使用任意字符串值。 如果不存在会话,将使用标记值创建一个新会话。

屏幕截图显示“笔记本设置”选项卡,其中突出显示了可在其中添加会话标签的选项卡。

注意

为了能够使用会话标签,必须启用对运行多个笔记本的管道使用高并发模式的选项。 可在工作区设置下的 Spark 高并发模式设置下找到此选项

屏幕截图显示工作区设置选项卡,其中突出显示了用于为运行多个笔记本的管道启用高并发模式的选项卡。

进行保存,并运行或计划管道

切换到管道编辑器顶部的“开始”选项卡,然后选择“保存”按钮以保存管道。 选择“运行”来直接运行它,或者选择“计划”进行计划。 还可以在此处查看运行历史记录,或者配置其他设置。

屏幕截图显示管道编辑器中的“开始”选项卡,并突出显示了选项卡名称、“保存”、“运行”和“计划”按钮。