Microsoft Fabric 数据工厂中的管道有助于协调和自动化数据工作流。 “管道”是共同执行一项任务的活动的逻辑分组。 例如,管道可以包含一组用于引入和清理日志数据的活动,然后启动数据流以分析日志数据。
管道允许你以一组形式管理活动,而不是单独管理每个活动。 可以部署和计划管道,而不需单独对活动进行操作。
何时使用管道
管道通过自动执行重复任务并确保一致的数据处理来解决常见数据难题。
假设你是一家零售公司,需要处理来自多个商店的每日销售数据。 每天你需要做以下事情:
- 从销售点系统、联机订单和库存数据库收集数据
- 验证并清理 数据以确保准确性
- 通过计算每日总计、应用业务规则以及使用客户信息扩充来转换数据
- 将处理好的数据加载到数据仓库以便生成报告
- 数据准备就绪时通知商业智能团队
管道自动执行整个工作流。 它按计划运行,妥善处理错误,并提供每个步骤的可见性。 无需手动干预即可获得一致且及时的数据处理。
关键管道组件
管道由多个关键组件组成,共同创建功能强大的数据工作流。 主要组件包括执行工作并向管道添加逻辑 的活动 、确定管道何时运行的 计划和触发器 ,以及使管道灵活且可重用 的参数 。
Activities
活动是流程的基本构件。 每个活动执行特定任务,并且有三种主要类型的活动:
可以将活动链接在一起,以创建复杂的工作流。 一个活动完成后,它可以根据成功、失败或完成状态触发下一个活动。
有关可用活动的完整列表和详细信息,请参阅 活动概述。
管道运行和计划
当流水线执行时,会发生一次流水线运行。 在运行期间,管道中的所有活动都会进行处理和完成。 每个管道运行获取其自己的唯一运行 ID,可用于跟踪和监视。
可以通过三种方式启动管道运行:
按需运行:在管道编辑器中选择 “运行 ”以触发即时运行。 在管道启动之前,您需要保存所有更改。
计划运行:根据时间和频率设置自动运行。 创建计划时,可以指定开始和结束日期、频率和时区。
基于事件的运行:当发生特定事件时,使用事件触发器启动管道,例如到达数据湖的新文件或数据库中的更改。
有关详细信息,请参阅 “运行”、“计划”或“触发管道”。
参数和变量
参数使管道变得灵活。 可以在运行管道时传递不同的值,从而允许同一管道处理不同的数据集或使用不同的配置。
变量在管道执行期间存储临时值。 可以使用它们在活动之间传递数据,或根据运行时条件做出决策。
有关详细信息,请参阅 如何在管道中使用参数、表达式和函数。
管道监视和管理
Fabric 为管道提供全面的监视:
- 实时监控:在管道运行时查看管道进度,并有每项活动状态的可视化指示器
- 运行历史记录:查看过去的执行以识别模式并排查问题
- 性能指标:分析执行时间和资源使用情况以优化管道
- 审核线索:跟踪谁运行了哪些管道,其中详细记录了开始时间、结束时间、活动持续时间、错误消息和数据世系
有关详细信息,请参阅 “监视管道运行”。
最佳做法
设计管道时,请考虑以下建议:
- 开始简单:从基本数据移动开始,逐渐增加复杂性
- 使用参数:通过参数化连接和文件路径使管道可重复使用
- 处理错误:为故障处理进行规划,使用重试逻辑和备用方案
- 监视性能:定期查看执行时间并优化运行缓慢的活动
- 全面测试:在处理生产工作负荷之前使用示例数据验证管道
后续步骤
- Create your first pipeline(创建第一个管道)
- 管道活动
- 运行、计划和触发管道