注释
本文的内容适用于 Dataflow Gen2,并支持 CI/CD。
Microsoft Fabric 提供了持续集成/持续部署(CI/CD)和应用程序生命周期管理(ALM)的工具。 这些工具可帮助团队构建、测试和部署具有一致性和管理的数据解决方案。
具有 CI/CD 支持的数据流 Gen2 可将数据流集成到 Fabric 部署管道中。 此集成自动执行生成、测试和部署阶段。 它通过将 Dataflow Gen2 嵌入 Fabric 的流水线编排中,提供一致且版本控制的数据流交付,从而提高可靠性。
本文提供有关数据流和相关组合框架项的解决方案架构指导,并考虑到 CI/CD 和 ALM。 可以使用本指南来构建符合需求的解决方案。 本文重点介绍两个特定目标:
- 一致性:在整个应用程序生命周期(或部署管道中的部署阶段)中保持数据流的混合脚本不变。
- 特定于阶段的配置:对适应每个阶段的数据源和目标使用动态引用(开发、测试、Prod)。
解决方案体系结构
良好的方案架构适用于数据流 Gen2,并通过统一的 Fabric 解决方案进行扩展。
下表介绍了使用数据流 Gen2 时可用的解决方案体系结构:
| 类型 | Description | 图示 | Tutorial |
|---|---|---|---|
| 参数化数据流 Gen2 | 使用 公共参数模式,可以将数据流组件(如逻辑、源或目标)参数化,并传递运行时值以基于管道阶段动态调整数据流。 |
|
指向教程的链接 |
| 数据流 Gen2 中的变量引用 | 使用 变量库与 Dataflow Gen2 集成,可以在整个数据流中引用变量。 根据库中存储的值在运行时评估这些变量,从而启用与管道阶段一致的动态行为。 |
|
指向教程的链接 |
这两种方法之间的主要区别在于它们如何在运行时传递值。 参数化数据流需要通过 REST API 或 Fabric 管道数据流活动 来处理值。 变量库与 Dataflow Gen2 的集成需要工作区级别的变量库和数据流中引用的正确变量。
这两个选项都是有效的,每个选项都有自己的注意事项和限制。 建议评估工作流的工作原理以及它如何适应整个 Fabric 解决方案。
一般注意事项
选择 CI/CD 和 ALM 解决方案架构时,需要注意以下事项:
- 默认引用:数据流 Gen2 默认创建对 Fabric 项(例如 Lakehouses、Warehouses)的绝对引用。 查看数据流,确定哪些引用应保持固定状态,哪些引用应在环境中动态调整。
- 连接行为:数据流 Gen2 不支持数据源连接的动态重新配置。 如果数据流使用参数(例如服务器名称、数据库名称)连接到 SQL 数据库等源,则这些连接是静态绑定的,并且无法使用工作区变量或参数化进行更改。
- Git 集成范围:建议仅第一阶段(通常开发)需要启用 Git 集成。 编写并提交混合脚本后,后续阶段可以使用没有 Git 的部署管道。
- 使用构造管道来协调: 管道中的数据流活动 可以帮助你协调数据流的运行,并使用直观的用户界面传递参数。 还可以使用 变量库与管道集成 从变量中检索值,并在运行时将这些值传递给数据流参数。
- 部署规则兼容性:目前,部署规则可以修改某些项属性,但不支持更改数据流连接或混合逻辑。 相应地规划体系结构。
- 跨阶段测试:在部署后始终验证数据流的行为以确保每个阶段的正确性。 数据源、权限或变量值的差异可能会导致意外结果。