Microsoft Fabric 将Microsoft的分析工具统一到单个 SaaS 平台中,为工作流业务流程、数据移动、复制和大规模转换提供可靠的功能。 结构数据工厂基于 Azure 数据工厂(ADF)构建,使其成为实现数据集成解决方案现代化的理想选择。
本指南探讨迁移策略、注意事项和方法,帮助你从 Azure 数据工厂升级到结构数据工厂。
迁移前的注意事项
在迁移之前,请评估重用、翻译或重新设计的内容。 按照以下步骤确保平稳过渡:
- 标识身份验证模式,例如托管标识或基于密钥的身份验证。
- 查看网络要求,包括专用终结点和网关。
- 映射调度计划和触发器语义,并协调监控和警报设置。
- 比较 ADF 功能与其 Fabric 对应项,并指出 SSIS 或数据流等任何差距。
- 定义非功能目标,例如 SLA、吞吐量、成本限制和可观测性。
- 使用示例数据集和预期输出生成测试方案,以客观地比较 ADF 和 Fabric 运行。
- 规划机密轮换、命名约定和工作区分类,以便迁移改进(而不仅仅是重现)当前的数据集成策略。
采用并行验证和回滚计划的分阶段方法可最大程度地降低风险,同时实现更快的执行、集中监视和与 Microsoft Fabric 的更深入集成。
对于大型迁移,请考虑与经过认证的Microsoft合作伙伴或Microsoft帐户团队合作以获取指导。
连接、链接服务和数据集
在 Azure 数据工厂(ADF)中,链接服务和数据集定义连接和数据结构。 在 Fabric 中,这些设置映射到 连接 和活动 设置,更注重工作区级别的重用和托管标识。 下面介绍如何调整 ADF 资产:
- 查看 Azure 数据工厂和 Fabric 之间的连接器连续性 ,以确认对数据源和接收器的支持。
- 合并冗余连接以简化管理。
- 采用托管标识进行安全且一致的身份验证。
- 使用明确的命名约定标准化文件夹和表参数化,例如:
conn-sql-warehouse-sales或ds-lh-raw-orders。
为了确保一致性和可伸缩性,请完整记录每个源和目标:
- 所有者
- 敏感度级别
- 重试设置
本文件有助于标准化跨管道的操作,并改进治理。
集成运行时和OPDG、虚拟网络网关
Azure 数据工厂(ADF)使用 集成运行时(IR) 来定义用于数据处理的计算资源。 这些包括:
- 适用于 Azure 托管计算的云 IR。
- 本地或专用网络源的自建 IR(SHIR)。
- SQL Server Integration Services 的 SSIS IR。
- 已启用 VNet 的 IR 以实现安全的网络连接。
在 Fabric 中,它们映射到 云执行、 本地数据网关(OPDG)和 虚拟网络数据网关 选项。 下面介绍如何规划迁移:
- 确定依赖于 SHIR 的管道,并规划其网关映射和吞吐量配置。
- 验证每个连接器的 DNS、出口、防火墙规则和身份验证。
- 排练故障转移方案以确保可靠性。
- 如果可能,请迁移到专用终结点或虚拟网络数据网关,以简化安全评审并减少运营开销。
Fabric 通过在 Fabric 容量中使用基于云的资源来简化计算管理。 SSIS IR 在 Fabric 中不可用。 对于本地连接,请使用 本地数据网关 (OPDG)。 若要实现安全的网络连接,请使用 虚拟网络数据网关。
迁移时:
- 不需要移动公用网络 Azure PR。
- 将 SHIR 重新创建为 OPDG。
- 将已启用 VNet 的 Azure IR 替换为虚拟网络数据网关。
管道活动差异
Azure 数据工厂(ADF)中的所有核心活动(例如复制、查找、存储过程/SQL 脚本、Web 和控制流)在 Fabric 中具有直接等效项。 但是,属性、表达式语法和限制存在一些差异。 迁移时,请查看以下内容:
- 重试策略和超时。
- REST 源的分页设置。
- 二进制复制与表格复制配置。
- Foreach 和过滤模式。
- 动态内容中使用的系统变量。
Fabric 通常为某些任务提供更多的原生选项。 例如,在仓库中使用 SQL 脚本,而不是通用存储过程调用,以便更好地进行世系和监视。 为了简化迁移,将常见表达式(如路径、日期和特定于租户的 URI)集中到管道参数中。 这样可以减少偏移并加快测试速度。
有关详细信息,请参阅 Azure 数据工厂和 Fabric 之间的活动连续性。
数据流差异
Azure 数据工厂(ADF) 映射数据流 不会直接映射到 Fabric。 相反,您通常会选择以下方法之一来重新进行处理:
- 用于行集转换和受管的低代码转换的Dataflow Gen2。
- Fabric 数据仓库 SQL,用于基于集的 ELT 任务,如靠近数据的 MERGE 或 ELT 操作。
- 用于高级转换、复杂逻辑或大规模处理的 Spark 笔记本。
迁移时,请验证以下内容:
- 数据类型和 null 处理。
- 代理键和渐变维度。
- 幂等 ELT 模式(如暂存和合并)以确保重新运行的可预测性。
有关迁移方案,请参阅 从数据流 Gen1 迁移到数据流 Gen2。
Azure 市场合作伙伴产品/服务
受信任的迁移合作伙伴(如 Bitwise Global)提供有助于迁移的工具。 这些工具可以:
- 扫描 Azure 数据工厂(ADF)环境。
- 生成目标 Fabric 工件。
- 执行影响分析和世系跟踪。
- 创建自动测试计划。
如果你有以下解决方案,这些解决方案特别有用:
- 数百条管线。
- 各种连接器。
- 严格的停机时间要求。
合作伙伴工具标准化映射规则、生成转换报告并运行并行验证测试。 这样,就可以比较旧环境与新环境之间的行计数、校验和和性能。 即使没有使用合作伙伴进行整个迁移,他们的发现和评估模块也可以帮助你开始内部规划并减少不确定性。
使用 AI 工具
大型语言模型(LLM)(如 Microsoft Copilot、ChatGPT 和 Claude)可以加快迁移任务的速度。 这些工具适用于:
- 重构表达式。
- 将 Azure 数据工厂 (ADF) JSON 转换为 Fabric 语法。
- 编写 MERGE 语句。
- 生成连接模板。
- 起草验证脚本。
还可以使用它们创建文档,例如 Runbook、数据字典和迁移清单,确保工程师和操作员保持一致。 确保这些工具参与其中,但不负责管理:
- 避免将敏感信息粘贴到 AI 工具中。
- 验证开发环境中的所有项。
- 使用自动测试(如行计数、架构比较和业务规则检查)捕获细微问题,例如类型不匹配或特定于区域设置的日期分析。
有关详细信息,请参阅 在数据工厂中使用 Copilot 和 Microsoft Fabric 中的 AI。
迁移路径
迁移路径取决于 ADF 资产及其功能对等。 选项包括:
- 在 Fabric 中装载 ADF 项以保持连续性。
- 将 PowerShell 转换工具用于具有高一致性的管道。
- 重新平台化以采用原生 Fabric 模式。