将 Azure 数据工厂迁移到结构数据工厂的最佳做法

Microsoft Fabric 将Microsoft的分析工具统一到单个 SaaS 平台中,为工作流业务流程、数据移动、复制和大规模转换提供可靠的功能。 结构数据工厂基于 Azure 数据工厂(ADF)构建,使其成为实现数据集成解决方案现代化的理想选择。

本指南探讨迁移策略、注意事项和方法,帮助你从 Azure 数据工厂升级到结构数据工厂。

迁移前的注意事项

在迁移之前,请评估重用、翻译或重新设计的内容。 按照以下步骤确保平稳过渡:

  1. 标识身份验证模式,例如托管标识或基于密钥的身份验证。
  2. 查看网络要求,包括专用终结点和网关。
  3. 映射调度计划和触发器语义,并协调监控和警报设置。
  4. 比较 ADF 功能与其 Fabric 对应项,并指出 SSIS 或数据流等任何差距。
  5. 定义非功能目标,例如 SLA、吞吐量、成本限制和可观测性。
  6. 使用示例数据集和预期输出生成测试方案,以客观地比较 ADF 和 Fabric 运行。
  7. 规划机密轮换、命名约定和工作区分类,以便迁移改进(而不仅仅是重现)当前的数据集成策略。

采用并行验证和回滚计划的分阶段方法可最大程度地降低风险,同时实现更快的执行、集中监视和与 Microsoft Fabric 的更深入集成。

对于大型迁移,请考虑与经过认证的Microsoft合作伙伴或Microsoft帐户团队合作以获取指导。

连接、链接服务和数据集

在 Azure 数据工厂(ADF)中,链接服务和数据集定义连接和数据结构。 在 Fabric 中,这些设置映射到 连接 和活动 设置,更注重工作区级别的重用和托管标识。 下面介绍如何调整 ADF 资产:

  1. 查看 Azure 数据工厂和 Fabric 之间的连接器连续性 ,以确认对数据源和接收器的支持。
  2. 合并冗余连接以简化管理。
  3. 采用托管标识进行安全且一致的身份验证。
  4. 使用明确的命名约定标准化文件夹和表参数化,例如: conn-sql-warehouse-salesds-lh-raw-orders

为了确保一致性和可伸缩性,请完整记录每个源和目标:

  • 所有者
  • 敏感度级别
  • 重试设置

本文件有助于标准化跨管道的操作,并改进治理。

集成运行时和OPDG、虚拟网络网关

Azure 数据工厂(ADF)使用 集成运行时(IR) 来定义用于数据处理的计算资源。 这些包括:

  • 适用于 Azure 托管计算的云 IR
  • 本地或专用网络源的自建 IR(SHIR)
  • SQL Server Integration Services 的 SSIS IR
  • 已启用 VNet 的 IR 以实现安全的网络连接。

在 Fabric 中,它们映射到 云执行本地数据网关(OPDG)虚拟网络数据网关 选项。 下面介绍如何规划迁移:

  1. 确定依赖于 SHIR 的管道,并规划其网关映射和吞吐量配置。
  2. 验证每个连接器的 DNS、出口、防火墙规则和身份验证。
  3. 排练故障转移方案以确保可靠性。
  4. 如果可能,请迁移到专用终结点或虚拟网络数据网关,以简化安全评审并减少运营开销。

Fabric 通过在 Fabric 容量中使用基于云的资源来简化计算管理。 SSIS IR 在 Fabric 中不可用。 对于本地连接,请使用 本地数据网关 (OPDG)。 若要实现安全的网络连接,请使用 虚拟网络数据网关

迁移时:

  • 不需要移动公用网络 Azure PR。
  • 将 SHIR 重新创建为 OPDG。
  • 将已启用 VNet 的 Azure IR 替换为虚拟网络数据网关。

管道活动差异

Azure 数据工厂(ADF)中的所有核心活动(例如复制、查找、存储过程/SQL 脚本、Web 和控制流)在 Fabric 中具有直接等效项。 但是,属性、表达式语法和限制存在一些差异。 迁移时,请查看以下内容:

  • 重试策略和超时。
  • REST 源的分页设置。
  • 二进制复制与表格复制配置。
  • Foreach 和过滤模式。
  • 动态内容中使用的系统变量。

Fabric 通常为某些任务提供更多的原生选项。 例如,在仓库中使用 SQL 脚本,而不是通用存储过程调用,以便更好地进行世系和监视。 为了简化迁移,将常见表达式(如路径、日期和特定于租户的 URI)集中到管道参数中。 这样可以减少偏移并加快测试速度。

有关详细信息,请参阅 Azure 数据工厂和 Fabric 之间的活动连续性

数据流差异

Azure 数据工厂(ADF) 映射数据流 不会直接映射到 Fabric。 相反,您通常会选择以下方法之一来重新进行处理:

  • 用于行集转换和受管的低代码转换的Dataflow Gen2
  • Fabric 数据仓库 SQL,用于基于集的 ELT 任务,如靠近数据的 MERGE 或 ELT 操作。
  • 用于高级转换、复杂逻辑或大规模处理的 Spark 笔记本

迁移时,请验证以下内容:

  • 数据类型和 null 处理。
  • 代理键和渐变维度。
  • 幂等 ELT 模式(如暂存和合并)以确保重新运行的可预测性。

有关迁移方案,请参阅 从数据流 Gen1 迁移到数据流 Gen2

Azure 市场合作伙伴产品/服务

受信任的迁移合作伙伴(如 Bitwise Global)提供有助于迁移的工具。 这些工具可以:

  • 扫描 Azure 数据工厂(ADF)环境。
  • 生成目标 Fabric 工件。
  • 执行影响分析和世系跟踪。
  • 创建自动测试计划。

如果你有以下解决方案,这些解决方案特别有用:

  • 数百条管线。
  • 各种连接器。
  • 严格的停机时间要求。

合作伙伴工具标准化映射规则、生成转换报告并运行并行验证测试。 这样,就可以比较旧环境与新环境之间的行计数、校验和和性能。 即使没有使用合作伙伴进行整个迁移,他们的发现和评估模块也可以帮助你开始内部规划并减少不确定性。

使用 AI 工具

大型语言模型(LLM)(如 Microsoft Copilot、ChatGPT 和 Claude)可以加快迁移任务的速度。 这些工具适用于:

  • 重构表达式。
  • 将 Azure 数据工厂 (ADF) JSON 转换为 Fabric 语法。
  • 编写 MERGE 语句。
  • 生成连接模板。
  • 起草验证脚本。

还可以使用它们创建文档,例如 Runbook、数据字典和迁移清单,确保工程师和操作员保持一致。 确保这些工具参与其中,但不负责管理:

  • 避免将敏感信息粘贴到 AI 工具中。
  • 验证开发环境中的所有项。
  • 使用自动测试(如行计数、架构比较和业务规则检查)捕获细微问题,例如类型不匹配或特定于区域设置的日期分析。

有关详细信息,请参阅 在数据工厂中使用 CopilotMicrosoft Fabric 中的 AI

迁移路径

迁移路径取决于 ADF 资产及其功能对等。 选项包括:

将 Azure 数据工厂与 Fabric 中的数据工厂进行比较