Azure 数据工厂与结构数据工厂之间的差异

Microsoft Fabric 中的数据工厂 是下一代 Azure 数据工厂,旨在通过更简单、更强大的方法处理最复杂的数据集成挑战。

本指南可帮助你了解这两个服务之间的主要差异,以便为企业做出正确的选择。 我们将引导你了解新功能、有哪些不同,以及 Fabric 带来的优势。

结构数据工厂是下一代 Azure 数据工厂,旨在简化和增强数据集成工作流。 本部分介绍 Fabric 数据工厂的主要功能和优势。

准备好探索迁移选项了吗? 请查看 我们的迁移指南

并排比较功能

下面是 Azure 数据工厂与 Fabric 数据工厂之间核心功能的对比。 我们突出显示了更改的内容、新增功能以及保持不变的内容。

Azure 数据工厂 Fabric 中的数据工厂 区别
管道 管道 更好的集成:Fabric 中的管道能够立即与 Lakehouse、数据仓库和其他 Fabric 服务无缝协作。 构造管道包括更多基于 SaaS 的活动,在 JSON 定义中有所不同。 有关更多详细信息,请参阅 管道功能比较
映射数据流 数据流 Gen2 更易于使用:Dataflow Gen2 提供更简单的生成转换体验。 我们一直向 Gen2 添加更多映射数据流功能。
活动 活动 即将推出更多活动:我们正在努力将所有最喜欢的 ADF 活动引入 Fabric。 此外,还可获得 Office 365 Outlook 活动等新活动,这些活动在 ADF 中不可用。 有关详细信息,请参阅 我们的活动比较
数据集 仅限联网 更简单的方法:没有更复杂的数据集配置。 对于 Fabric 中的数据工厂,可以使用连接链接到数据源并开始工作。 Fabric 省略了数据集,直接在活动中定义数据属性。
链接服务 连接 更直观:连接的工作方式类似于链接服务,但更易于设置和管理。
触发器 计划和文件事件触发器 内置调度:使用 Fabric 的调度器和 Reflex 事件自动运行您的管道。 文件事件触发器在 Fabric 中本机工作,无需进行额外的设置。 Fabric 将触发器集成到其激活器框架中,与 ADF 的独立触发器不同。
发布 保存并运行 无发布步骤:在 Fabric 中,完全跳过发布步骤。 只需选择“保存”以存储工作,或选择“运行”以立即保存和执行管道。
Autoresolve 和 Azure Integration Runtime 不需要 简化的体系结构:无需管理集成运行时。 Fabric 会为你处理计算。
自承载集成运行时 本地数据网关 相同的本地访问:使用熟悉的本地数据网关连接到本地数据。 在 本地数据访问指南中了解详细信息。
Azure-SSIS 集成运行时 待定 Fabric 中未来的功能:我们仍在致力于在 Fabric 中实现 SSIS 集成的设计。
托管虚拟网络和专用终结点 待定。 Fabric 中未来的功能:我们仍在为 Fabric 中的托管虚拟网络和专用终结点进行集成。
表达式语言 表达式语言 相同的表达式:现有的表达式知识直接传输。 语法几乎完全相同。
身份验证类型 身份验证类型 更多选项:所有常用的 ADF 身份验证方法都在 Fabric 中工作,此外我们添加了新的身份验证类型。
CI/CD CI/CD ADF 以外的增强功能包括轻松筛选特定更改、单个项目发布、支持启用 Git 仓库和集成 SaaS 的 CI/CD 选项。
ARM 模板导出/导入 另存为 快速复制:在 Fabric 中,使用“另存为”快速复制用于开发或测试的管道。
监视 监控中心 + 运行历史记录 高级监视:监视中心提供跨工作区见解和更好的深入分析功能的新式体验。
调试 交互模式 简化调试:Fabric 消除了 ADF 的调试模式。 始终处于交互模式。
变更数据捕获 (CDC) 复制作业 增量数据移动:Fabric 通过数据复制作业而非 CDC 工件来管理增量数据移动。
Azure Synapse Link 镜像 数据复制:Fabric 将 Azure Synapse Link 替换为用于数据复制的镜像功能。
执行管道活动 “调用管道”活动 跨平台调用:Fabric 使用跨平台调用增强了 ADF 的执行管道活动。

管道功能比较

类别 ADF 管道 结构管道
服务类型 数据集成 PaaS 服务 数据集成 SaaS 服务
创作环境 Azure 门户 (ADF Studio) Fabric/PBI 工作区(与 Lakehouses、Warehouses 等服务统一的用户体验)
管道编排 具有活动、触发器、参数的全功能管道 为 Fabric UX 重新设计相同的编排模型
数据移动 复制活动, 映射数据流, 本地 IR 支持, 托管虚拟网络 复制活动、Dataflows Gen2、与 OneLake 和 Fabric 项目的内置连接、本地数据网关、虚拟网络网关
计算/IR 自托管、SSIS 和 Azure IR(用于移动和转换) 云连接、本地和虚拟网络网关
数据流 Azure Blob、Data Lake Storage、SQL、100 多个连接器 相同的连接器 + 原生 OneLake 集成,Fabric 工作区的更紧密对齐
监视 ADF Studio 中的管道和数据流及其运行、触发器、警报 监视中心和工作区监视,通过统一视图监控管道、数据流、笔记本、数据库等内容。
触发器 计划、滚动窗口、基于事件的触发器 计划、事件触发器、翻滚窗口触发器作为间隔计划
CI/CD ARM 模板 + Azure DevOps 或 GitHub 存储库集成 Fabric 中的内置部署管道;工作区级别提升(开发→测试→生产)和外部存储库集成
安全性 托管标识、Key Vault 集成、专用终结点 相同的安全模型加上 Fabric 工作区基于角色的访问控制(RBAC);OneLake 安全集成
Pricing Azure 利用率基础上的按需计费(以每次活动运行、数据移动和计算为基础) 基于容量的(Fabric F SKU),不收取外部或管道活动的费用,仅收取活动执行和管道数据移动的费用。

活动比较

在 Microsoft Fabric 中使用数据工厂,我们将继续保持与 Azure 数据工厂的高度连续性。 ADF 中可访问的活动大约 90% 已在 Fabric 中的数据工厂下提供。 下面是 ADF 和数据工厂在 Fabric 中活动的细分及其可用性:

Activity ADF Fabric 中的数据工厂
ADX/KQL Y Y
追加变量 Y Y
Azure Batch Y Y
Azure Databricks 笔记本活动Jar 活动Python 活动作业活动 Azure Databricks 活动
Azure 机器学习 Y Y
Azure 机器学习批处理执行 Deprecated N/A
Azure 机器学习更新资源 Deprecated N/A
复制 复制数据 Copy 活动
数据流 Gen2 N/A Y
删除 Y Y
执行/调用管道 执行管道 调用管道
结构笔记本 N/A Y
失败 Y Y
过滤器 Y Y
遍历 Y Y
Functions Azure 函数 函数活动
获取元数据 Y Y
HDInsight Hive 活动Pig 活动MapReduce 活动Spark 活动流式处理活动 HDInsight 活动
If 条件 Y Y
查找 Y Y
映射数据流 Y 数据流 Gen2
Office 365 Outlook N/A Y
Power Query (仅限 ADF - 整理数据流) Deprecated N/A
Script Y Y
语义模型刷新 N/A Y
设置变量 Y Y
Sproc Y Y
SSIS Y N/A
存储过程 Y Y
开关 Y Y
Synapse Notebook 和 SJD 活动 Y N/A
团队 N/A Y
截止 Y Y
Validation Y 获取元数据If 条件
Wait Y Y
Web Y Y
Webhook Y Y
整理数据流 Y 数据流 Gen2

Fabric 数据工厂中的新活动

除了保持活动连续性之外,Fabric 中的数据工厂还引入了一些新活动以满足更丰富的业务流程需求。 这些新活动包括:

  1. Outlook:在 Fabric 数据工厂中可用,以便与 Outlook 服务集成。
  2. Teams:在 Fabric 数据工厂中可用,以启用 Microsoft Teams 活动的编排。
  3. 语义模型刷新:在 Fabric 数据工厂中可用,以增强 Power BI 语义模型刷新功能。
  4. 数据流 Gen2:在 Fabric 数据工厂中可用,以其高级数据流功能增强数据编排的能力。

有关所有可用 Fabric 数据工厂活动的列表,请参阅 活动概述

连接器比较

有关 Azure 数据工厂和 Fabric 数据工厂中所有连接器及其可用性的比较,请参阅 连接器比较文章

自托管集成运行时 (SHIR) 与本地数据网关 (OPDG)

注释

SHIR 和 ODPG 支持的服务不同:

  • 自承载集成运行时(SHIR):支持 Azure 数据工厂、Azure Synapse Analytics、Azure 机器学习工作室和 Azure Purview。
  • 本地数据网关(OPDG):支持 Power BI、Power Apps、Power Automate、Azure Analysis Services、逻辑应用、Fabric 数据流 Gen2、构造管道、构造复制作业和结构镜像。
类别 自托管集成运行时(SHIR) 本地数据网关 (OPDG)
支持的服务 - Azure 数据工厂
- Azure 机器学习工作室
- Azure Synapse Analytics
- Azure Purview
- Power BI
- Power Apps
- Power Automate
- Azure Analysis Services
- 逻辑应用
- Fabric数据流 Gen2
- 构造管道
- 构造复制作业
- 结构镜像
安装与注册 - 按密钥注册
- 在服务模式下运行
- 已注册到 Microsoft Entra ID 帐户
- 支持用户模式
平台 -窗户
- 支持的容器镜像
- 仅限 Windows
- 无容器支持
代理支持 - 支持系统和自定义代理 - 支持自定义代理
区域绑定 - 固定为数据工厂区域
- 无法更改默认区域
- 可以更改区域
自定义中继 - 不支持 -支持;客户可以自带中继
跨服务共享 - 与最多 120 个数据工厂共享
- 无法在 ADF、Synapse、Purview 或 Synapse 工作区之间共享
- 可用于租户中的所有受支持的服务
高可用性 (HA) - 最多 8 个节点(4 个默认值) - 最多 10 个节点
Recovery - 需要重新安装 - 支持的恢复密钥
负载平衡 - 基于可用工作单元(CPU + 内存)的任务级负载均衡 - 查询级负载均衡
- 轮循机制或随机分布选项
凭据存储 - 本地存储在 SHIR 节点上
- 支持 Azure Key Vault
- 集中存储在网关云服务中
- 无 Key Vault 集成
自动更新 -支持 - 不支持
连接器扩展性 - 不支持 -支持
交互式创作 -支持 -支持
控制流的专用链接 -支持 - 不支持
版本控制 - 每月发布两个版本,其中一个通过自动更新推送
- 支持过去 12 个月的发布
- 每月一个版本
- 支持最近 6 个版本
CPU 和内存限制 - 不支持 -支持
吞吐量限制 - 无硬限制;依赖于网络带宽 服务特定的限制:
Power Apps/Power Automate/逻辑应用:
- 写入:2 MB 有效负载限制
- 读取:2 MB 请求限制、8 MB 压缩响应限制
- GET 请求 URL 限制:2,048 个字符
Power BI 直接查询:16 MB 未压缩的响应限制

ADF 托管虚拟网络与 Fabric 虚拟网络数据网关对比

Azure 数据工厂(ADF)托管虚拟网络和 Microsoft Fabric 虚拟网络(虚拟网络)数据网关都有助于安全地连接到数据源,而无需将其公开给公共 Internet。 虽然这两个选项都支持云工作负载的专用连接,但它们在设置方式、管理云工作负载的人员以及支持哪些服务方面有所不同。

  • ADF 托管 VNET
    Microsoft拥有和管理网络环境。 获得简单的设置,但无法控制网络设置或防火墙规则。

  • Fabric VNET 数据网关
    在自己的 Azure 虚拟网络中部署网关。 这样就可以完全控制网络、防火墙和缩放。 你决定网关连接到您的资源的方式,并管理所有网络设置。

使用下表比较主要差异,并选择适合工作负荷和治理需求的选项。

类别 ADF 托管虚拟网络 Fabric 虚拟网络数据网关
支持的服务 Azure 数据工厂和 Synapse 管道。 Microsoft Fabric 数据流 Gen2、Fabric 数据管道、Fabric 复制作业、Fabric 镜像、Power BI 语义模型和 Power BI 分页报表
VNET 所有权 Microsoft托管的虚拟网络(客户不控制网络)。 客户管理的虚拟网络(客户已完全控制)。
私有终结点 由 ADF 自动创建和管理受支持服务(Azure 存储、SQL DB 等)。 客户将虚拟网络网关配置为将 Fabric 工作负载连接到其虚拟网络中的资源。
网络控制 受限 - 客户只能将虚拟网络集成运行时加入专用终结点。 完全控制 — 客户在自己的虚拟网络中配置防火墙、NSG 规则、路由。
安装/部署 无需安装;完全由隐藏虚拟网络中的Microsoft管理。 需要将虚拟网络数据网关部署到客户的虚拟网络中。
高可用性 由 Microsoft 托管、自动缩放的在 ADF 的虚拟网络内部。 启用 TTL 时切换到保留模式。 支持缩放和 HA(基于节点的群集),但在客户管理的虚拟网络中运行。 最多支持 7 个节点。

Fabric Data Factory的关键特性

在 Fabric 数据工厂中,生成管道、数据流和其他数据工厂项变得特别简单和快速,因为微软革命性的 AI 功能 Co-Pilot 的原生集成。 借助 Copilot for 数据工厂,可以使用自然语言轻松定义数据集成项目。

原生湖仓与数据仓库集成

Fabric 数据工厂的最大优点之一是它如何与数据平台连接。 Lakehouse 和数据仓库在数据流程中既作为数据源又作为目标,这使得构建集成数据项目变得轻而易举。

显示湖屋和数据仓库来源选项卡的屏幕截图。

显示湖屋和数据仓库目标选项卡的屏幕截图。

使用 Office 365 的智能电子邮件通知

需要让团队了解最新情况吗? 借助 Office 365 Outlook 活动,你可以发送有关管道运行、活动状态和结果的自定义电子邮件通知,所有这些通知都是使用简单的配置。 不再经常检查仪表板或编写自定义通知代码。

显示 office 365 outlook 活动的屏幕截图。

简化的数据连接体验

Fabric 的现代化 获取数据体验可让你快速设置复制管道并创建新连接。 你将花费更少的时间进行配置,而有更多时间将数据传输到需要的地方。

显示一种现代而简便的“获取数据”体验的屏幕截图。

显示如何创建新连接的屏幕截图。

CI/CD 体验中的易用性改进

在 Fabric 中,CI/CD 体验比 Azure 数据工厂或 Synapse 更轻松、更灵活。 Fabric 中的 CI/CD 和 ARM 模板之间没有连接,因此可以轻松挑选 Fabric 工作区的各个部分进行签入、签出、验证和协作。 在 ADF 和 Synapse 中,CI/CD 的唯一选择是使用自己的 Git 存储库。 但是,在 Fabric 中,可以选择使用不需要自带外部 Git 存储库的内置部署管道功能。

更高级别的监控和观测

在 Fabric Data Factory 中的监控体验,您会真正感受到不同。 监控中心为您提供所有工作负载的完整视图,并且可以深入分析任何活动以获取详细见解。 跨工作区分析是内置的,因此你可以在整个组织中看到大局。

显示监视中心和数据工厂项目的屏幕截图。

在对复制活动进行故障排除时,您会喜欢详细分解视图。 选择“运行详细信息”按钮(眼镜图标)以查看所发生的情况。 持续时间细目显示每个阶段花费的时间,从而使性能优化更加轻松。

显示管道复制监视结果提供复制活动细分详情的屏幕截图。

显示复制数据详细信息的屏幕截图。

快速流水线复制

需要创建类似的管道? “ 另存为 ”功能允许以秒为单位复制任何现有管道。 它非常适合用于创建开发版本、测试变体或设置类似的工作流。

显示 Fabric 管道中的“另存为”的屏幕截图。

有关详细信息,请参阅以下资源: