Microsoft Fabric 中的数据工厂 是下一代 Azure 数据工厂,旨在通过更简单、更强大的方法处理最复杂的数据集成挑战。
本指南可帮助你了解这两个服务之间的主要差异,以便为企业做出正确的选择。 我们将引导你了解新功能、有哪些不同,以及 Fabric 带来的优势。
结构数据工厂是下一代 Azure 数据工厂,旨在简化和增强数据集成工作流。 本部分介绍 Fabric 数据工厂的主要功能和优势。
准备好探索迁移选项了吗? 请查看 我们的迁移指南。
并排比较功能
下面是 Azure 数据工厂与 Fabric 数据工厂之间核心功能的对比。 我们突出显示了更改的内容、新增功能以及保持不变的内容。
| Azure 数据工厂 | Fabric 中的数据工厂 | 区别 |
|---|---|---|
| 管道 | 管道 | 更好的集成:Fabric 中的管道能够立即与 Lakehouse、数据仓库和其他 Fabric 服务无缝协作。 构造管道包括更多基于 SaaS 的活动,在 JSON 定义中有所不同。 有关更多详细信息,请参阅 管道功能比较 。 |
| 映射数据流 | 数据流 Gen2 | 更易于使用:Dataflow Gen2 提供更简单的生成转换体验。 我们一直向 Gen2 添加更多映射数据流功能。 |
| 活动 | 活动 | 即将推出更多活动:我们正在努力将所有最喜欢的 ADF 活动引入 Fabric。 此外,还可获得 Office 365 Outlook 活动等新活动,这些活动在 ADF 中不可用。 有关详细信息,请参阅 我们的活动比较 。 |
| 数据集 | 仅限联网 | 更简单的方法:没有更复杂的数据集配置。 对于 Fabric 中的数据工厂,可以使用连接链接到数据源并开始工作。 Fabric 省略了数据集,直接在活动中定义数据属性。 |
| 链接服务 | 连接 | 更直观:连接的工作方式类似于链接服务,但更易于设置和管理。 |
| 触发器 | 计划和文件事件触发器 | 内置调度:使用 Fabric 的调度器和 Reflex 事件自动运行您的管道。 文件事件触发器在 Fabric 中本机工作,无需进行额外的设置。 Fabric 将触发器集成到其激活器框架中,与 ADF 的独立触发器不同。 |
| 发布 | 保存并运行 | 无发布步骤:在 Fabric 中,完全跳过发布步骤。 只需选择“保存”以存储工作,或选择“运行”以立即保存和执行管道。 |
| Autoresolve 和 Azure Integration Runtime | 不需要 | 简化的体系结构:无需管理集成运行时。 Fabric 会为你处理计算。 |
| 自承载集成运行时 | 本地数据网关 | 相同的本地访问:使用熟悉的本地数据网关连接到本地数据。 在 本地数据访问指南中了解详细信息。 |
| Azure-SSIS 集成运行时 | 待定 | Fabric 中未来的功能:我们仍在致力于在 Fabric 中实现 SSIS 集成的设计。 |
| 托管虚拟网络和专用终结点 | 待定。 | Fabric 中未来的功能:我们仍在为 Fabric 中的托管虚拟网络和专用终结点进行集成。 |
| 表达式语言 | 表达式语言 | 相同的表达式:现有的表达式知识直接传输。 语法几乎完全相同。 |
| 身份验证类型 | 身份验证类型 | 更多选项:所有常用的 ADF 身份验证方法都在 Fabric 中工作,此外我们添加了新的身份验证类型。 |
| CI/CD | CI/CD | ADF 以外的增强功能包括轻松筛选特定更改、单个项目发布、支持启用 Git 仓库和集成 SaaS 的 CI/CD 选项。 |
| ARM 模板导出/导入 | 另存为 | 快速复制:在 Fabric 中,使用“另存为”快速复制用于开发或测试的管道。 |
| 监视 | 监控中心 + 运行历史记录 | 高级监视:监视中心提供跨工作区见解和更好的深入分析功能的新式体验。 |
| 调试 | 交互模式 | 简化调试:Fabric 消除了 ADF 的调试模式。 始终处于交互模式。 |
| 变更数据捕获 (CDC) | 复制作业 | 增量数据移动:Fabric 通过数据复制作业而非 CDC 工件来管理增量数据移动。 |
| Azure Synapse Link | 镜像 | 数据复制:Fabric 将 Azure Synapse Link 替换为用于数据复制的镜像功能。 |
| 执行管道活动 | “调用管道”活动 | 跨平台调用:Fabric 使用跨平台调用增强了 ADF 的执行管道活动。 |
管道功能比较
| 类别 | ADF 管道 | 结构管道 |
|---|---|---|
| 服务类型 | 数据集成 PaaS 服务 | 数据集成 SaaS 服务 |
| 创作环境 | Azure 门户 (ADF Studio) | Fabric/PBI 工作区(与 Lakehouses、Warehouses 等服务统一的用户体验) |
| 管道编排 | 具有活动、触发器、参数的全功能管道 | 为 Fabric UX 重新设计相同的编排模型 |
| 数据移动 | 复制活动, 映射数据流, 本地 IR 支持, 托管虚拟网络 | 复制活动、Dataflows Gen2、与 OneLake 和 Fabric 项目的内置连接、本地数据网关、虚拟网络网关 |
| 计算/IR | 自托管、SSIS 和 Azure IR(用于移动和转换) | 云连接、本地和虚拟网络网关 |
| 数据流 | Azure Blob、Data Lake Storage、SQL、100 多个连接器 | 相同的连接器 + 原生 OneLake 集成,Fabric 工作区的更紧密对齐 |
| 监视 | ADF Studio 中的管道和数据流及其运行、触发器、警报 | 监视中心和工作区监视,通过统一视图监控管道、数据流、笔记本、数据库等内容。 |
| 触发器 | 计划、滚动窗口、基于事件的触发器 | 计划、事件触发器、翻滚窗口触发器作为间隔计划 |
| CI/CD | ARM 模板 + Azure DevOps 或 GitHub 存储库集成 | Fabric 中的内置部署管道;工作区级别提升(开发→测试→生产)和外部存储库集成 |
| 安全性 | 托管标识、Key Vault 集成、专用终结点 | 相同的安全模型加上 Fabric 工作区基于角色的访问控制(RBAC);OneLake 安全集成 |
| Pricing | Azure 利用率基础上的按需计费(以每次活动运行、数据移动和计算为基础) | 基于容量的(Fabric F SKU),不收取外部或管道活动的费用,仅收取活动执行和管道数据移动的费用。 |
活动比较
在 Microsoft Fabric 中使用数据工厂,我们将继续保持与 Azure 数据工厂的高度连续性。 ADF 中可访问的活动大约 90% 已在 Fabric 中的数据工厂下提供。 下面是 ADF 和数据工厂在 Fabric 中活动的细分及其可用性:
| Activity | ADF | Fabric 中的数据工厂 |
|---|---|---|
| ADX/KQL | Y | Y |
| 追加变量 | Y | Y |
| Azure Batch | Y | Y |
| Azure Databricks | 笔记本活动 • Jar 活动 • Python 活动 • 作业活动 | Azure Databricks 活动 |
| Azure 机器学习 | Y | Y |
| Azure 机器学习批处理执行 | Deprecated | N/A |
| Azure 机器学习更新资源 | Deprecated | N/A |
| 复制 | 复制数据 | Copy 活动 |
| 数据流 Gen2 | N/A | Y |
| 删除 | Y | Y |
| 执行/调用管道 | 执行管道 | 调用管道 |
| 结构笔记本 | N/A | Y |
| 失败 | Y | Y |
| 过滤器 | Y | Y |
| 遍历 | Y | Y |
| Functions | Azure 函数 | 函数活动 |
| 获取元数据 | Y | Y |
| HDInsight | Hive 活动 • Pig 活动 • MapReduce 活动 • Spark 活动 • 流式处理活动 | HDInsight 活动 |
| If 条件 | Y | Y |
| 查找 | Y | Y |
| 映射数据流 | Y | 数据流 Gen2 |
| Office 365 Outlook | N/A | Y |
| Power Query (仅限 ADF - 整理数据流) | Deprecated | N/A |
| Script | Y | Y |
| 语义模型刷新 | N/A | Y |
| 设置变量 | Y | Y |
| Sproc | Y | Y |
| SSIS | Y | N/A |
| 存储过程 | Y | Y |
| 开关 | Y | Y |
| Synapse Notebook 和 SJD 活动 | Y | N/A |
| 团队 | N/A | Y |
| 截止 | Y | Y |
| Validation | Y | 获取元数据 和 If 条件 |
| Wait | Y | Y |
| Web | Y | Y |
| Webhook | Y | Y |
| 整理数据流 | Y | 数据流 Gen2 |
Fabric 数据工厂中的新活动
除了保持活动连续性之外,Fabric 中的数据工厂还引入了一些新活动以满足更丰富的业务流程需求。 这些新活动包括:
- Outlook:在 Fabric 数据工厂中可用,以便与 Outlook 服务集成。
- Teams:在 Fabric 数据工厂中可用,以启用 Microsoft Teams 活动的编排。
- 语义模型刷新:在 Fabric 数据工厂中可用,以增强 Power BI 语义模型刷新功能。
- 数据流 Gen2:在 Fabric 数据工厂中可用,以其高级数据流功能增强数据编排的能力。
有关所有可用 Fabric 数据工厂活动的列表,请参阅 活动概述。
连接器比较
有关 Azure 数据工厂和 Fabric 数据工厂中所有连接器及其可用性的比较,请参阅 连接器比较文章。
自托管集成运行时 (SHIR) 与本地数据网关 (OPDG)
注释
SHIR 和 ODPG 支持的服务不同:
- 自承载集成运行时(SHIR):支持 Azure 数据工厂、Azure Synapse Analytics、Azure 机器学习工作室和 Azure Purview。
- 本地数据网关(OPDG):支持 Power BI、Power Apps、Power Automate、Azure Analysis Services、逻辑应用、Fabric 数据流 Gen2、构造管道、构造复制作业和结构镜像。
| 类别 | 自托管集成运行时(SHIR) | 本地数据网关 (OPDG) |
|---|---|---|
| 支持的服务 | - Azure 数据工厂 - Azure 机器学习工作室 - Azure Synapse Analytics - Azure Purview |
- Power BI - Power Apps - Power Automate - Azure Analysis Services - 逻辑应用 - Fabric数据流 Gen2 - 构造管道 - 构造复制作业 - 结构镜像 |
| 安装与注册 | - 按密钥注册 - 在服务模式下运行 |
- 已注册到 Microsoft Entra ID 帐户 - 支持用户模式 |
| 平台 | -窗户 - 支持的容器镜像 |
- 仅限 Windows - 无容器支持 |
| 代理支持 | - 支持系统和自定义代理 | - 支持自定义代理 |
| 区域绑定 | - 固定为数据工厂区域 - 无法更改默认区域 |
- 可以更改区域 |
| 自定义中继 | - 不支持 | -支持;客户可以自带中继 |
| 跨服务共享 | - 与最多 120 个数据工厂共享 - 无法在 ADF、Synapse、Purview 或 Synapse 工作区之间共享 |
- 可用于租户中的所有受支持的服务 |
| 高可用性 (HA) | - 最多 8 个节点(4 个默认值) | - 最多 10 个节点 |
| Recovery | - 需要重新安装 | - 支持的恢复密钥 |
| 负载平衡 | - 基于可用工作单元(CPU + 内存)的任务级负载均衡 | - 查询级负载均衡 - 轮循机制或随机分布选项 |
| 凭据存储 | - 本地存储在 SHIR 节点上 - 支持 Azure Key Vault |
- 集中存储在网关云服务中 - 无 Key Vault 集成 |
| 自动更新 | -支持 | - 不支持 |
| 连接器扩展性 | - 不支持 | -支持 |
| 交互式创作 | -支持 | -支持 |
| 控制流的专用链接 | -支持 | - 不支持 |
| 版本控制 | - 每月发布两个版本,其中一个通过自动更新推送 - 支持过去 12 个月的发布 |
- 每月一个版本 - 支持最近 6 个版本 |
| CPU 和内存限制 | - 不支持 | -支持 |
| 吞吐量限制 | - 无硬限制;依赖于网络带宽 | 服务特定的限制: Power Apps/Power Automate/逻辑应用: - 写入:2 MB 有效负载限制 - 读取:2 MB 请求限制、8 MB 压缩响应限制 - GET 请求 URL 限制:2,048 个字符 Power BI 直接查询:16 MB 未压缩的响应限制 |
ADF 托管虚拟网络与 Fabric 虚拟网络数据网关对比
Azure 数据工厂(ADF)托管虚拟网络和 Microsoft Fabric 虚拟网络(虚拟网络)数据网关都有助于安全地连接到数据源,而无需将其公开给公共 Internet。 虽然这两个选项都支持云工作负载的专用连接,但它们在设置方式、管理云工作负载的人员以及支持哪些服务方面有所不同。
ADF 托管 VNET
Microsoft拥有和管理网络环境。 获得简单的设置,但无法控制网络设置或防火墙规则。Fabric VNET 数据网关
在自己的 Azure 虚拟网络中部署网关。 这样就可以完全控制网络、防火墙和缩放。 你决定网关连接到您的资源的方式,并管理所有网络设置。
使用下表比较主要差异,并选择适合工作负荷和治理需求的选项。
| 类别 | ADF 托管虚拟网络 | Fabric 虚拟网络数据网关 |
|---|---|---|
| 支持的服务 | Azure 数据工厂和 Synapse 管道。 | Microsoft Fabric 数据流 Gen2、Fabric 数据管道、Fabric 复制作业、Fabric 镜像、Power BI 语义模型和 Power BI 分页报表 |
| VNET 所有权 | Microsoft托管的虚拟网络(客户不控制网络)。 | 客户管理的虚拟网络(客户已完全控制)。 |
| 私有终结点 | 由 ADF 自动创建和管理受支持服务(Azure 存储、SQL DB 等)。 | 客户将虚拟网络网关配置为将 Fabric 工作负载连接到其虚拟网络中的资源。 |
| 网络控制 | 受限 - 客户只能将虚拟网络集成运行时加入专用终结点。 | 完全控制 — 客户在自己的虚拟网络中配置防火墙、NSG 规则、路由。 |
| 安装/部署 | 无需安装;完全由隐藏虚拟网络中的Microsoft管理。 | 需要将虚拟网络数据网关部署到客户的虚拟网络中。 |
| 高可用性 | 由 Microsoft 托管、自动缩放的在 ADF 的虚拟网络内部。 启用 TTL 时切换到保留模式。 | 支持缩放和 HA(基于节点的群集),但在客户管理的虚拟网络中运行。 最多支持 7 个节点。 |
Fabric Data Factory的关键特性
在 Fabric 数据工厂中,生成管道、数据流和其他数据工厂项变得特别简单和快速,因为微软革命性的 AI 功能 Co-Pilot 的原生集成。 借助 Copilot for 数据工厂,可以使用自然语言轻松定义数据集成项目。
原生湖仓与数据仓库集成
Fabric 数据工厂的最大优点之一是它如何与数据平台连接。 Lakehouse 和数据仓库在数据流程中既作为数据源又作为目标,这使得构建集成数据项目变得轻而易举。
使用 Office 365 的智能电子邮件通知
需要让团队了解最新情况吗? 借助 Office 365 Outlook 活动,你可以发送有关管道运行、活动状态和结果的自定义电子邮件通知,所有这些通知都是使用简单的配置。 不再经常检查仪表板或编写自定义通知代码。
简化的数据连接体验
Fabric 的现代化 获取数据体验可让你快速设置复制管道并创建新连接。 你将花费更少的时间进行配置,而有更多时间将数据传输到需要的地方。
CI/CD 体验中的易用性改进
在 Fabric 中,CI/CD 体验比 Azure 数据工厂或 Synapse 更轻松、更灵活。 Fabric 中的 CI/CD 和 ARM 模板之间没有连接,因此可以轻松挑选 Fabric 工作区的各个部分进行签入、签出、验证和协作。 在 ADF 和 Synapse 中,CI/CD 的唯一选择是使用自己的 Git 存储库。 但是,在 Fabric 中,可以选择使用不需要自带外部 Git 存储库的内置部署管道功能。
更高级别的监控和观测
在 Fabric Data Factory 中的监控体验,您会真正感受到不同。 监控中心为您提供所有工作负载的完整视图,并且可以深入分析任何活动以获取详细见解。 跨工作区分析是内置的,因此你可以在整个组织中看到大局。
在对复制活动进行故障排除时,您会喜欢详细分解视图。 选择“运行详细信息”按钮(眼镜图标)以查看所发生的情况。 持续时间细目显示每个阶段花费的时间,从而使性能优化更加轻松。
快速流水线复制
需要创建类似的管道? “ 另存为 ”功能允许以秒为单位复制任何现有管道。 它非常适合用于创建开发版本、测试变体或设置类似的工作流。
相关内容
有关详细信息,请参阅以下资源: