什么是 Microsoft Fabric 中的数据工厂?

Microsoft Fabric 中的数据工厂可帮助你解决业务最艰难的挑战之一:将分散的数据转化为有用的见解。

组织的数据位于许多不同的位置:数据库、文件、云服务和旧系统。 这使得很难全面了解你的业务。 数据工厂连接到 170 多个数据源,包括多云环境和本地网关的混合设置。 它可帮助你大规模移动和转换数据,将其转换为适用于分析和决策的格式。

Microsoft Fabric 中的数据集成堆栈示意图。

Microsoft Fabric 中的数据工厂图表,其中显示了通过数据移动、编排和转换链接到分析和数据开发工具的连接器。 这一切都构建在 Fabric OneLake 之上,整个架构集成了 AI 驱动的智能。

无论你是构建第一个数据分析策略的业务用户,还是创建复杂的工作流的开发人员,你都会找到合适的工具:

  • 将数据汇集在一起
  • 进行清理
  • 使其准备好在 Lakehouse 或数据仓库中进行分析
  • 数据工作流自动化

什么是数据集成?

数据集成是将战略数据汇集在一起的过程,因此你可以访问和分析它。 这是任何想要做出数据驱动决策的业务的关键部分。

有许多方法可以集成数据,但最常见的策略之一是 ETL。 ETL 代表提取、转换、加载。 它从许多不同的源获取信息,将其转换为可以分析的格式,并将其加载到常见的目标系统进行分析或报告。 在企业的数据平台中实现 ETL 过程时,它会提高数据一致性、质量和可访问性。

下面是每个阶段的作用:

  • 提取:从源读取数据并将其移动到中央存储位置。 源可以是数据库、文件、API、网站等。
  • 转换:清理、扩充数据并将数据转换为易于分析的格式。 例如,你可能想要将 SQL 数据库中的销售数据与扫描的历史销售文档进行比较。 提取数据后,需要从每个源转换数据,使其格式相同,检查损坏或重复项,并将数据合并到单个数据集中。
  • 加载:将转换后的数据写入目标系统,例如数据仓库或数据湖。 在目标系统中,您可以对数据运行查询和生成报告。

ETL 还是 ELT?

处理数据时,移动和转换数据的方式很重要,每个组织都需要有不同的需求。 例如:ETL(提取、转换、加载)和 ELT(提取、加载、转换)。 每个项都有优势,具体取决于性能、可伸缩性和成本需求。

ETL:在将数据加载到其目标之前对其进行转换。 当需要在数据流动过程中进行清理、标准化或丰富化时,这很有效。 例如,使用 Data Factory 的第二代数据流功能,在将数据加载到仓库或 Lakehouse 前,进行大规模转换。

ELT:首先加载原始数据,然后在存储位置进行转换。 此方法使用分析引擎(如 Fabric 的 OneLake、Spark Notebook 或基于 SQL 的工具)的强大功能。 ELT 适用于处理具有新式云规模计算的大型数据集。

Fabric Data Factory 支持这两者。 您可以:

  • 生成经典 ETL 管道,以确保数据的质量和准备状态
  • 使用 ELT 工作流利用集成的计算和存储进行大规模转换
  • 将这两种方法合并在同一解决方案中,实现灵活性

数据工厂是一种功能强大的数据集成解决方案

数据工厂连接到数据、移动数据、转换数据,并从一个位置协调数据移动和转换任务。 你决定哪种策略最适合你的业务,数据工厂提供了工具来完成它。

连接到数据:无论是在本地、云中还是在多云环境中,数据工厂都连接到数据源和目标。 它支持各种数据源,包括数据库、数据湖、文件系统、API 等。 有关支持的数据源和目标的完整列表,请参阅 可用的连接器

移动数据:数据工厂提供了多种方法,用于将数据从源移动到目标,或根据需求轻松访问现有数据。

  • 复制作业 - 首选解决方案,用于简化数据移动,支持多个交付风格,包括大容量复制、增量复制和更改数据捕获(CDC)复制。 它还提供灵活性,可以处理从许多源到许多目标的各种场景——全部通过直观且易于使用的体验。
  • 复制活动 - 在任何规模上将数据从一个位置移到另一个位置,具有广泛的自定义、对各种源和目标的支持,以及手动控制并行复制以提高性能。
  • 镜像 - 在 Microsoft Fabric 的 OneLake 中创建业务数据库的近实时副本,以便简化分析和报告过程。

请参阅 我们的数据移动决策指南 ,帮助你为方案选择合适的数据移动方法。

转换:数据工厂提供活动,以连接到您的自定义转换脚本或功能强大的数据流设计器。

  • 管道活动 - Fabric 笔记本、HDInsight 活动、Spark 作业定义、存储过程、SQL 脚本等。 通过这些活动,可以运行自定义代码或脚本来转换数据。
  • 数据流第 2 代 - 使用具有 300 多个转换的低代码接口转换数据。 可以执行联接、聚合、数据清理、自定义转换等。
  • dbt 作业 - Microsoft Fabric 中的 dbt 作业直接在 Fabric 中启用基于 SQL 的数据转换。 它们提供简单的无代码设置,用于在 Fabric 数据仓库之上生成、测试和部署 dbt 模型。

业务流程协调:数据工厂允许创建可在单个工作流中运行多个数据移动、转换和其他活动的管道。

人工智能驱动的数据集成

AI 贯穿于 Data Factory,帮助你以更少的努力完成更多工作。 借助 Copilot for 数据工厂,可以使用自然语言设计、编辑和管理管道和数据流。 可以键入纯英语提示,Copilot 将其转换为工作 ETL 步骤。

Copilot 还汇总了现有的数据流查询和管道,以便快速理解它们的功能。 如果遇到错误,Copilot 会解释出错的原因,并建议解决问题的方法。

有关详细信息,请参阅 在 Data Factory 工作负载中的 Fabric Copilot

你需要什么才能开始?

如果我们已经使用 Azure 数据工厂,该怎么办?

Microsoft Fabric 中的数据工厂是下一代 Azure 数据工厂,旨在通过更简单的方法处理最复杂的数据集成挑战。

请参阅我们的比较指南,了解 这两个服务之间的主要差异,以便你可以为企业做出正确的选择。

准备好迁移时,请遵循 我们的迁移指南。

有关详细信息,要了解并开始使用 Microsoft Fabric,请按照以下指南进行操作: