什么是 Microsoft Fabric 中的数据工厂？

Microsoft Fabric 中的数据工厂可帮助你解决业务最艰难的挑战之一：将分散的数据转化为有用的见解。

组织的数据位于许多不同的位置：数据库、文件、云服务和旧系统。这使得很难全面了解你的业务。数据工厂连接到 170 多个数据源，包括多云环境和本地网关的混合设置。它可帮助你大规模移动和转换数据，将其转换为适用于分析和决策的格式。

Microsoft Fabric 中的数据集成堆栈示意图。

无论你是构建第一个数据分析策略的业务用户，还是创建复杂的工作流的开发人员，你都会找到合适的工具：

将数据汇集在一起
进行清理
使其准备好在 Lakehouse 或数据仓库中进行分析
数据工作流自动化

什么是数据集成？

数据集成是将战略数据汇集在一起的过程，因此你可以访问和分析它。这是任何想要做出数据驱动决策的业务的关键部分。

有许多方法可以集成数据，但最常见的策略之一是 ETL。 ETL 代表提取、转换、加载。它从许多不同的源获取信息，将其转换为可以分析的格式，并将其加载到常见的目标系统进行分析或报告。在企业的数据平台中实现 ETL 过程时，它会提高数据一致性、质量和可访问性。

下面是每个阶段的作用：

提取：从源读取数据并将其移动到中央存储位置。源可以是数据库、文件、API、网站等。
转换：清理、扩充数据并将数据转换为易于分析的格式。例如，你可能想要将 SQL 数据库中的销售数据与扫描的历史销售文档进行比较。提取数据后，需要从每个源转换数据，使其格式相同，检查损坏或重复项，并将数据合并到单个数据集中。
加载：将转换后的数据写入目标系统，例如数据仓库或数据湖。在目标系统中，您可以对数据运行查询和生成报告。

ETL 还是 ELT？

处理数据时，移动和转换数据的方式很重要，每个组织都需要有不同的需求。例如：ETL（提取、转换、加载）和 ELT（提取、加载、转换）。每个项都有优势，具体取决于性能、可伸缩性和成本需求。

ETL：在将数据加载到其目标之前对其进行转换。当需要在数据流动过程中进行清理、标准化或丰富化时，这很有效。例如，使用 Data Factory 的第二代数据流功能，在将数据加载到仓库或 Lakehouse 前，进行大规模转换。

ELT：首先加载原始数据，然后在存储位置进行转换。此方法使用分析引擎（如 Fabric 的 OneLake、Spark Notebook 或基于 SQL 的工具）的强大功能。 ELT 适用于处理具有新式云规模计算的大型数据集。

Fabric Data Factory 支持这两者。您可以：

生成经典 ETL 管道，以确保数据的质量和准备状态
使用 ELT 工作流利用集成的计算和存储进行大规模转换
将这两种方法合并在同一解决方案中，实现灵活性

数据工厂是一种功能强大的数据集成解决方案

数据工厂连接到数据、移动数据、转换数据，并从一个位置协调数据移动和转换任务。你决定哪种策略最适合你的业务，数据工厂提供了工具来完成它。

连接到数据：无论是在本地、云中还是在多云环境中，数据工厂都连接到数据源和目标。它支持各种数据源，包括数据库、数据湖、文件系统、API 等。有关支持的数据源和目标的完整列表，请参阅可用的连接器。

移动数据：数据工厂提供了多种方法，用于将数据从源移动到目标，或根据需求轻松访问现有数据。

复制作业 - 首选解决方案，用于简化数据移动，支持多个交付风格，包括大容量复制、增量复制和更改数据捕获（CDC）复制。它还提供灵活性，可以处理从许多源到许多目标的各种场景——全部通过直观且易于使用的体验。
复制活动 - 在任何规模上将数据从一个位置移到另一个位置，具有广泛的自定义、对各种源和目标的支持，以及手动控制并行复制以提高性能。
镜像 - 在 Microsoft Fabric 的 OneLake 中创建业务数据库的近实时副本，以便简化分析和报告过程。

请参阅我们的数据移动决策指南，帮助你为方案选择合适的数据移动方法。

转换：数据工厂提供活动，以连接到您的自定义转换脚本或功能强大的数据流设计器。

管道活动 - Fabric 笔记本、HDInsight 活动、Spark 作业定义、存储过程、SQL 脚本等。通过这些活动，可以运行自定义代码或脚本来转换数据。
数据流第 2 代 - 使用具有 300 多个转换的低代码接口转换数据。可以执行联接、聚合、数据清理、自定义转换等。
dbt 作业 - Microsoft Fabric 中的 dbt 作业直接在 Fabric 中启用基于 SQL 的数据转换。它们提供简单的无代码设置，用于在 Fabric 数据仓库之上生成、测试和部署 dbt 模型。

业务流程协调：数据工厂允许创建可在单个工作流中运行多个数据移动、转换和其他活动的管道。

将管道安排在特定时间运行，或根据事件触发。
管道可以包括控制流逻辑（如循环和条件），以处理复杂的工作流，并使用简单的低代码管道设计器 UI 协调所有数据处理。
如果想要在代码中表达业务流程进程，Fabric 数据工厂会与 Apache Airflow 集成，以使用 Python 生成用于业务流程的 DAG。

人工智能驱动的数据集成

AI 贯穿于 Data Factory，帮助你以更少的努力完成更多工作。借助 Copilot for 数据工厂，可以使用自然语言设计、编辑和管理管道和数据流。可以键入纯英语提示，Copilot 将其转换为工作 ETL 步骤。

Copilot 还汇总了现有的数据流查询和管道，以便快速理解它们的功能。如果遇到错误，Copilot 会解释出错的原因，并建议解决问题的方法。

有关详细信息，请参阅在 Data Factory 工作负载中的 Fabric Copilot。

你需要什么才能开始？

具有有效订阅的 Microsoft Fabric 租户帐户。如果没有帐户，可以创建一个免费帐户。
已启用 Microsoft Fabric 的工作区。了解如何创建工作区。

如果我们已经使用 Azure 数据工厂，该怎么办？

Microsoft Fabric 中的数据工厂是下一代 Azure 数据工厂，旨在通过更简单的方法处理最复杂的数据集成挑战。

请参阅我们的比较指南，了解这两个服务之间的主要差异，以便你可以为企业做出正确的选择。

准备好迁移时，请遵循我们的迁移指南。

有关详细信息，要了解并开始使用 Microsoft Fabric，请按照以下指南进行操作：

引导式数据工厂实验室 - Fabric 中的数据工厂示范演示
可以连接到什么？ - 数据工厂的所有可用源和目标
端到端数据工厂教程 - 我们将指导你完成整个 ETL 过程，从数据引入到转换和加载到目标系统

反馈

此页面是否有帮助？

Last updated on 2025-11-19