Dataflow Gen2 中的快速复制功能

快速复制有助于更快地在数据流 Gen2 中移动大量数据。 当你需要处理 TB 的数据时,将其视为切换到更强大的引擎。

使用数据流时,首先需要引入数据,然后对其进行转换。 使用 SQL DW 计算横向扩展数据流后,可以大规模转换数据。 快速复制通过提供管道复制活动强大的后端来为您带来流畅的数据流体验,从而处理数据引入部分。

下面是其工作原理:启用快速复制后,数据流会在数据大小通过特定阈值时自动切换到更快的后端。 生成数据流时无需更改任何内容。 数据流刷新后,可以通过查看其中列出的 引擎 类型来检查刷新历史记录,以查看是否使用了快速复制。

如果启用“需要快速复制”选项,若无法使用快速复制,数据流刷新将停止。 这有助于避免等待超时,在调试时非常有用。 可以使用查询步骤窗格中的快速复制指示器来检查查询是否可以使用快速复制运行。

显示快速复制指示器在查询步骤窗格中出现的位置的屏幕截图。

Prerequisites

在使用快速复制之前,需要:

  • 构造容量
  • 对于文件数据:存储在 Azure Data Lake Storage(ADLS)Gen2 或 Azure Blob 存储中的 CSV 或 Parquet 文件,至少为 100 MB。
  • 对于数据库(包括 Azure SQL DB 和 PostgreSQL):数据源中 500 万行或更多数据

Note

可以通过选择 “需要快速复制 ”设置来绕过阈值来强制快速复制。

连接器支持

快速复制适用于以下数据流 Gen2 连接器:

  • ADLS Gen2
  • Blob 存储
  • Azure SQL DB
  • Lakehouse
  • PostgreSQL
  • 本地 SQL Server
  • Warehouse
  • Oracle
  • Snowflake
  • Fabric SQL 数据库

转换限制

连接到文件源时,复制活动仅支持以下转换:

  • 合并文件
  • 选择列
  • 更改数据类型
  • 重命名列
  • 移除一列

如果需要其他转换,可以将工作拆分为单独的查询。 创建一个查询以获取数据,另一个查询引用第一个查询。 这样,你可以使用 DW 计算进行转换。

对于 SQL 源,作为本机查询的一部分的任何转换都能正常工作。

输出目标

现在,快速复制仅支持直接加载到 Lakehouse 目标。 如果想要使用不同的输出目标,可以首先将查询暂存,然后在以后的查询中引用它,并使用您首选的目标。

如何使用快速复制

下面介绍如何设置和使用快速复制:

  1. 在 Fabric 中,转到高级工作区并创建数据流 Gen2。

  2. 在新数据流的“ 开始 ”选项卡上,选择 “选项

    屏幕截图显示如何在主页选项卡中选择数据流第2代的选项。

  3. 在“ 选项 ”对话框中,选择“ 缩放 ”选项卡,然后打开 “允许使用快速复制连接器”。 完成后关闭 “选项 ”对话框。

    显示在“选项”对话框的“缩放”选项卡上启用快速复制的位置的屏幕截图。

  4. 选择 “获取数据”,选择 ADLS Gen2 源,并填写容器的详细信息。

  5. 选择“ 合并 ”按钮。

    显示突出显示“合并”选项的“预览文件夹数据”窗口的屏幕截图。

  6. 若要确保快速复制有效,请仅应用 连接器支持 部分中列出的转换。 如果需要其他转换,请先暂存数据,并在以后的查询中引用暂存查询。 将其他转换应用于引用的查询。

  7. (可选) 可以通过右键单击查询并选择 “需要快速复制”来要求快速复制查询。

    显示在查询的右键单击菜单上选择“需要快速复制”选项的屏幕截图。

  8. (可选) 现在,只能将 Lakehouse 设置为输出目标。 对于任何其他目的地,请暂存查询,并稍后在另一个可在输出到任何源的查询中引用它。

  9. 确认快速复制指示器以确保查询能够以快速复制方式运行。 如果可以, 引擎 类型会显示 CopyActivity

    屏幕截图显示刷新详细信息,表明使用了管道 CopyActivity 引擎。

  10. 发布数据流。

  11. 刷新完成后,请检查以确认使用了快速复制。

如何拆分查询以使用快速复制

处理大量数据时,可以使用快速复制将数据导入暂存区,然后使用 SQL DW 计算进行大规模数据转换,以确保实现最佳性能。

快速复制指示器可帮助你了解如何将查询拆分为两个部分:数据摄取到临时存储和使用 SQL DW 计算进行大规模转换。 尝试尽量将查询评估过程转移到快速处理,以支持数据摄取。 当快速复制指标显示剩余步骤无法通过快速复制运行时,可以启用暂存来拆分查询的其余部分。

步骤诊断指示器

Indicator Icon Description
将通过快速复制对该步骤进行评估 快速复制指示器显示,完成此步骤的查询支持快速复制。
快速复制不支持此步骤 快速复制指示器显示此步骤不支持快速复制。
您的查询中有一个或多个步骤不支持快速复制 快速复制指示器显示此查询中的一些步骤支持快速复制,而其他步骤则不支持。 若要优化,请拆分查询:黄色步骤(可能由快速复制支持)和红色步骤(不支持)。

分步指南

在 Dataflow Gen2 中完成数据转换逻辑后,快速复制指示器会评估每个步骤,以确定可以使用快速复制多少步骤来提高性能。

在此示例中,最后一步显示红色图标,这意味着快速拷贝不支持Group By步骤。 但是,具有黄色图标的所有上述步骤可能可以通过快速复制来支持。

显示第一个查询的内容的屏幕截图,最后一步为红色。

如果此时发布并运行数据流 Gen2,则不会使用快速复制引擎来加载数据。

显示查询结果的屏幕截图,其中未启用快速复制。

若要使用快速复制引擎并提高数据流 Gen2 性能,可以将查询拆分为两部分:使用 SQL DW 计算将数据引入到暂存和大规模转换。 下面介绍如何操作:

  1. 删除任何显示红色图标的变换(这表示它们不支持快速复制),以及目标(如果已定义目标)。

    显示第一个查询的屏幕截图,其中删除了不支持快速复制的任何步骤。

  2. 快速复制指示器现在显示绿色,表示剩余步骤可以使用快速复制,从而提高你的第一个查询的性能。

    右键单击第一个查询,选择“ 启用暂存”,然后再次右键单击第一个查询,然后选择“ 引用”。

    屏幕截图显示使用第二个查询引用快速复制查询所需的选择。

  3. 在新引用的查询中,重新添加“Group By”转换和目标位置(如果适用)。

  4. 发布和刷新 Dataflow Gen2。 数据流 Gen2 中现在有两个查询,总体持续时间较短。

    • 第一个查询使用快速复制将数据引入暂存区。

    • 第二个查询使用 SQL DW 计算执行大规模转换。

      显示查询结果的运行状态详细信息的屏幕截图。

    第一个查询的详细信息:

    显示数据引入结果的屏幕截图。

    第二个查询的详细信息:

    显示转换步骤结果的屏幕截图。

已知的限制

下面是快速复制的当前限制:

  • 需要本地数据网关版本 3000.214.2 或更高版本才能支持快速复制。
  • 不支持固定架构。
  • 不支持基于架构的目标