在 Azure 数据工厂中,数据复制作业能够实现数据传输,而无需创建 Fabric 管道。 它将各种复制模式(例如批量或批处理、增量或连续复制)组合到统一体验中。 如果只需要复制数据而不进行转换,请使用复制作业。
本快速入门指南介绍如何使用复制作业以增量方式将数据从 Fabric Warehouse 表复制到 Fabric Lakehouse 表。
想要了解更多有关复制作业的一般信息,请参阅:
先决条件
在开始之前,请完成以下先决条件:
具有有效订阅的 Microsoft Fabric 租户。 可以 创建免费帐户。
仓库中包含增量列(如时间戳或增加整数列)的表,增量列可用作变更检测的水印。 还可以使用此脚本创建示例员工表:
CREATE TABLE dbo.Employee ( EmployeeID INT NOT NULL, FirstName VARCHAR(40), LastName VARCHAR(40), Position VARCHAR(60), ModifiedDate DATETIME2(3) );插入示例数据:
INSERT INTO dbo.Employee (EmployeeID, FirstName, LastName, Position, ModifiedDate) VALUES (1, 'Alice', 'Smith', 'Data Analyst', SYSDATETIME()), (2, 'Bob', 'Johnson', 'Engineer', SYSDATETIME()), (3, 'Carol', 'Lee', 'Manager', SYSDATETIME()), (4, 'David', 'Wong', 'Data Scientist', SYSDATETIME()), (5, 'Eve', 'Garcia', 'Product Owner', SYSDATETIME());
创建复制作业
在 Microsoft Fabric 工作区 中选择 “+ 新建项”,然后在“ 获取数据 ”下选择“ 复制作业”。
为复制作业命名,然后选择“ 创建”。
配置增量复制
在复制作业向导的“选择数据源”页中,选择你的 Fabric 仓库。
在“ 选择数据 ”页中,选择包含增量列的源仓库表。 选择“下一步”。
在“选择数据目标”页中,在“新建结构”项下选择 Lakehouse。
为新的 Lakehouse 提供一个名称,然后选择“ 创建并连接”。
在“ 映射到目标 ”页上,选择“ 表”,根据需要重命名目标表,然后选择“ 下一步”。
在 “设置” 步骤中,选择 “增量复制 ”作为复制作业模式。 选择用作增量列的列。 对于示例表,为“ModifiedDate”。
运行和监视复制作业
在 “审阅 + 保存 ”页上,验证设置。 将默认选项保留 为“立即启动数据传输 ”,并根据需要每隔 1 分钟设置复制作业运行一次,以便更快地进行更改跟踪。
保存复制作业,并通过选择 “保存 + 运行 ”按钮启动第一个执行。
成功保存复制作业项后,它将启动第一次运行,从源表引入初始数据。
使用 “复制作业”面板 或 监视中心 监视进度。 详细了解如何监视复制作业。
使用新数据模拟更改
如果使用示例表,请使用以下 SQL 查询将新行插入到 Source Fabric Warehouse 表中。
INSERT INTO dbo.Employee (EmployeeID, FirstName, LastName, Position, ModifiedDate) VALUES (6, 'John', 'Miller', 'QA Engineer', SYSDATETIME()); INSERT INTO dbo.Employee (EmployeeID, FirstName, LastName, Position, ModifiedDate) VALUES (7, 'Emily', 'Clark', 'Business Analyst', SYSDATETIME()); INSERT INTO dbo.Employee (EmployeeID, FirstName, LastName, Position, ModifiedDate) VALUES (8, 'Michael', 'Brown', 'UX Designer', SYSDATETIME());复制作业使用增量数据列在下次计划的运行中检测这些行。
下一次运行后,请查询目标 Fabric Lakehouse 表,以确认该表是否已被移动。