你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

如何使用 Azure 数据工厂复制活动将数据引入 Fabric

Azure 数据工厂(ADF)和 Azure Synapse Analytics 中的 Microsoft Fabric Lakehouse 连接器支持对 Microsoft Fabric Lakehouse 的读写操作,包括表和文件。 此连接器使你能够使用现有的 ADF 和 Synapse 管道和映射数据流来与 Fabric Lakehouses 交互。 本文可帮助配置 Microsoft Fabric 以允许服务主体身份验证,然后演示 Lakehouse 连接器,以便读取和写入 Fabric Lakehouse。

有关 Microsoft Fabric Lakehouse 的详细信息,请参阅 什么是 lakehouse?

Azure 数据工厂 "Lakehouse" 连接器

新的 Lakehouse 链接服务连接器和两个新的数据集现在可供想要开始读取和写入到 Microsoft Fabric Lakehouse 的客户使用。 有关 Lakehouse 连接器的完整指南,请参阅 Microsoft Fabric Lakehouse 文件(预览版)中的复制和转换数据

Authentication

Azure 数据工厂链接服务

Microsoft Fabric Lakehouse 连接器需要服务主体(SPN)或应用程序注册用于身份验证。 若要开始,必须创建新的 SPN 或使用现有 SPN。 Microsoft Fabric 允许 SPN 访问特定安全组或整个组织。 如果特定安全组是组织使用的选项,则 Lakehouse 连接器中使用的 SPN 必须属于添加到允许列表的安全组。

Note

无须 Power BI API 权限(委派的)

对 Power BI API 的访问

在 Power BI 管理门户中,Power BI 租户管理员必须启用 “允许服务主体”使用 Power BI API。 必须在设置允许服务主体使用 Power BI API中指定安全组,或者可以为整个组织启用。

有关完整指南,请参阅 使用服务主体和应用程序机密在嵌入式分析应用程序中嵌入 Power BI 内容

Note

将安全组分配到工作区时,由于 Azure 中的权限缓存,可能会延迟服务主体授予对工作区的访问权限。 如果需要立即访问,可以使用 PowerShell 强制刷新用户的权限。 为此,请以管理员身份打开 PowerShell,然后运行以下命令:

Install-Module -Name MicrosoftPowerBIMgmt
Connect-PowerBIServiceAccount -Tenant '<TENANT ID>' -ServicePrincipal -Credential (Get-Credential)
Get-PowerBIWorkspace
Invoke-PowerBIRestMethod -URL 'https://api.powerbi.com/v1.0/myorg/RefreshUserPermissions' -Method Post -Body ''
Get-PowerBIWorkspace

Workspace access

添加安全组后,还必须将安全组或服务主体作为 成员、参与者或管理员添加到每个工作区。有关更多详细信息 ,请参阅授予用户对工作区的访问权限

演示:设置身份验证

应用注册服务主体

创建或使用现有的应用注册服务主体 (SPN)。 请按照使用 Microsoft Entra ID 注册应用程序并创建服务主体中的步骤进行操作。

Note

无需分配重定向 URI。

显示新服务主体详细信息的屏幕截图。

Security group

创建新的Microsoft Entra 安全组或使用现有安全组,然后将 SPN 添加到其中。 按照 “创建基本组”中的步骤作,添加成员 以创建Microsoft Entra 安全组。

显示将成员添加到安全组的位置的屏幕截图。

Power BI 管理门户

Power BI 管理门户中,导航到开发人员设置,然后选择 “允许服务主体使用 Power BI API”,然后启用它。 然后,从上一步添加安全组。 有关 Power BI 管理门户租户设置的详细信息,请参阅 租户设置

显示 Power BI 管理门户的屏幕截图,其中已展开和启用“允许服务主体使用 Power BI API”选项。

Note

请确保 用户可以使用 Fabric 外部的应用访问 OneLake 中存储的数据 的设置。 请参阅 “允许在 Fabric 外部运行的应用通过 OneLake 访问数据”。

Workspace

将 SPN 或服务组添加到具有 成员参与者管理员 访问权限的工作区。

Azure 数据工厂:链接服务

Azure 数据工厂中,创建新的 Microsoft Fabric Lakehouse 链接服务。

Note

若要查找工作区和 Lakehouse ID,请访问您的 Fabric Lakehouse 并从 URL 中找出它。 例如:https://./fabricgroups/Workspace ID/lakehouses/Lakehouse ID<>><>

Azure 数据工厂:数据集

创建引用 Microsoft Fabric Lakehouse 链接服务的数据集。

Note

如果表尚不存在,则为“导入架构”选项选择“无”,并手动指定新的表名称。

显示“新建数据集”对话框的屏幕截图,其中选择了Microsoft Fabric Lakehouse 表数据集类型。

显示“数据集设置属性”对话框的屏幕截图,其中“导入架构”选项设置为“无”。

演示:使用 ADF 管道写入 Fabric Lakehouse 表

Source

创建新管道并将复制活动添加到管道画布。 从“复制”活动的 “源 ”选项卡中,选择要移动到 Lakehouse 表的源数据集。 在此示例中,我们将引用 Azure Data Lake Storage (ADLS) Gen2 帐户中的 .csv 文件。

显示复制活动的“源设置”选项卡的配置屏幕截图,其中选择了源数据集的 .csv。

Sink

导航到复制活动的汇选项卡,然后选择之前创建的 Fabric Lakehouse 数据集。

屏幕截图显示了选择之前创建的 Fabric Lakehouse 数据集的过程。

运行管道

运行管道,将 .csv 数据移动到 Fabric Lakehouse 表。

显示运行管道的结果的屏幕截图。

演示:通过 ADF 管道从 Fabric Lakehouse 上的表中读取数据

在上面的部分中,我们演示了如何使用 ADF 写入 Fabric Lakehouse 表。 现在,我们通过类似的流程从 Fabric 数据湖仓库表中读取数据,并将其写入 Azure 数据湖存储 (ADLS) Gen2 中的 Parquet 文件。

Source

创建新管道并将复制活动添加到管道画布。 从复制活动的 “源 ”选项卡中,选择之前创建的 Fabric Lakehouse 数据集。

显示前面创建的 Lakehouse 数据源的选择和预览的屏幕截图。

Sink

导航到复制活动的接收端选项卡并选择目标的数据集。 在此示例中,目标是作为 Parquet 文件的 Azure Data Lake Storage (Gen2)。

显示选择 ADLS Gen2 接收器的屏幕截图。

运行管道

运行管道,将数据从 Fabric Lakehouse 表移到 ADLS Gen2 中的 Parquet 文件中。

显示运行管道以将数据从 Fabric Lakehouse 导入 ADLS Gen2 的结果的屏幕截图。

检查 ADLS Gen2 中的 Parquet 文件

Fabric Lakehouse 表中的数据现在以 Parquet 文件的形式在 ADLS Gen2 中提供。

显示管道生成的 Parquet 文件的屏幕截图。

Summary

在本部分中,我们了解了湖屋连接器需要使用服务主体对 Microsoft Fabric 湖屋进行身份验证,然后查看了从 Azure 数据工厂管道对湖屋执行读取和写入操作的示例。 Azure 数据工厂映射数据流、Azure Synapse Analytics 和 Azure Synapse Analytics 映射数据流中也提供了此连接器和功能。

什么是 Lakehouse?