快速入门:使用 Azure Synapse Pipelines 引入数据(预览版)

重要

Azure Synapse Analytics 数据资源管理器(预览版)将于 2025 年 10 月 7 日停用。 在此日期之后,Synapse 数据资源管理器上运行的工作负荷将被删除,关联的应用程序数据将丢失。 强烈建议迁移到 Microsoft Fabric 中的 Eventhouse

Microsoft云迁移工厂(CMF)计划旨在帮助客户迁移到 Fabric。 该计划向客户免费提供动手键盘资源。 这些资源在 6-8 周内分配,并具有预定义和同意的范围。 客户提名可以通过 Microsoft 帐户团队接受,或者直接提交《帮助请求》给 CMF 团队。

本快速入门介绍如何将数据从数据源加载到 Azure Synapse 数据资源管理器池。

先决条件

  • 一份 Azure 订阅。 创建免费 Azure 帐户

  • 使用 Synapse StudioAzure 门户创建数据资源管理器池

  • 创建“Data Explorer”数据库。

    1. 在 Synapse Studio 的左窗格中,选择“数据”。

    2. 选择+(添加新资源)>数据探索池,并使用以下信息:

      设置 建议值 Description
      池名称 contosodataexplorer 要使用的数据资源管理器池的名称
      Name TestDatabase 该数据库名称在群集中必须是唯一的。
      默认保留期 365 保证数据可供查询的时间跨度(以天为单位)。 时间跨度从引入数据时算起。
      默认缓存期 31 将频繁查询的数据保存在 SSD 存储或 RAM 中(而不是长期存储)的时间跨度(以天为单位)。
    3. 选择“创建”以创建数据库。 创建过程通常需要不到一分钟的时间。

  • 创建表

    1. 在 Synapse Studio 的左侧窗格中,选择“开发”。
    2. KQL 脚本下,选择+(添加新资源)>KQL 脚本。 可在右侧窗格中命名脚本。
    3. 在“连接到”菜单中,选择“contosodataexplorer”。
    4. 在“使用数据库”菜单中,选择“TestDatabase”。
    5. 粘贴以下命令,然后选择“运行”以创建表。
    .create table StormEvents (StartTime: datetime, EndTime: datetime, EpisodeId: int, EventId: int, State: string, EventType: string, InjuriesDirect: int, InjuriesIndirect: int, DeathsDirect: int, DeathsIndirect: int, DamageProperty: int, DamageCrops: int, Source: string, BeginLocation: string, EndLocation: string, BeginLat: real, BeginLon: real, EndLat: real, EndLon: real, EpisodeNarrative: string, EventNarrative: string, StormSummary: dynamic)
    

    小窍门

    确认是否已成功创建数据表。 在左侧窗格中,选择数据,选择contosodataexplorer的更多菜单,然后选择刷新。 在“contosodataexplorer”下,展开“表”,并确保“StormEvents”表已显示在列表中。

  • 获取查询和数据引入终结点。 需要查询终结点来配置链接服务。

    1. 在 Synapse Studio 的左侧窗格中,选择管理>数据资源管理器池

    2. 选择要用于查看其详细信息的数据资源管理器池。

      数据资源管理器池屏幕的屏幕截图,其中显示了现有池的列表。

    3. 记下查询和数据引入终结点。 在配置到数据资源管理器池的连接时,请使用查询终结点作为群集。 为数据引入配置 SDK 时,请使用数据引入终结点。

      “数据资源管理器池属性”窗格的屏幕截图,其中显示了“查询和数据引入 URI 地址”。

创建链接服务

在 Azure Synapse Analytics 中,链接服务用于定义与其他服务的连接信息。 在本部分中,你将为 Azure 数据资源管理器创建链接服务。

  1. 在 Synapse Studio 的左侧窗格中,选择“ 管理>链接服务”。

  2. 选择“+ 新建”

    链接服务屏幕的屏幕截图,其中显示了现有服务的列表,并突出显示了“添加新”按钮。

  3. 从库中选择 Azure 数据资源管理器 服务,然后选择“ 继续”。

    “新建链接服务”窗格的屏幕截图,其中显示了可用服务列表,并突出显示了新的 Azure 数据资源管理器服务。

  4. 在“新建链接服务”页中,使用以下信息:

    设置 建议值 Description
    Name contosodataexplorerlinkedservice 新的 Azure 数据资源管理器链接服务的名称。
    身份验证方法 托管标识 新服务的身份验证方法。
    帐户选择方法 手动输入 指定查询终结点的方法。
    端点 https://contosodataexplorer.contosoanalytics.dev.kusto.windows.net 之前记下的查询终结点。
    数据库 TestDatabase 要用于引入数据的数据库。

    新建关联服务详细信息窗格的屏幕截图,其中显示了需要为新服务填写的字段。

  5. 选择“测试连接”以验证设置,然后选择“创建”

创建用于引入数据的管道

管道包含执行一组活动的逻辑流。 在本部分中,你将创建一个管道,其中包含一个复制活动,用于将数据从首选源引入到数据资源管理器池中。

  1. 在 Synapse Studio 的左侧窗格中,选择“ 集成”。

  2. 选择 +>“管道”。 在右侧窗格中,您可以命名您的流水线。

    显示用于创建新管道的选择的屏幕截图。

  3. 活动>移动和转换下,将 复制数据拖到管道画布上。

  4. 选择复制活动,然后转到“ ”选项卡。选择或创建新源数据集作为要从中复制数据的源。

  5. 转到“ 接收器 ”选项卡。选择“ 新建 ”以创建新的接收器数据集。

    管道复制活动的屏幕截图,其中显示了用于创建新接收器的选项。

  6. 从库中选择 Azure 数据资源管理器 数据集,然后选择“ 继续”。

  7. “设置属性 ”窗格中,使用以下信息,然后选择“ 确定”。

    设置 建议值 Description
    Name AzureDataExplorerTable 新管道的名称。
    关联服务 contosodataexplorerlinkedservice 之前创建的链接服务。
    Table StormEvents 之前创建的表。

    管道复制活动集属性窗格的屏幕截图,其中显示了新接收器需要完成的字段。

  8. 若要验证管道,请选择工具栏上的 “验证 ”。 可在页面右侧看到管道验证输出的结果。

调试和发布管道

完成管道配置后,在发布工件之前,你可以先执行调试运行,以确保一切正确。

  1. 在工具栏上选择 “调试 ”。 可以在窗口底部的“输出”选项卡中看到管道运行的状态。

  2. 管道运行成功后,在顶部工具栏中选择“ 全部发布”。 此操作将您创建的实体(数据集和管道)发布到 Synapse Analytics 服务。

  3. 等待直到您看到“已成功发布”消息。 若要查看通知消息,请选择右上角的钟按钮。

触发和监视管道

在本部分中,手动触发在上一步骤中发布的管道。

  1. 选择工具栏中的“添加触发器”,然后选择“立即触发”。 在“管道运行”页上,选择“确定”。

  2. 转到左侧边栏中的“监视器”选项卡。 此时会看到由手动触发器触发的管道运行。

  3. 管道运行成功完成后,选择 管道名称 列下的链接以查看活动运行详细信息或重新运行管道。 此示例中只有一个活动,因此列表中只看到一个条目。

  4. 有关复制操作的详细信息,请选择“活动名称”列下的“详细信息”链接(眼镜图标) 。 可以监视详细信息,如从源复制到接收器的数据量、数据吞吐量、执行步骤以及相应的持续时间和使用的配置。

  5. 若要切换回到管道运行视图,请选择顶部的“所有管道运行”链接。 选择“刷新”可刷新列表。

  6. 验证数据是否已在数据资源管理器池中正确写入。

后续步骤