使用 Azure 流分析将 Azure 存储 Blob 中的数据流式传输到 Azure Data Lake Storage Gen1

本文介绍如何使用 Azure Data Lake Storage Gen1 作为 Azure 流分析作业的输出。 本文演示了从 Azure 存储 Blob(输入)读取数据的简单方案,并将数据写入 Data Lake Storage Gen1(输出)。

先决条件

在开始阅读本教程前,必须具有:

  • Azure 订阅。 请参阅 “获取 Azure 免费试用版”。

  • Azure 存储帐户。 你将使用此帐户中的 Blob 容器为流分析作业输入数据。 在本教程中,假设你有一个名为 storageforasa 的存储帐户和名为 storageforasacontainer 的帐户中的容器。 创建容器后,将示例数据文件上传到该容器。

  • Data Lake Storage Gen1 帐户。 请按照 使用 Azure 门户开始使用 Azure Data Lake Storage Gen1 中的说明进行操作。 假设你有一个名为 myadlsg1 的 Data Lake Storage Gen1 帐户。

创建流分析作业

首先创建包含输入源和输出目标的流分析作业。 在本教程中,源是 Azure Blob 容器,目标为 Data Lake Storage Gen1。

  1. 登录到 Azure 门户

  2. 在左窗格中,单击 “流分析作业”,然后单击“ 添加”。

    创建流分析作业

    注释

    请确保在存储帐户所在的同一区域中创建作业,否则在区域之间移动数据会产生额外的费用。

为作业创建 Blob 输入

  1. 打开流分析作业的页面,在左窗格中单击“ 输入 ”选项卡,然后单击“ 添加”。

    “流分析作业”面板的屏幕截图,其中显示了“输入”选项和“添加流输入”选项。

  2. “新建输入 ”边栏选项卡上,提供以下值。

    新输入窗口的 Blob 存储屏幕截图。

    • 对于 输入别名,请输入作业输入的唯一名称。

    • 对于 源类型,请选择 “数据流”。

    • Source,选择 Blob storage

    • 选择 订阅,然后选择使用当前订阅中的 Blob 存储

    • 对于 存储帐户,请选择作为先决条件的一部分创建的存储帐户。

    • 对于 容器,请选择在所选存储帐户中创建的容器。

    • 对于 事件序列化格式,请选择 CSV

    • 对于 分隔符,请选择 选项卡

    • 对于 编码,请选择 UTF-8

      单击“ 创建”。 门户现在添加输入并测试其连接。

为作业创建 Data Lake Storage Gen1 输出

  1. 打开流分析作业的页面,单击“ 输出 ”选项卡,单击“ 添加”,然后选择 “Data Lake Storage Gen1”。

    流分析作业边栏的选项卡”屏幕截图,其中标出了“输出”选项、“添加”选项和“Data Lake Storage Gen 1”选项。

  2. “新建输出 ”边栏选项卡上,提供以下值。

    Data Lake Storage Gen 1 - 新的输出面板的屏幕截图,其中显示了“授权”选项。

    • 对于 输出别名,请输入作业输出的唯一名称。 这是查询中使用的友好名称,用于将查询输出定向到此 Data Lake Storage Gen1 帐户。
    • 系统会提示你授权访问 Data Lake Storage Gen1 帐户。 单击“ 授权”。
  3. “新建输出 ”边栏选项卡上,继续提供以下值。

    Data Lake Storage Gen 1 - 新的输出刀片的屏幕截图。

    • 对于 帐户名称,请选择您已创建的 Data Lake Storage Gen1 帐户,以便将作业输出发送到该帐户。

    • 对于 路径前缀模式,输入用于在指定的 Data Lake Storage Gen1 帐户中写入文件的文件路径。

    • 对于 日期格式,如果在前缀路径中使用了日期令牌,则可以选择组织文件的日期格式。

    • 对于 时间格式,如果在前缀路径中使用时间令牌,请指定组织文件的时间格式。

    • 对于 事件序列化格式,请选择 CSV

    • 对于 分隔符,请选择 选项卡

    • 对于 编码,请选择 UTF-8

      单击“ 创建”。 现在,门户将输出添加到系统并测试连接。

运行流分析作业

  1. 若要运行流分析作业,必须从 “查询 ”选项卡运行查询。在本教程中,可以通过将占位符替换为作业输入和输出别名来运行示例查询,如下面的屏幕截图所示。

    运行查询

  2. 单击屏幕顶部的 “保存 ”,然后在“ 概述 ”选项卡中单击“ 开始”。 从对话框中,选择 “自定义时间”,然后设置当前日期和时间。

    设置作业时间

    单击“ 开始” 以启动作业。 启动作业最多可能需要几分钟时间。

  3. 若要触发作业以从 Blob 中选择数据,请将示例数据文件复制到 Blob 容器。 可以从 Azure Data Lake Git 存储库获取示例数据文件。 在本教程中,让我们复制文件 vehicle1_09142014.csv。 可以使用各种客户端(例如 Azure 存储资源管理器)将数据上传到 Blob 容器。

  4. 在“ 概述 ”选项卡的 “监视”下,查看数据的处理方式。

    监视作业

  5. 最后,可以验证作业输出数据是否在 Data Lake Storage Gen1 帐户中可用。

    验证输出

    在“数据资源管理器”窗格中,请注意,输出将写入 Data Lake Storage Gen1 输出设置中指定的文件夹路径(streamanalytics/job/output/{date}/{time})。

另请参阅