在 Microsoft Fabric 中从 Lakehouse 访问已同步的 Cosmos DB 数据

Microsoft Fabric Lakehouse 是一个数据体系结构平台,用于在单个位置存储、管理和分析结构化和非结构化数据。 在本指南中,您将在 lakehouse 中访问 Microsoft Fabric 数据中镜像的 Cosmos DB。 然后,使用笔记本执行该日期的基本查询。

先决条件

  • 包含数据的现有容器

  • Fabric 工作区贡献者权限

    • 具有查看器权限的用户无法在 Lakehouse 中创建 OneLake 快捷方式。

打开数据库的 SQL 分析终结点

首先访问 Fabric 数据库中 Cosmos DB 的 SQL 分析终结点,以确保镜像至少成功运行一次。

  1. 打开 Fabric 门户(https://app.fabric.microsoft.com)。

  2. 导航到现有的 Cosmos DB 数据库。

    重要

    对于本指南,现有的 Cosmos DB 数据库已加载 示例数据集 。 本指南中的其余查询示例假定你使用此数据库的同一数据集。

  3. 在菜单栏中,选择 Cosmos DB 列表,然后选择 SQL 终结点

    Fabric 中 Cosmos DB 中数据库的菜单栏中终结点选择选项的屏幕截图。

  4. 成功导航到 SQL 分析终结点后,此导航步骤确认镜像至少运行了一次。

将数据库连接到 Lakehouse

接下来,使用 Lakehouse 扩展可用于分析 Cosmos DB 数据的工具数量。 在此步骤中,创建 lakehouse 并将其连接到镜像数据。

  1. 导航到 Fabric 门户主页。

  2. 选择“创建”选项。

    Fabric 门户中“创建”新资源的选项的屏幕截图。

  3. 如果创建 Lakehouse 帐户的选项最初不可用,请选择“ 查看所有”。

  4. 数据工程 类别中,选择 Lakehouse

    在 Fabric 门户中专门创建 Lakehouse 的选项的屏幕截图。

  5. 为 Lakehouse 指定唯一的名称,然后选择“ 创建”。

    用于在 Fabric 门户中命名新 Lakehouse 的对话框的屏幕截图。

  6. 在新建的 Lakehouse 菜单中,选择“ 获取数据 ”选项,然后选择“ 新建快捷方式”。

  7. 按照各种 “新建”快捷方式 对话框中的顺序说明选择现有的镜像 Cosmos DB 数据库,然后选择目标表。

    重要

    本指南假定你正在选择在镜像具有预加载示例数据集的 Cosmos DB 数据库时可用的 SampleData 表。

在笔记本中运行 Spark 查询

最后,在笔记本中使用 Spark 为连接到 Lakehouse 的镜像数据编写 Python 查询。 对于最后一步,请创建一个笔记本,然后使用 Transact SQL (T-SQL) 语言语法运行基线 Spark 查询。

  1. 在 Lakehouse 菜单中,选择 “打开笔记本 ”类别,然后选择“ 新建笔记本”。

  2. 在新创建的笔记本中,创建新的 PySpark (Python) 单元格。

  3. 使用 displayspark.sql 函数的组合来测试 SQL 查询。 将此代码输入到单元格中。

    display(spark.sql("""
    SELECT countryOfOrigin AS geography, COUNT(*) AS itemCount
    FROM SampleData
    GROUP BY countryOfOrigin
    ORDER BY itemCount DESC
    LIMIT 5
    """))
    

    重要

    此查询使用示例数据集中找到的数据。 有关详细信息,请参阅 示例数据集

  4. 运行 笔记本单元格。

  5. 请观察运行笔记本单元格后的输出。 结果以表格格式呈现。

    geography itemCount
    法国 47
    埃及 47
    巴西 44
    尼日利亚 43
    印度 40

    笔记本界面的屏幕截图,其中包含单个单元格和表格格式的查询结果。