Microsoft Fabric Lakehouse 是一个数据体系结构平台,用于在单个位置存储、管理和分析结构化和非结构化数据。 在本指南中,您将在 lakehouse 中访问 Microsoft Fabric 数据中镜像的 Cosmos DB。 然后,使用笔记本执行该日期的基本查询。
先决条件
现有Fabric容量
- 如果没有 Fabric 容量, 请启动 Fabric 试用版。
Fabric 中的现有 Cosmos DB 数据库
包含数据的现有容器
- 如果您还没有,请加载示例数据容器。
Fabric 工作区贡献者权限
- 具有查看器权限的用户无法在 Lakehouse 中创建 OneLake 快捷方式。
打开数据库的 SQL 分析终结点
首先访问 Fabric 数据库中 Cosmos DB 的 SQL 分析终结点,以确保镜像至少成功运行一次。
打开 Fabric 门户(https://app.fabric.microsoft.com)。
导航到现有的 Cosmos DB 数据库。
重要
对于本指南,现有的 Cosmos DB 数据库已加载 示例数据集 。 本指南中的其余查询示例假定你使用此数据库的同一数据集。
在菜单栏中,选择 Cosmos DB 列表,然后选择 SQL 终结点。
成功导航到 SQL 分析终结点后,此导航步骤确认镜像至少运行了一次。
将数据库连接到 Lakehouse
接下来,使用 Lakehouse 扩展可用于分析 Cosmos DB 数据的工具数量。 在此步骤中,创建 lakehouse 并将其连接到镜像数据。
导航到 Fabric 门户主页。
选择“创建”选项。
如果创建 Lakehouse 帐户的选项最初不可用,请选择“ 查看所有”。
在 数据工程 类别中,选择 Lakehouse。
为 Lakehouse 指定唯一的名称,然后选择“ 创建”。
在新建的 Lakehouse 菜单中,选择“ 获取数据 ”选项,然后选择“ 新建快捷方式”。
按照各种 “新建”快捷方式 对话框中的顺序说明选择现有的镜像 Cosmos DB 数据库,然后选择目标表。
重要
本指南假定你正在选择在镜像具有预加载示例数据集的 Cosmos DB 数据库时可用的 SampleData 表。
在笔记本中运行 Spark 查询
最后,在笔记本中使用 Spark 为连接到 Lakehouse 的镜像数据编写 Python 查询。 对于最后一步,请创建一个笔记本,然后使用 Transact SQL (T-SQL) 语言语法运行基线 Spark 查询。
在 Lakehouse 菜单中,选择 “打开笔记本 ”类别,然后选择“ 新建笔记本”。
在新创建的笔记本中,创建新的 PySpark (Python) 单元格。
使用
display中spark.sql和 函数的组合来测试 SQL 查询。 将此代码输入到单元格中。display(spark.sql(""" SELECT countryOfOrigin AS geography, COUNT(*) AS itemCount FROM SampleData GROUP BY countryOfOrigin ORDER BY itemCount DESC LIMIT 5 """))重要
此查询使用示例数据集中找到的数据。 有关详细信息,请参阅 示例数据集。
运行 笔记本单元格。
请观察运行笔记本单元格后的输出。 结果以表格格式呈现。
geographyitemCount法国 47 埃及 47 巴西 44 尼日利亚 43 印度 40