OneLake 是面向整个组织的统一逻辑数据湖。 与 OneDrive 一样,OneLake 会自动附带在每个 Microsoft Fabric 租户中,并且旨在成为所有分析数据的唯一位置。
OneLake 为客户带来:
- 适用于整个组织的统一数据湖
- 与多个分析引擎一起使用的一个数据副本
适用于整个组织的统一数据湖
在 OneLake 之前,许多组织为不同的业务组创建了多个湖泊,这导致了管理多个资源的额外开销。 OneLake 通过改进协作来消除这些挑战:
- 每个 Fabric 租户都会自动获得一个 OneLake
- 您无法创建多个 OneLake,也不能删除您的 OneLake
- 没有额外的资源来预配或管理
这种简洁性帮助您的组织在单一的统一数据湖上进行协作。
默认使用分布式协作所有权进行管理
在 Fabric 数据中,组织和治理的最高层级是租户。 OneLake 中登陆的任何数据都由租户级策略自动保护,以确保安全性、合规性和数据管理。
在租户中,协作发生在 工作区中。 可以创建任意数量的工作区来组织数据。 工作区使组织的不同部分能够分配所有权和访问策略。 每个工作区都是属于一个与特定区域相关联的容量,并且该容量是单独计费的。
在工作区中,通过 数据项创建和访问所有数据。 与 Office 在 OneDrive 中存储 Word、Excel 和 PowerPoint 文件的方式类似,Fabric 在 OneLake 中存储湖房、仓库和其他项目。 每种条目类型都为不同的用户角色提供定制体验,例如 Lakehouse 中的 Apache Spark 开发人员体验。
基于开放标准和格式构建
OneLake 基于 Azure Data Lake Storage (ADLS) Gen2 构建,可以支持任何类型的文件(无论是结构化还是非结构化的)。 所有 Fabric 数据项(如数据仓库和湖屋)都将以 Delta Parquet 格式自动将其数据存储在 OneLake 中。 如果数据工程师使用 Apache Spark 将数据加载到湖屋,然后 SQL 开发人员使用 T-SQL 在纯事务性数据仓库中加载数据,那么二者均在参与构建相同的数据湖。 OneLake 以 Delta Parquet 格式存储所有表格数据。
OneLake 支持相同的 ADLS Gen2 API 和 SDK,以便与现有的 ADLS Gen2 应用程序(包括 Azure Databricks)兼容。 在 OneLake 中处理数据时,可以将它视为整个组织的一个大型 ADLS 存储帐户。 每个工作区都将显示为该存储帐户中的一个容器,不同的数据项将显示为这些容器中的文件夹。
有关 API 和终结点的详细信息,请参阅 OneLake 访问和 API。 有关 OneLake 与 Azure 集成的示例,请参阅 Azure Synapse Analytics、Azure 存储资源管理器、Azure Databricks 和 Azure HDInsight 文章。
适用于 Windows 的 OneLake 文件资源管理器
可以使用适用于 Windows 的 OneLake 文件资源管理器 浏览 Windows 中的 OneLake 数据。 你可以像在 Office 中一样浏览所有工作区和数据项,从而轻松上传、下载或修改文件。 OneLake 文件资源管理器简化了数据湖的使用过程,甚至非技术业务用户都可以轻松使用。
有关详细信息,请参阅 OneLake 文件资源管理器。
统一的数据副本
OneLake 旨在让你从单个数据副本获得最大的价值,而无需数据移动或重复。 无需复制数据即可与另一个引擎一起使用,也无需分析来自多个源的数据。
使用快捷方式可在不移动数据的情况下跨领域连接数据
快捷方式是对存储在其他文件位置中的数据的引用。 这些文件位置可以位于同一工作区中或跨不同工作区、OneLake 或 OneLake 外部(例如 ADLS、S3 或 Dataverse)。 无论在哪个位置,快捷方式都能使文件和文件夹看起来像是存储在本地。
快捷方式允许组织在用户和应用程序之间共享数据,而无需不必要的移动和复制信息。 当团队在单独的工作区中独立工作时,快捷方式使你能够将不同业务组和域的数据合并到虚拟数据产品中,以满足用户的特定需求。
有关如何使用快捷方式的详细信息,请参阅 OneLake 快捷方式。
将数据连接到多个分析引擎
数据通常针对单个引擎进行优化,这使得难以为多个应用程序重复使用相同的数据。 使用 Fabric,不同的分析引擎(T-SQL、Apache Spark、Analysis Services 等)以开放式 Delta Parquet 格式存储数据,以便跨多个引擎使用相同的数据。
无需复制数据即可用于另一个引擎,也不需要将其与特定引擎一起使用,因为这就是数据所在的位置。 例如,假设 SQL 工程师团队构建了一个完全事务性的数据仓库。 他们可以使用 T-SQL 引擎和 T-SQL 的所有功能来创建表、转换数据并将数据加载到表。 如果数据科学家想要利用这些数据,则无需经历特殊的 Spark/SQL 驱动程序。 OneLake 以 Delta Parquet 格式存储所有数据。 数据科学家可以直接通过数据使用 Spark 引擎及其开源库的完整功能。
业务用户可以在 Analysis Services 引擎中使用 Direct Lake 模式直接在 OneLake 的基础上生成 Power BI 报表。 Analysis Services 引擎为 Power BI 语义模型提供支持,它始终提供两种访问数据模式:导入和直接查询。 第三种模式 Direct Lake 模式让用户享有导入的全部速度,无需复制数据,同时结合了导入和直接查询的优势。 有关详细信息,请参阅 Direct Lake。
后续步骤
准备开始使用 OneLake? 下面介绍如何开始使用: