Azure Databricks 表

Azure Databricks 提供了多种表类型和存储格式,以满足不同的数据管理需求。 本部分介绍托管表、外部表和外表以及 Delta Lake 和 Apache Iceberg 存储格式,这些格式支持原子性、一致性、隔离和持续性(ACID)事务和时间旅行等高级功能。

核心概念

了解表类型、存储格式和 Unity 目录集成的基础知识。

主题 Description
表概念 有关表类型、存储格式和 Unity 目录集成的核心概念和基础信息。

表类型

了解各种数据管理方案的不同表类型及其功能。

表类型 Description
Azure Databricks 中由 Unity Catalog 管理的 Delta Lake 和 Apache Iceberg 表 Azure Databricks 管理元数据和数据文件。 用于需要优化性能的新表。
临时表 用于中间数据的会话级别 Unity Catalog 托管表。 只能用于 SQL 仓库。
使用外部表 存储在外部系统中的数据。 Unity 目录仅管理元数据。
使用外部表 对通过 Lakehouse Federation 连接的外部系统中数据的只读访问权限。

存储格式

使用提供高级数据管理功能的开放表格式。

Format Description
Delta Lake 默认存储格式,为托管表和外部表提供 ACID 事务、时间旅行和架构强制实施。
Apache Iceberg 打开表格式以与 Iceberg 生态系统集成,支持高级元数据管理。

表管理

配置和优化表行为、结构和性能。

功能 / 特点 Description
表约束 使用检查约束定义和强制实施数据质量规则,而不是 null 约束。
架构强制实施 控制 Azure Databricks 在写入期间如何处理架构更改和数据类型强制实施。
表分区 按分区键组织数据,以提高查询性能和数据管理。
表大小监视 监视和分析表存储使用情况和增长模式。
将外部转换为托管 将外部表迁移到托管表以提高性能和管理。
外部分区发现 在存储在云存储中的外部表中自动发现和注册分区。