具体化视图的增量刷新

本文概述了具体化视图增量刷新的语义和要求，并确定了支持增量刷新的 SQL 操作、关键字和子句。它包括对增量刷新和整体刷新之间差异的讨论，并包含有关在具体化视图和流式处理表之间进行选择的建议。

使用无服务器管道对具体化视图运行更新时，许多查询可以进行增量刷新。增量刷新通过检测用于定义具体化视图的数据源中的更改并增量计算结果来节省计算成本。

刷新操作在无服务器计算环境中运行

刷新操作在无服务器管道上运行，无论操作是在 Databricks SQL 中定义的还是使用 Lakeflow Spark 声明性管道中定义的。

对于使用 Databricks SQL 定义的物化视图，您的工作区无需启用无服务器 Lakeflow Spark 声明式管道。刷新将自动使用无服务器管道。

对于使用 Lakeflow Spark 声明式管道定义的具体化视图，必须将管道配置为使用无服务器。请参阅配置无服务器管道。

具体化视图的刷新语义是什么？

具体化视图保证与批处理查询等效的结果。例如，考虑以下聚合查询：

SELECT account_id,
  COUNT(txn_id) txn_count,
  SUM(txn_amount) account_revenue
FROM transactions_table
GROUP BY account_id

当你使用任何 Azure Databricks 产品运行此查询时，结果是使用批处理语义计算的，以聚合源 transactions_table 中的所有记录，这意味着所有源数据在一个操作中被扫描和聚合。

Note

如果数据源在上次查询运行后未发生更改，某些 Azure Databricks 产品会在会话内或跨会话自动缓存结果。自动缓存行为与具体化视图不同。

以下示例将此批处理查询转换为具体化视图：

CREATE OR REPLACE MATERIALIZED VIEW transaction_summary AS
SELECT account_id,
  COUNT(txn_id) txn_count,
  SUM(txn_amount) account_revenue
FROM transactions_table
GROUP BY account_id

当你刷新具体化视图时，计算结果与批处理查询语义相同。此查询是可以进行增量刷新的具体化视图示例，这意味着刷新操作会尽最大努力仅处理源 transactions_table 中的新数据或已更改数据来计算结果。

具体化视图的数据源注意事项

虽然你可以针对任何数据源定义具体化视图，但并非所有数据源都适合具体化视图。请考虑以下注意事项和建议：

Important

具体化视图会尽力尝试以增量方式为支持的操作刷新结果。数据源中的某些更改需要整体刷新。可以定义失败的刷新策略，而不是运行完全刷新。

具体化视图的所有数据源都应能够适应整体刷新语义，即使定义具体化视图的查询支持增量刷新时也是如此。

对于整体刷新成本过高的查询，应使用流式处理表，确保精确的一次性处理。示例包括非常大的表。
如果记录应仅处理一次，则不要针对数据源定义具体化视图。改用流式处理表。示例包括以下内容：
- 不保留数据历史记录的数据源，例如 Kafka。
- 引入操作，例如使用自动加载程序从云对象存储引入数据的查询。
- 任何你计划在处理后删除或存档数据但需要在下游表中保留信息的数据源。例如，日期分区表，其中需要计划删除早于特定阈值的记录。
并非所有数据源都支持增量刷新。以下数据源支持增量刷新：
- 增量表，包括 Unity Catalog 托管表和由 Delta Lake 支持的外部表。
- 具体化视图。
- 流式处理表，包括 AUTO CDC ... INTO 操作的目标。
某些增量刷新操作要求在查询的数据源上启用行跟踪。行跟踪是仅 Delta 表支持的 Delta Lake 功能，其中包括具体化视图、流式处理表和 Unity Catalog 托管表。请参阅 Databricks 中的行跟踪。
定义行筛选器或列掩码的数据源不支持增量刷新。请参阅行筛选器和列掩码

优化具体化视图

为获得最佳性能，Databricks 建议在所有具体化视图源表上启用以下功能：

可以在创建时设置这些功能，或者稍后通过 ALTER TABLE 语句进行设置。例如：

ALTER TABLE <table-name> SET TBLPROPERTIES (
  delta.enableDeletionVectors = true,
  delta.enableRowTracking = true,
  delta.enableChangeDataFeed = true);

具体化视图的刷新类型

更新具体化视图时，可以指定刷新或完全刷新。

刷新会尝试执行增量刷新，但会根据需要对数据进行完全重新计算。仅当连接到的计算是无服务器时，增量刷新才可用。
完全刷新始终重新计算具体化视图的所有输入，并重置所有检查点。

要确定更新使用的刷新类型，请参阅确定更新的刷新类型。

默认刷新

无服务器尝试执行 增量刷新时的具体化视图的默认刷新。增量刷新会处理上次刷新后基础数据中的更改，然后将该数据追加到表中。根据基表和包含的操作，某些类型的具体化视图只能进行增量刷新。如果无法进行增量刷新，或者连接的计算是经典计算而不是无服务器刷新，则会执行完整的重新计算。

Note

Azure Databricks 执行完全刷新或增量刷新。决策基于哪个选项更具成本效益，以及查询是否支持增量刷新。若要更改此行为，请参阅 “刷新策略”。

增量刷新和完整重新计算的输出相同。 Azure Databricks 运行成本分析，在增量刷新和完全重新计算之间选择更便宜的选项。

只有使用无服务器管道更新的具体化视图才能使用增量刷新。不使用无服务器管道的具体化视图始终完全重新计算。

使用 SQL 仓库或无服务器 Lakeflow Spark 声明性管道创建具体化视图时，Azure Databricks 会增量刷新这些视图（如果查询受支持）。如果查询使用不受支持的表达式，Azure Databricks 会改为运行完全重新计算，这可能会增加成本。

要确定更新使用的刷新类型，请参阅确定更新的刷新类型。

完全刷新

完全刷新通过清除表和检查点来覆盖具体化视图中的结果，并重新处理源中可用的所有数据。

若要对使用 Databricks SQL 定义的具体化视图执行完全刷新，请使用以下语法：

REFRESH MATERIALIZED VIEW mv_name FULL

对于 Lakeflow Spark 声明性管道中定义的物化视图，可以选择对所选数据集或整个管道中的所有数据集进行完全刷新（Full Refresh）。请参阅管道刷新语义。

Important

当针对所含记录因数据保留阈值被删除或被手动删除的数据源运行整体刷新时，计算结果中不会反映删除的记录。如果数据在源中不再可用，则可能无法恢复旧数据。这也可能会更改源数据中不再存在的列的架构。

具体化视图增量刷新支持

下表列出了 SQL 关键字或子句对增量刷新的支持。若要测试特定查询的可增量性，可以使用 EXPLAIN MATERIALIZED VIEW。

Important

某些关键字和子句要求在查询的数据源上启用行跟踪。请参阅 Databricks 中的行跟踪。

以下表格中标记有星号 (*) 的关键字和子句即是如此。

SQL 关键字或子句	增量刷新支持
`SELECT` 表达式*	是，支持包括确定性内置函数和不可变用户定义函数 (UDF) 在内的表达式。
`GROUP BY`	Yes
`WITH`	是，支持通用表表达式。
`UNION ALL`*	Yes
`FROM`	受支持的基表包括 Delta 表、具体化视图和流式处理表。
`WHERE`, `HAVING`*	支持筛选器子句，例如 `WHERE` 和 `HAVING`。
`INNER JOIN`*	Yes
`LEFT OUTER JOIN`*	Yes
`FULL OUTER JOIN`*	Yes
`RIGHT OUTER JOIN`*	Yes
`OVER`	Yes. 窗口函数的增量处理必须指定 `PARTITION_BY` 列。
`QUALIFY`	Yes
`EXPECTATIONS`	可以，可以增量刷新包含预期的具体化视图。但是，对于以下情况，不支持增量刷新：当具体化视图从包含期望的视图中读取时。当具体化视图具有 `DROP` 预期并在其 `NOT NULL` 架构中包含列时。
非确定性函数	子句中 `WHERE` 支持非确定性时间函数。这包括函数，例如 `current_date()`， `current_timestamp()`和 `now()`。不支持其他非确定性函数。
非Delta源	不支持卷、外部位置和国外目录等源。

确定更新的刷新类型

为了优化具体化视图刷新的性能，Azure Databricks 使用成本模型来选择用于刷新的技术。下表介绍了这些技术：

Technique	增量刷新？	Description
`FULL_RECOMPUTE`	No	已完全重新计算具体化视图
`NO_OP`	不適用	未更新具体化视图，因为未检测到基表的更改。
任一项： `ROW_BASED` `PARTITION_OVERWRITE` `WINDOW_FUNCTION` `APPEND_ONLY` `GROUP_AGGREGATE` `GENERIC_AGGREGATE`	Yes	具体化视图使用指定的技术以增量方式刷新。

另请参阅 “刷新策略”。

若要确定所使用的技术，请查询 Lakeflow Spark 声明性流水线事件日志，其中 event_type 是 planning_information：

SELECT
  timestamp,
  message
FROM
  event_log(TABLE(<fully-qualified-table-name>))
WHERE
  event_type = 'planning_information'
ORDER BY
  timestamp desc;

将 <fully-qualified-table-name> 替换为具体化视图的完全限定名称，包括目录和架构。

此命令的示例输出：

- 时间戳
- 消息
- 2025-03-21T22:23:16.497+00:00
- Flow 'sales' has been planned in :re[LDP] to be executed as ROW_BASED.

请参阅管道事件日志。

刷新策略

默认情况下，Azure Databricks 根据查询结构、数据更改量和系统成本建模自动选择最经济高效的刷新策略（增量或完整）。此默认行为可优化刷新性能，而无需手动配置。

但是，某些工作负荷需要更可预测的或显式控制的刷新行为。若要支持这些方案，可以在具体化视图定义中指定一个 REFRESH POLICY 。刷新策略控制 Azure Databricks 是否执行增量刷新、何时可能会回退到完全刷新，以及刷新是否应失败而不是执行完全重新计算。

使用 REFRESH POLICY，可以将系统配置为：

AUTO （默认值） - 使用自动基于成本的选择。 Databricks 根据效率和查询功能选择增量刷新或完全刷新。建议适用于大多数用户。
INCREMENTAL - 首选增量刷新。 Databricks 尽可能执行增量刷新。如果查询计划不再支持增量刷新，它将回退到完全刷新。
INCREMENTAL STRICT - 严格要求增量刷新。在正常作业期间需要增量刷新。如果不可能进行增量化，刷新或创建作将失败。
FULL - 始终执行完全刷新。即使查询可增量化，Databricks 也永远不会执行增量刷新。

-- Create a materialized view with an incremental refresh policy
CREATE MATERIALIZED VIEW IF NOT EXISTS my_mv
REFRESH POLICY INCREMENTAL
AS SELECT a, sum(b) FROM my_catalog.example.my_table GROUP BY a;

最佳刷新策略取决于工作负荷特征：

AUTO 适用于大多数工作负荷。它平衡成本和性能，并在查询行为发生更改时自动进行调整。
INCREMENTAL 在增量刷新带来好处时非常有用，但如果增量刷新暂时不可用（例如关闭源表上的行数据跟踪时），Azure Databricks 可以执行完整刷新。
INCREMENTAL STRICT 当需要增量刷新来满足成本、性能或 SLA 约束以及意外的完全刷新是不可接受的时，应使用。当用户希望更新失败时，建议使用此策略，以便他们调试问题，而不是继续进行完全刷新。
FULL 当增量刷新提供很少的好处时，数据集很小，或者查询结构经常以防止增量化的方式发生更改时适用。

反馈

此页面是否有帮助？

Last updated on 2026-01-17

通过

具体化视图的增量刷新

刷新操作在无服务器计算环境中运行

具体化视图的刷新语义是什么？

具体化视图的数据源注意事项

优化具体化视图

具体化视图的刷新类型

默认刷新

完全刷新

具体化视图增量刷新支持

确定更新的刷新类型

刷新策略

反馈

其他资源