常见管道维护任务

了解如何对托管数据引入管道执行持续操作。

重启引入管道

适用于标记为“是”的 SaaS 连接器标记为“是”的数据库连接器

当管道运行意外失败或挂起时重启引入管道。 这可以解决暂时性故障,例如临时网络问题、源数据库超时或已更正的配置错误。

接口 说明书
Lakehouse 用户界面 (UI) 手动触发管道更新
管道 API POST /api/2.0/pipelines/{pipeline_id}/updates
Databricks 命令行界面 (CLI) databricks 管道 start-update

重启引入网关

适用于检查标记为“是 ”的数据库连接器

为了减少源数据库上的负载,引入网关仅定期检查新表。 发现新表可能需要长达六个小时。 若要加快此过程,请重启网关。

接口 说明书
Lakehouse 用户界面 (UI) 手动触发管道更新
管道 API POST /api/2.0/pipelines/{pipeline_id}/updates
Databricks 命令行界面 (CLI) databricks 管道 start-update

运行完全刷新以重新引入数据

适用于标记为“是”的 SaaS 连接器标记为“是”的数据库连接器

完全刷新会清除现有数据并重新引入所有记录。 当数据不一致、不完整或需要从源重新处理时,完全刷新目标表。

有关完全刷新行为的详细信息,请参阅 “完全刷新目标表”。

接口 说明书
Lakehouse 用户界面 (UI) 手动触发管道更新
管道 API POST /api/2.0/pipelines/{pipeline_id}/updates
Databricks 命令行界面 (CLI) databricks 管道 start-update

更新管道计划

适用于标记为“是”的 SaaS 连接器标记为“是”的数据库连接器

调整从源引入数据的频率,以平衡与源系统负载的数据新鲜度要求。

接口 说明书
Lakehouse 用户界面 (UI) 使用管道 UI 调度管道
作业 API POST /api/2.2/jobs/update
Databricks 命令行界面 (CLI) databricks 作业更新

设置警报和通知

适用于标记为“是”的 SaaS 连接器标记为“是”的数据库连接器

Lakeflow Connect 会自动设置引入管道和计划作业的通知,以便跟踪管道运行状况并及时接收有关故障的警报。 如果需要,可以自定义通知。

接口 说明书
Lakehouse 用户界面 (UI) 为管道事件添加电子邮件通知
管道 API PUT /api/2.0/pipelines/{pipeline_id}
Databricks 命令行界面 (CLI) databricks 管道更新

删除未使用的暂存文件

适用于检查标记为“是 ”的数据库连接器

对于在 2025 年 1 月 6 日之后创建的引入管道,Databricks 会在 25 天后自动安排暂存数据的删除,并在 30 天后将其彻底清除。 未成功完成 25 天或更长时间的引入管道可能会导致目标表中出现数据缺口。 为避免缺口,必须触发目标表的完全刷新。

对于在 2025 年 1 月 6 日之前创建的引入管道,请联系 Databricks 支持部门请求手动启用暂存 CDC 数据的自动保留管理。

会自动清理以下数据:

  • CDC 数据文件
  • 快照文件
  • 临时表数据

指定要引入的表

适用于标记为“是”的 SaaS 连接器标记为“是”的数据库连接器

Pipelines API 提供了两种方法,用于指定在 objectsingestion_definition: 字段中要引入的表。

  • 表规范:将单个表从指定的源目录和架构引入到指定的目标目录和架构。
  • 架构规范:将指定源目录和架构中的所有表引入到指定的目录和架构中。

如果选择引入整个架构,请查看连接器每个管道的表数限制。

接口 说明书
管道 API PUT /api/2.0/pipelines/{pipeline_id}
Databricks 命令行界面 (CLI) databricks 管道更新