pipelines 命令组

Note

此信息适用于 Databricks CLI 版本 0.205 及更高版本。 Databricks CLI 目前处于公共预览阶段。

Databricks CLI 的使用须遵守 Databricks 许可Databricks 隐私声明,包括任何数据使用规定。

pipelines Databricks CLI 中的命令组包含两组功能。 第一个集允许管理管道项目及其工作流。 第二组允许创建、编辑、删除、启动和查看 Databricks 中管道对象的详细信息。

有关管道的信息,请参阅 Lakeflow Spark 声明性管道

管理管道项目

以下命令允许管理项目中的管道。

databricks 管道部署

通过将项目中定义的所有文件上传到目标工作区,以及创建或更新工作区中定义的管道来部署管道。

databricks pipelines deploy [flags]

Arguments

None

选项

--auto-approve

    跳过部署过程可能需要的交互式审批

--fail-on-active-runs

    在部署过程中如果存在正在运行的管道,则操作会失败。

--force-lock

    强制获取部署锁

全局标志

databricks 管道销毁

销毁管道项目。

databricks pipelines destroy [flags]

Arguments

None

选项

--auto-approve

    跳过删除管道时的交互式审批

--force-lock

    强制获取部署锁

全局标志

databricks 管道干运行

验证管道图形结构的正确性,标识为 KEY. 不具体化或发布任何数据集。

databricks pipelines dry-run [flags] [KEY]

Arguments

KEY

    要进行试运行的管道的唯一名称,如其 YAML 文件中所定义。 如果项目中只有一个管道, KEY 则为可选管道,并且会自动选择管道。

选项

--no-wait

    不要等待运行完成

--restart

    如果程序已经运行,请重启程序。

全局标志

databricks 数据管道生成

为现有 Spark 管道生成配置。

此命令在指定目录中查找spark-pipeline.yml*.spark-pipeline.yml文件,并在项目的*.pipeline.yml文件夹中生成一个新的resources配置文件,该文件夹定义了管道。 如果存在多个 spark-pipeline.yml 文件,请指定特定 *.spark-pipeline.yml 文件的完整路径。

databricks pipelines generate [flags]

Note

若要在 Databricks 工作区中为现有管道生成配置,请参阅 databricks bundle generate pipeline使用 Databricks CLI 为现有作业或管道生成配置

选项

--existing-pipeline-dir

    现有管道目录的路径位于 src(例如 src/my_pipeline)。

--force

    覆盖现有管道配置文件。

全局标志

例子

以下示例在当前目录中查找并读取 src/my_pipeline/spark-pipeline.yml,然后创建一个定义管道的配置文件 resources/my_pipeline.pipeline.yml

databricks pipelines generate --existing-pipeline-dir src/my_pipeline

Databricks 的管道历史记录

检索标识为 KEY 的管道的过去运行。

databricks pipelines history [flags] [KEY]

Arguments

KEY

    管道的唯一名称,如其 YAML 文件中定义。 如果项目中只有一个管道, KEY 则为可选管道,并且会自动选择管道。

选项

--end-time string

    在此时间之前筛选更新(格式: 2025-01-15T10:30:00Z

--start-time string

    筛选此时间后的更新(格式: 2025-01-15T10:30:00Z

全局标志

databricks 数据管道初始化

初始化新的管道项目。

有关演示如何使用 Databricks CLI 创建、部署和运行管道项目的教程,请参阅 使用 Databricks 资产捆绑包开发 Lakeflow Spark 声明性管道

databricks pipelines init [flags]

Arguments

None

选项

--config-file string

    包含模板初始化所需的输入参数键值对的 JSON 文件

--output-dir string

    要写入初始化模板的目录

全局标志

databricks 管道日志

检索由 KEY 标识的管道的事件。 默认情况下,此命令显示管道的最新更新的事件。

databricks pipelines logs [flags] [KEY]

Arguments

KEY

    管道的唯一名称,如其 YAML 文件中定义。 如果项目中只有一个管道, KEY 则为可选管道,并且会自动选择管道。

选项

--end-time string

    筛选此结束时间之前的事件(格式: 2025-01-15T10:30:00Z

--event-type strings

    按事件类型列表筛选事件

--level strings

    按日志级别列表(INFO、、WARNERRORMETRICS) 筛选事件

-n, --number int

    要返回的事件数

--start-time string

    筛选此开始时间之后的事件(格式: 2025-01-15T10:30:00Z

--update-id string

    按更新 ID 筛选事件。 如果未提供,请使用最新的更新 ID

全局标志

例子

databricks pipelines logs pipeline-name --update-id update-1 -n 10
databricks pipelines logs pipeline-name --level ERROR,METRICS --event-type update_progress --start-time 2025-01-15T10:30:00Z

databricks 管道打开

在浏览器中打开由 KEY 标识的管道。

databricks pipelines open [flags] [KEY]

Arguments

KEY

    要打开的管道唯一名称是在其 YAML 文件中定义的。 如果项目中只有一个管道, KEY 则为可选管道,并且会自动选择管道。

选项

--force-pull

    跳过本地缓存并从远程工作区加载状态

全局标志

databricks 流水线运行

运行由 KEY 标识的管道。 除非另有指定,否则刷新管道中的所有表。

databricks pipelines run [flags] [KEY]

Arguments

KEY

    要运行的管道的独特名称,如其 YAML 文件中所定义。 如果项目中只有一个管道, KEY 则为可选管道,并且会自动选择管道。

选项

--full-refresh strings

    要重置和重新计算的表列表

--full-refresh-all

    执行完整图形重置并重新计算

--no-wait

    不要等待运行完成

--refresh strings

    要运行的表列表

--restart

    如果程序已经运行,请重启程序。

全局标志

databricks 管道停止

如果某个管道正在由 KEYPIPELINE_ID 识别且运行中,则停止该管道。 如果管道没有活动更新,此请求为无操作。

databricks pipelines stop [KEY|PIPELINE_ID] [flags]

Arguments

KEY

    要停止的管道的唯一名称,如其 YAML 文件中定义的那样。 如果项目中只有一个管道, KEY 则为可选管道,并且会自动选择管道。

PIPELINE_ID

    要停止的管道的 UUID。

选项

--no-wait

    不等待达到 IDLE 状态

--timeout duration

    达到 IDLE 状态的最长时间(默认 20m0s)

全局标志

管理管道对象

以下命令允许在 Databricks 中管理管道对象。

databricks 管道创建

根据请求的配置创建新的数据处理管道。 如果成功,此命令将返回新管道的 ID。

databricks pipelines create [flags]

Arguments

None

选项

--json JSON

    包含请求正文的内联 JSON 字符串或 @path 到 JSON 文件。

全局标志

databricks 管道删除

删除管道。

databricks pipelines delete PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    要删除的管道。

选项

全局标志

databricks 管道获取

获取管道。

databricks pipelines get PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    要获取的管道。

选项

全局标志

databricks 管道更新获取

从活跃流水线获取更新。

databricks pipelines get-update PIPELINE_ID UPDATE_ID [flags]

Arguments

PIPELINE_ID

    管道的 ID。

UPDATE_ID

    更新的 ID。

选项

全局标志

在databricks中调用list-pipeline-events管道命令

检索管道的事件。

databricks pipelines list-pipeline-events PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    要检索事件的管道。

选项

--filter string

    选择结果子集的条件,使用类似于 SQL 的语法表示。

--max-results int

    单个页面中要返回的最大条目数。

--page-token string

    先前调用返回的页面令牌。

全局标志

databricks 管道 list-pipelines

列出在 Delta Live Tables 系统中定义的管道。

databricks pipelines list-pipelines [flags]

Arguments

None

选项

--filter string

    根据指定的条件选择结果子集。

--max-results int

    要在单个页面中返回的最大条目数。

--page-token string

    先前调用返回的页面令牌。

全局标志

databricks 管道 list-updates(列出更新)

列出活动管道的更新。

databricks pipelines list-updates PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    要返回更新的管道。

选项

--max-results int

    单个页面中要返回的最大条目数。

--page-token string

    先前调用返回的页面令牌。

--until-update-id string

    如果存在,返回更新直至并包括此 update_id。

全局标志

databricks 管道 start-update

为管道启动新更新。 如果管道已有活动更新,则请求将失败,并且活动更新将保持运行状态。

databricks pipelines start-update PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    要启动更新的管道。

选项

--cause StartUpdateCause

    支持的值:[API_CALL, JOB_TASK, RETRY_ON_FAILURE, SCHEMA_CHANGE, SERVICE_UPGRADE, USER_ACTION]

--full-refresh

    如果为 true,此更新将在运行之前重置所有表。

--json JSON

    包含请求正文的内联 JSON 字符串或 @path 到 JSON 文件。

--validate-only

    如果为 true,此更新只会验证管道源代码的正确性,但不会具体化或发布任何数据集。

全局标志

databricks 流水线更新

使用提供的配置更新管道。

databricks pipelines update PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    此管道的唯一标识符。

选项

--allow-duplicate-names

    如果若为 false,且名称更改后与另一个管道的名称冲突,则部署将失败。

--budget-policy-id string

    此管道的预算政策。

--catalog string

    Unity Catalog 中要将数据从此管道发布到的目录。

--channel string

    Lakeflow Spark 声明性管道发布通道,用于指定要使用的版本。

--continuous

    管道是连续运行的还是触发运行的。

--development

    管道是否处于开发模式。

--edition string

    管道产品版本。

--expected-last-modified int

    如果存在,编辑前管道设置的最后修改时间。

--id string

    此管道的唯一标识符。

--json JSON

    包含请求正文的内联 JSON 字符串或 @path 到 JSON 文件。

--name string

    此管道的友好标识符。

--photon

    是否为此管道启用了 Photon。

--pipeline-id string

    此管道的唯一标识符。

--schema string

    作为表的读取来源或发布目标的默认架构(数据库)。

--serverless

    是否为此管道启用了无服务器计算。

--storage string

    用于存储检查点和表的 DBFS 根目录。

--target string

    要将此管道中的表添加到的目标架构(数据库)。

全局标志

databricks 数据管道获取权限级别

获取管道权限级别。

databricks pipelines get-permission-levels PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    要获取或管理权限的管道。

选项

全局标志

databricks 管道获取权限

获取管道的权限。 管道可以从其根对象继承权限。

databricks pipelines get-permissions PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    要获取或管理权限的管道。

选项

全局标志

databricks 流水线设置权限

设置管道权限。

设置对象的权限,替换现有权限(如果存在)。 如果未指定任何权限,则删除所有直接权限。 对象可以从其根对象继承权限。

databricks pipelines set-permissions PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    要获取或管理权限的管道。

选项

--json JSON

    包含请求正文的内联 JSON 字符串或 @path 到 JSON 文件。

全局标志

databricks 管道更新权限

更新管道的权限。 管道可以从其根对象继承权限。

databricks pipelines update-permissions PIPELINE_ID [flags]

Arguments

PIPELINE_ID

    要获取或管理权限的管道。

选项

--json JSON

    包含请求正文的内联 JSON 字符串或 @path 到 JSON 文件。

全局标志

全局标志

--debug

  是否启用调试日志记录。

-h--help

    显示 Databricks CLI、相关命令组或相关命令的帮助。

--log-file 字符串

    一个字符串,表示要将输出日志写入到的文件。 如果未指定此标志,则默认会将输出日志写入到 stderr。

--log-format 格式

    日志格式类型,textjson。 默认值是 text

--log-level 字符串

    一个表示日志格式级别的字符串。 如果未指定,则禁用日志格式级别。

-o, --output 类型

    命令输出类型为textjson。 默认值是 text

-p, --profile 字符串

     ~/.databrickscfg 文件中用于运行命令的配置文件的名称。 如果未指定此标志,则如果存在,将使用名为 DEFAULT 的配置文件。

--progress-format 格式

    显示进度日志的格式: defaultappendinplacejson

-t, --target 字符串

    如适用,要使用的捆绑包目标