为了帮助你开始在工作区中使用 Databricks 资产捆绑包,本教程将引导你创建包含作业的捆绑包、部署该捆绑包并在捆绑包中运行作业 ( 全部来自工作区)。
有关在工作区中使用捆绑包的要求,请参阅 工作区要求中的 Databricks 资产捆绑包。
有关捆绑包的详细信息,请参阅 什么是 Databricks 资产捆绑包?。
创建捆绑包
首先,在 Databricks 工作区中创建捆绑包:
导航到要在其中创建捆绑包的 Git 文件夹。
小窍门
如果以前在工作区的编辑器中打开 Git 文件夹,则可以使用工作区浏览器创作上下文菜单快速导航到 Git 文件夹。 请参阅 创作上下文。
单击“创建”按钮,然后单击“资产捆绑”。 或者,右键单击工作区树中的 Git 文件夹或其关联的 kebab,然后单击“ 创建>资产捆绑包”:
在 “创建资产捆绑包 ”对话框中,为资产捆绑包命名,例如 完全真棒捆绑包。 捆绑名称只能包含字母、数字、短划线和下划线。 选择 “空项目 ”,然后单击“ 创建并部署 ”。
这会在 Git 文件夹中创建一个初始捆绑包,其中包括 .gitignore Git 配置文件和所需的 Databricks 资产捆绑包 databricks.yml 文件。 该文件 databricks.yml 包含捆绑包的主配置。 有关详细信息,请参阅 Databricks 资产捆绑包配置。
添加笔记本
接下来,将笔记本添加到捆绑包。 以下示例中的笔记本打印“Hello World!”。
单击“添加笔记本”项目捆绑包磁贴。 或者,单击目录中捆绑包的烤肉串,然后单击“ 创建>笔记本”。
将笔记本重命名为 helloworld。
将笔记本的语言设置为 Python,并将以下内容粘贴到笔记本的单元格中:
print("Hello World!")
定义作业
现在定义运行笔记本的作业。
单击捆绑包的部署图标以切换到 “部署 ”面板。
在 “捆绑资源 ”部分中,单击“ 添加”,然后单击 “新建作业定义”。
在“将作业添加到现有捆绑包”对话框的“作业名称”字段中键入 Run-notebook。 单击“ 添加并部署”。
此时会显示 “部署到开发 确认”对话框,其中包含将在开发目标工作区中创建的作业资源的相关信息。 单击“部署”。
单击部署图标上方的文件夹图标,导航回捆绑包的文件。 作业资源
run-notebook.job.yml是使用作业的基本 YAML 创建的,还有一些附加注释掉的示例作业任务 YAML。将笔记本任务添加到作业定义。 将文件中的示例 YAML
run-notebook.job.yml替换为以下内容:resources: jobs: run_notebook: name: run-notebook queue: enabled: true tasks: - task_key: my-notebook-task notebook_task: notebook_path: ../helloworld.ipynb
有关在 YAML 中定义作业的详细信息,请参阅 作业。 有关其他支持的作业任务类型的 YAML 语法,请参阅 在 Databricks 资产捆绑包中向作业添加任务。
部署捆绑包
接下来,部署捆绑包并运行包含 helloworld 笔记本任务的作业。
在“部署”“目标”下的窗格中,单击下拉列表以选择
dev目标工作区(如果尚未选择)。 目标工作区在捆绑包的targets映射的databricks.yml中定义。 请参阅 Databricks 资产捆绑包部署模式。
单击“ 部署 ”按钮。 捆绑包经过验证,验证详细信息将显示在对话框中。
查看此 “部署到开发 确认”对话框中的部署详细信息,然后单击“ 部署”。
重要
部署捆绑包并运行捆绑包资源以当前用户身份执行代码。 请确保信任捆绑包中的代码,包括 YAML,其中包含运行命令的配置设置。
部署的状态将输出到 “项目输出” 窗口。
运行作业
已部署的捆绑包资源在 捆绑资源下列出。 单击与作业资源关联的播放图标以运行它。
从左侧导航栏导航到作业运行,查看捆绑包的运行情况。 捆绑作业运行的名称有前缀,例如 [dev someone] run-notebook。