设置 Databricks Git 文件夹

本页介绍如何为版本控制设置 Databricks Git 文件夹。 设置完成后,直接从 Databricks UI 执行克隆、检出、提交、推送、拉取和分支管理等常见 Git 操作。 您还可以在开发过程中查看您的更改的差异比较。

先决条件

在开始之前,请确认以下内容:

  • Git 文件夹在工作区中启用(默认启用)。 请参阅 启用或禁用 Databricks Git 文件夹功能

  • 你有一个Git提供商帐户(GitHub、GitLab、Azure DevOps、Bitbucket或AWS CodeCommit)。

  • 对于您的专用仓库和写操作,您应从 Git 提供商处获得个人访问令牌 (PAT) 或 OAuth 凭据。 请参阅配置 Git 凭据 & 将远程存储库连接到 Azure Databricks

    注意

    无需 Git 凭据即可克隆公共远程存储库。 若要修改公共远程存储库或使用专用存储库,请使用 写入 权限配置 Git 凭据。

添加 Git 凭据

若要在 Databricks 中配置 Git 凭据,请执行以下作:

  1. 单击 Azure Databricks 工作区顶部栏中的用户名,然后选择“设置”
  2. 单击 “链接帐户”
  3. 单击 “添加 Git 凭据”。
  4. 从下拉菜单中选择 Git 服务提供商。 某些提供商提供 OAuth 帐户链接,而另一些提供商需要个人访问令牌(PAT)。 如果使用 OAuth 链接帐户,请完成身份验证流并跳到最后一步。
  5. Git 提供程序电子邮件 字段中输入电子邮件。
  6. 将 PAT 粘贴到 “令牌 ”字段中。 有关创建 PAT 的说明,请参阅 配置 Git 凭据并将远程存储库连接到 Azure Databricks。 如果你的组织在 GitHub 中启用了 SAML SSO,请为你的 SSO 个人访问令牌授权
  7. 单击“保存”

还可以使用 Databricks Repos API 管理 Git 凭据。

Azure DevOps

默认情况下,如果未输入令牌或应用密码,Git 集成将使用 Microsoft Entra ID 令牌。 如果提供 Azure DevOps 个人访问令牌,Git 集成会改用它。 请参阅使用令牌连接到 Azure DevOps 存储库

更新 Azure 密码后,使用 Databricks 重新进行身份验证。 否则,Azure DevOps 连接验证最多可能需要 24 小时。

如果无法使用 Microsoft Entra ID 身份验证在 Azure DevOps 中克隆存储库,请参阅 Microsoft Entra ID 条件访问策略(CAP)问题

每位用户的多个 Git 凭据

重要说明

此功能目前以公共预览版提供。

Databricks 允许每个用户存储多个 Git 凭据,因此你可以使用不同的提供程序或帐户,而无需切换凭据。

Databricks 数据智能平台

选择 Git 文件夹的凭证

每个 Git 文件夹可以使用特定的凭证进行 Git 操作。 更改 Git 库的账户凭据:

  1. 打开 Git 文件夹并转到 “Git 设置 ”选项卡。
  2. Git 凭据下,从下拉菜单中选择凭据。
  3. 单击“保存”

选择凭据

默认凭据的工作原理

每个 Git 提供程序都支持每个用户的一个默认 Git 凭据。 Databricks 会自动将此默认凭据用于:

  • 作业
  • Repos API 操作
  • Git 文件夹操作(未选择特定凭据时)

为提供程序创建的第一个凭据将自动成为默认值。 更改默认凭证:

  1. 转到 “用户设置>链接帐户”。
  2. 单击 Kebab Kebab 菜单图标。 在要设为默认值的凭据旁边。
  3. 选择“设为默认值”。

限制

  • 需要使用非默认 Git 凭据的作业必须使用服务主体来与提供者进行交互。
  • 服务主体只能有一个 Git 凭据。
  • Databricks GitHub App 仅允许一个 链接凭据
  • 每个用户最多可以有 10 个 Git 凭据。

配置 Git 提交标识

Git 提交标识确定从 Databricks 进行的提交如何显示在 Git 提供程序中。 通过 Databricks Git 文件夹提交时,Git 提供程序需要将你标识为作者。 配置电子邮件地址,以便:

  • 提交显示在您的 Git 服务提供商资料中
  • 您的个人资料图片和名称显示正常
  • 你得到适当的贡献认可
  • 团队成员可以跟踪是谁做了每一个更改

提交身份的工作原理

使用电子邮件地址配置 Git 凭据时:

  • 电子邮件: 作为所有提交的作者电子邮件 (GIT_AUTHOR_EMAILGIT_COMMITTER_EMAIL)
  • 用户名: 成为提交者名称 (GIT_AUTHOR_NAMEGIT_COMMITTER_NAME

如果未指定电子邮件地址,Databricks 将使用 Git 用户名作为电子邮件。 这可能会阻止在你的 Git 提供程序中正确识别提交归属。

Git 历史记录中的示例提交:

commit 480ee5b0214e4d46db2da401a83794c5f5c5d375 (HEAD -> main)
Author: GitHub-username <your.email@example.com>
Date:   Fri Sep 26 00:38:23 2025 -0700

    My commit message

Git 提供程序中的示例:

显示包含用户名和电子邮件的作者标识的 Git 提交

注意

如果在电子邮件配置可用之前创建了 Git 凭据,则电子邮件字段默认为用户名。 将其更新到实际电子邮件地址,以获取适当的提交归属。

已关联的“GitHub”凭据

如果通过 Databricks GitHub 应用使用链接的 Git 凭据,Databricks 会自动配置电子邮件和 Git 标识。 如果未正确设置标识, 请批准所需的权限 或重新链接 GitHub 帐户以获取适当的权限。

配置网络连接

Git 文件夹需要与 Git 提供商建立网络连接。 大多数配置都通过 Internet 工作,无需进行其他设置。 但是,如果有以下配置,可能需要额外的配置:

  • Git 提供程序上的 IP 允许列表
  • 自承载 Git 服务器(GitHub Enterprise、Bitbucket 服务器、GitLab 自管理)
  • 专用网络托管

配置 IP 允许列表

如果 Git 服务器可访问 Internet,但使用 IP 允许列表,例如 GitHub 允许列表

  1. Azure Databricks 区域中查找您所在区域的 Databricks 控制平面网络地址转换(NAT)IP 地址。
  2. 将此 IP 地址添加到 Git 服务器的 IP 允许列表。

配置专用 Git 服务器

如果托管专用 Git 服务器,请参阅 为 Azure Databricks Git 文件夹(Repos)设置专用 Git 连接,或联系 Databricks 帐户团队以获取设置说明。

安全功能

Databricks Git 文件夹包括以下安全功能来保护代码和凭据:

加密 Git 凭据

使用 Azure Key Vault 通过自己的加密密钥(客户管理的密钥)加密 Git 个人访问令牌和其他 Git 凭据。

有关详细信息,请参阅 客户管理的加密密钥

Git URL 允许列表

工作区管理员可以限制哪些远程存储库用户可以访问。 这有助于防止代码外泄并强制使用已批准的存储库。

如果将 Microsoft Entra ID 身份验证与 Azure DevOps 配合使用,则默认允许列表将 Git URL 限制为:

  • dev.azure.com
  • visualstudio.com

对于自定义 CNAME 或 Git URL 别名,请配置自定义允许列表,并显式添加这些 URL(如果想要使用这些 URL)。

设置 Git URL 允许列表

配置允许列表:

  1. 单击 Azure Databricks 工作区顶部栏中的用户名,然后选择“设置”

  2. 单击“ 开发”。

  3. 选择一个 Git URL 许可列表权限 选项:

    • 已禁用(无限制): 不启用允许名单强制。
    • 限制克隆、提交和推送到允许的 Git 存储库: 限制所有操作到允许列表中的 URL。
    • 仅将提交和推送操作限制在允许的 Git 存储库: 仅限制写入操作。 克隆和拉取依然不受限制。
  4. 单击编辑图标 编辑图标,它位于 Git URL 允许列表:空列表旁边。

  5. 输入以逗号分隔的 URL 前缀列表。

  6. 单击“保存”

保存新列表会覆盖现有的允许列表。 更改最多可能需要 15 分钟才能生效。

存取控制

注意

只有 高级计划 包括访问控制。

通过设置权限来控制谁可以访问工作区中的 Git 文件夹。 权限适用于 Git 文件夹中的所有内容。 分配以下权限级别之一:

  • NO PERMISSIONS:无法访问 Git 文件夹
  • CAN READ:仅查看文件
  • CAN RUN:查看和运行文件
  • CAN EDIT:查看、运行和修改文件
  • CAN MANAGE:完全控制,包括共享和删除

有关 Git 文件夹权限的详细信息,请参阅 Git 文件夹 ACL

审核日志

启用 审核日志记录时,Databricks 会记录所有 Git 文件夹操作,包括:

  • 创建、更新或删除 Git 文件夹
  • 列出工作区中的 Git 文件夹
  • 同步 Git 文件夹和远程存储库之间的更改

机密检测

提交之前,Git 文件夹会自动扫描代码中公开的凭据。 如果检测到,它会发出警告:

  • AWS 访问密钥 ID 开头 AKIA
  • 其他敏感凭据模式

后续步骤

设置 Git 文件夹后,浏览以下相关主题: