Azure Databricks Git 文件夹是一个可视化的 Git 客户端和 API,用于在工作区中集成 Git 存储库。 使用 Git 文件夹在笔记本和文件中开发代码,同时遵循使用 Git 进行版本控制、协作和 CI/CD 的软件开发最佳做法。 Git 文件夹支持常见的 Git作,例如克隆存储库、提交和推送、拉取、分支管理和直观比较提交时的差异。
此页面涵盖:
Git 文件夹功能
Azure Databricks Git 文件夹通过与 Git 提供程序集成,为数据和 AI 项目提供源代码管理。
使用 Azure Databricks 工作区中的 Git 功能可以:
- 克隆、推送到远程 Git 存储库以及从存储库拉取。
- 创建和管理用于开发工作的分支,包括合并、变基和解决冲突。
- 创建笔记本,包括 IPYNB 笔记本,并编辑它们和其他文件。
- 直观地比较提交时的差异并解决合并冲突。
有关分步说明,请参阅 在 Databricks Git 文件夹上运行 Git 操作。
Git 目录 API
Azure Databricks Git 文件夹具有一个 API ,可与您的 CI/CD 管道集成。 例如,以编程方式更新工作区 Git 文件夹,使其始终具有最新版本的代码。 有关使用 Azure Databricks Git 文件夹进行代码开发的最佳做法的信息,请参阅 包含 Databricks Git 文件夹的 CI/CD。
Git 提供程序
Git 提供程序是托管基于 Git 的源代码管理系统的服务。 这些平台采用两种主要形式:由供应商托管的云服务,或组织在其自己的硬件上安装和管理的本地服务。 许多提供商(包括 GitHub、Microsoft、GitLab 和 Atlassian)都提供云 SaaS 和本地(通常称为“自管理”)选项。
Azure Databricks Git 文件夹使用集成的 Git 存储库。 以下部分中列出的任何云或企业 Git 提供程序都可以托管存储库。
在配置过程中选择 Git 提供程序时,请确保了解云(SaaS)与本地系统之间的差异。 组织通常会在 VPN 后面托管自管理提供程序,这使得它们无法从公共 Internet 访问。 这些版本通常在其名称中包含“服务器”或“自管理”。 如果不确定组织使用哪个组织,请检查提供商的文档或询问公司管理员。
如果您的云 Git 提供程序未显示在受支持的提供程序列表中,可以选择 GitHub 作为备用选项,但这不能保证一定有效。
注释
如果使用 GitHub 作为提供商,并且仍然不确定使用的是云版本还是本地版本,请参阅 GitHub 文档中的“关于 GitHub Enterprise Server ”。
支持的云 Git 服务商
Azure Databricks Git 文件夹与以下基于云的 Git 提供程序集成:
- GitHub、GitHub Advanced Enterprise 和 GitHub Enterprise Cloud
- Atlassian Bitbucket Cloud
- GitLab 和 GitLab Enterprise Edition
- Microsoft Azure DevOps (Azure Repos)
支持的本地 Git 提供程序
Azure Databricks Git 文件夹与以下本地 Git 提供程序集成:
- GitHub Enterprise Server
- Atlassian Bitbucket 服务器和数据中心
- GitLab 自托管
- Microsoft Azure DevOps Server:如果 URL 不匹配
dev.azure.com/*visualstudio.com/*,工作区管理员必须显式允许列出 Microsoft Azure DevOps Server 的 URL 域前缀。 请参阅 Git URL 允许列表。
如果要集成无法从 Internet 访问的本地 Git 存储库,则还必须在公司的 VPN 中为 Git 身份验证请求安装代理。 请参阅为 Azure Databricks Git 文件夹 (Repos) 设置专用 Git 连接。
要了解如何将访问令牌用于 Git 提供程序,请参阅《配置 Git 凭据和将远程存储库连接到 Azure Databricks》。