创建工作区

本文概述了用于创建和管理工作区的选项。

什么是工作区?

工作区是云服务帐户中的 Azure Databricks 部署。 它提供了一个统一的环境,用于处理一组指定用户的 Azure Databricks 资产。

有两种类型的 Databricks 工作区可用:

  • 无服务器工作区(公共预览版):Databricks 帐户中的工作区部署,该帐户预配置了无服务器计算和默认存储,以提供完全无服务器的体验。 仍可以从无服务器工作区连接到云存储。
  • 经典工作区:Databricks 帐户中的工作区部署,用于预配现有云帐户中的存储和计算资源。 无服务器计算仍可在经典工作区中使用。

要求

在创建 Azure Databricks 工作区之前,必须具有一个 Azure 订阅,并且该订阅不是 免费试用版订阅

如果你有免费帐户,请完成以下步骤:

  1. 转到个人资料并将订阅更改为“即用即付”。 请参阅 Azure 免费帐户
  2. 删除支出限制
  3. 对你所在区域中的 vCPU 请求增加配额

所需的 Azure 权限

若要创建 Azure Databricks 工作区,必须具有以下项之一:

  • 订阅级别具有 Azure 参与者所有者 角色的用户。

  • 具有具有以下权限列表的自定义角色定义的用户:

    • Microsoft.Databricks/workspaces/*
    • Microsoft.Resources/subscriptions/resourceGroups/read
    • Microsoft.Resources/subscriptions/resourceGroups/write
    • Microsoft.Databricks/accessConnectors/*
    • Microsoft.Compute/register/action
    • Microsoft.ManagedIdentity/register/action
    • Microsoft.Storage/register/action
    • Microsoft.Network/register/action
    • Microsoft.Resources/deployments/validate/action
    • Microsoft.Resources/deployments/write
    • Microsoft.Resources/deployments/read

注释

如果这些提供程序已在订阅中注册,则不需要 Microsoft.Compute/register/actionMicrosoft.ManagedIdentity/register/actionMicrosoft.Storage/register/action Microsoft.Network/register/action 权限。 请参阅注册资源提供程序

选择工作区类型

以下部分介绍最适合常见用例的工作区类型。 使用这些建议可帮助你确定是应该部署无服务器工作区还是经典工作区。

何时选择无服务器工作区

无服务器工作区是以下用例的最佳选择:

  • 使业务用户能够访问 Databricks One
  • 创建 AI/BI 仪表板
  • 创建 Databricks 应用
  • 使用笔记本或 SQL 仓库执行探索性分析
  • 通过 Lakehouse Federation 连接到 SaaS 提供商(而不是通过 Lakeflow Connect)
  • 将 Genie Spaces 用于业务用例
  • 在将其迁移到生产环境之前测试新的马赛克 AI 功能
  • 创建无服务器架构的 Lakeflow Spark 声明式管道

何时选择经典工作区

经典工作区是以下用例的最佳选择:

  • 执行需要 GPU 的 AI 或 ML 开发工作
  • 将 Databricks Runtime 用于机器学习或 Apache Spark MLib
  • 将现有使用 Spark RDD 的旧 Spark 代码移植到新的平台
  • 使用 Scala 或 R 作为主要编码语言
  • 需要默认或基于时间的触发器间隔的流数据
  • 通过 PrivateLink 连接连接到 Databricks API
  • 通过 Lakeflow Connect 直接连接到本地系统或专用数据库

工作区创建选项

可通过多种方式部署 Azure Databricks 工作区。 标准部署方法通过 Azure 门户或 Terraform。

此外,还可以使用以下工具创建工作区: