Azure Databricks 入门
若要使用 Azure Databricks,必须在 Azure 订阅中创建 Azure Databricks 工作区。 工作区是云服务帐户中的 Azure Databricks 部署。 它提供了一个统一的环境,用于为一组指定的用户使用 Azure Databricks 资产。
可以通过以下方式创建 Azure Databricks 工作区:
- 使用 Azure 门户用户界面。
- 使用 Azure 资源管理器(ARM)、Bicep 或 Terraform 模板。
- 使用 New-AzDatabricksWorkspace Azure PowerShell cmdlet
- 使用 az databricks workspace create 命令在 Azure 命令行接口(CLI)中创建工作区。
创建工作区时,必须指定:
- 工作区名称。
- 选择可用 区域。 有关可用区域,请参阅 按区域提供的 Azure 服务。
-
定价层:
- 标准 - 具有 Microsoft Entra ID 集成的 Core Apache Spark 功能。
- 高级 - 基于角色的访问控制和其他企业级功能。
- 试用版 - 高级工作区的 14 天免费试用版
- 托管资源组名称 (可选):自动创建的资源组,其中 Azure 预配和管理 Databricks 工作区所需的基础结构资源。
如果您决定使用 Azure CLI 创建 Azure Databricks 部署,您需要记住以下 az databricks workspace 命令:
az databricks workspace create
--resource-group myresourcegroup \
--name mydatabricksws \
--location westus2 \
--sku standard
等效的 New-AzDatabricksWorkspace PowerShell cmdlet:
New-AzDatabricksWorkspace -Name mydatabricksws -ResourceGroupName myresourcegroup -Location westus2 -ManagedResourceGroupName databricks-group -Sku standard
导航 Azure Databricks 工作区用户界面
预配 Azure Databricks 工作区后,可以使用工作区 UI 处理数据和计算资源。 工作区 UI 是一个基于 Web 的用户界面,可在其中创建和管理工作区资源,例如 Spark 群集,并使用笔记本和查询处理文件和表中的数据。
主页提供了常见任务和工作区对象的快捷方式,可帮助你入门。 可以导入数据、创建笔记本、创建查询和配置 AutoML 试验。
边栏显示常见的 Databricks 类别(工作区、最近使用、目录、作业和管道、计算、市场)。 然后,它按产品区域划分:
- SQL:SQL 编辑器、查询、仪表板、Genie、警报、查询历史记录、SQL 仓库
- 数据工程:作业运行,数据引入
- 机器学习:平台、实验、特征、模型、服务部署
选择 “+ 新建”:
- 创建工作区对象 ,例如笔记本、查询、存储库、仪表板、警报、作业、管道、试验、模型和服务终结点。
- 创建计算资源 ,例如群集、SQL 仓库和 ML 终结点。
使用顶部栏搜索工作区对象,例如笔记本、查询、仪表板、警报、文件、文件夹、库、在 Unity 目录注册的表、作业和存储库。 还可以访问搜索栏中最近查看的对象。
工作区以 多种语言提供。 若要更改工作区语言,请在顶部导航栏中选择用户名,选择 “设置” 并转到“ 首选项 ”选项卡。
从 Databricks 助手获取帮助
Databricks 助手 是一种由 AI 提供支持的对程序员和支持工具,它通过直接在笔记本、仪表板和文件中生成、解释和修复代码或查询,帮助你更高效地在 Databricks 中工作。
它可以帮助完成各种任务,包括识别和更正错误、创建数据可视化效果、诊断作业问题,以及使用自然语言提示筛选或分析数据。 助手可以从 Azure Databricks 文档中呈现相关指南。
通过使用 Unity 目录元数据,它可以根据组织的数据资产(表、列和说明)对响应进行个性化设置,以便更轻松地浏览和使用数据。