重要
托管 SharePoint 连接器处于 Beta 版中。 工作区管理员可以从 预览 页控制对此功能的访问。 请参阅 管理 Azure Databricks 预览版。
本页介绍如何使用 Databricks Lakeflow Connect 创建 Microsoft SharePoint 引入管道。 支持以下接口:
- Databricks 资产捆绑包
- Databricks API 接口
- Databricks SDK
- Databricks 命令行界面 (CLI)
在您开始之前
若要创建引入管道,必须满足以下要求:
你的工作区必须启用 Unity Catalog。
必须为工作区启用无服务器计算。 请参阅 无服务器计算要求。
如果计划创建新的连接:你必须对元存储拥有
CREATE CONNECTION特权。如果连接器支持基于 UI 的管道创作,管理员可以通过完成此页面上的步骤,同时创建连接和管道。 但是,如果创建管道的用户使用基于 API 的管道创作或非管理员用户,则管理员必须先在目录资源管理器中创建连接。 请参阅连接到托管的数据引入源。
如果计划使用现有连接:您必须在连接对象上具有
USE CONNECTION特权或ALL PRIVILEGES。你必须对目标目录拥有
USE CATALOG特权。你必须对现有架构拥有
USE SCHEMA和CREATE TABLE特权,或者对目标目录拥有CREATE SCHEMA特权。
若要从 SharePoint 引入,必须配置支持的身份验证方法。 请参阅 SharePoint 引入设置概述。
选项 1:Azure Databricks 笔记本
将以下笔记本导入工作区:
创建 SharePoint 引入管道笔记本
保留单元格 1 中的默认值。 请不要修改此单元格。
如果要在 SharePoint 网站中引入所有驱动器,请修改单元格 2 中的架构规范。 如果你只想在 SharePoint 站点中引入某些驱动器,请删除单元格 2,并修改单元格 3 中的表格设置。
不要修改
channel。 这一定是PREVIEW。要修改的单元格 2 值:
-
name:管道的唯一名称。 -
connection_name:存储 SharePoint 身份验证详细信息的 Unity 目录连接。 -
source_schema:SharePoint 网站 ID。 -
destination_catalog:将包含引入数据的目标目录的名称。 -
destination_schema:将包含引入数据的目标架构的名称。 -
scd_type:要使用的 SCD 方法:SCD_TYPE_1或SCD_TYPE_2。 默认值为 SCD 类型 1。 有关详细信息,请参阅“启用历史记录跟踪”(SCD 类型 2)。
要修改的单元格 3 值:
-
name:管道的唯一名称。 -
connection_name:存储 SharePoint 身份验证详细信息的 Unity 目录连接。 -
source_schema:SharePoint 网站 ID。 -
source_table:SharePoint 驱动器名称。 -
destination_catalog:将包含引入数据的目标目录的名称。 -
destination_schema:将包含引入数据的目标架构的名称。 -
destination_table:如果驱动器名称中具有空格或特殊字符,则必须指定具有有效名称的目标表。 例如,如果驱动器名称为my drive,则必须指定目标表名称,如下所示my_drive。 -
scd_type:要使用的 SCD 方法:SCD_TYPE_1或SCD_TYPE_2。 默认值为 SCD 类型 1。 有关详细信息,请参阅“启用历史记录跟踪”(SCD 类型 2)。
-
单击“全部运行”。
选项 2:Databricks CLI
运行下面的命令:
databricks pipelines create --json "<pipeline definition or json file path>"
管道定义模板
如果要在 SharePoint 站点中引入所有驱动器,请使用管道定义的架构规格格式。 如果只想在 SharePoint 站点中引入某些驱动器,请改用表规格定义格式。 不要修改 channel。 这一定是 PREVIEW。
要修改的架构规格值:
-
name:管道的唯一名称。 -
connection_name:存储 SharePoint 身份验证详细信息的 Unity 目录连接。 -
source_schema:SharePoint 网站 ID。 -
destination_catalog:将包含引入数据的目标目录的名称。 -
destination_schema:将包含引入数据的目标架构的名称。 -
scd_type:要使用的 SCD 方法:SCD_TYPE_1或SCD_TYPE_2。 默认值为 SCD 类型 1。 有关详细信息,请参阅“启用历史记录跟踪”(SCD 类型 2)。
架构规格模板:
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"schema": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
}
]
},
"channel": "PREVIEW"
}
"""
要修改的表格规格值:
-
name:管道的唯一名称。 -
connection_name:存储 SharePoint 身份验证详细信息的 Unity 目录连接。 -
source_schema:SharePoint 网站 ID。 -
source_table:SharePoint 驱动器名称。 -
destination_catalog:要在其中存储数据 -
destination_catalog:将包含引入数据的目标目录的名称。 -
destination_schema:将包含引入数据的目标架构的名称。 -
scd_type:要使用的 SCD 方法:SCD_TYPE_1或SCD_TYPE_2。 默认值为 SCD 类型 1。 有关详细信息,请参阅“启用历史记录跟踪”(SCD 类型 2)。
表规格模板:
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"table": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"destination_table": "<NAME"> # e.g., "my_drive",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
}
]
},
"channel": "PREVIEW"
}
"""
后续步骤
- 在管道上启动、计划和设置警报。
- 可以将原始文档分析为文本、对分析的数据进行分块、从区块创建嵌入等。 然后,可以直接在下游管道中的输出表上使用
readStream。 请参阅 下游 RAG 用例。