创建 Microsoft SharePoint 引入管道

重要

托管 SharePoint 连接器处于 Beta 版中。工作区管理员可以从预览页控制对此功能的访问。请参阅管理 Azure Databricks 预览版。

本页介绍如何使用 Databricks Lakeflow Connect 创建 Microsoft SharePoint 引入管道。支持以下接口：

Databricks 资产捆绑包
Databricks API 接口
Databricks SDK
Databricks 命令行界面 (CLI)

在您开始之前

若要创建引入管道，必须满足以下要求：

你的工作区必须启用 Unity Catalog。
必须为工作区启用无服务器计算。请参阅无服务器计算要求。
如果计划创建新的连接：你必须对元存储拥有 CREATE CONNECTION 特权。

如果连接器支持基于 UI 的管道创作，管理员可以通过完成此页面上的步骤，同时创建连接和管道。但是，如果创建管道的用户使用基于 API 的管道创作或非管理员用户，则管理员必须先在目录资源管理器中创建连接。请参阅连接到托管的数据引入源。
如果计划使用现有连接：您必须在连接对象上具有 USE CONNECTION 特权或 ALL PRIVILEGES。
你必须对目标目录拥有 USE CATALOG 特权。
你必须对现有架构拥有USE SCHEMA和CREATE TABLE特权，或者对目标目录拥有CREATE SCHEMA特权。

若要从 SharePoint 引入，必须配置支持的身份验证方法。请参阅 SharePoint 引入设置概述。

选项 1：Azure Databricks 笔记本

将以下笔记本导入工作区：

创建 SharePoint 引入管道笔记本

获取笔记本
保留单元格 1 中的默认值。请不要修改此单元格。
如果要在 SharePoint 网站中引入所有驱动器，请修改单元格 2 中的架构规范。如果你只想在 SharePoint 站点中引入某些驱动器，请删除单元格 2，并修改单元格 3 中的表格设置。

不要修改 channel。这一定是 PREVIEW。

要修改的单元格 2 值：
- name：管道的唯一名称。
- connection_name：存储 SharePoint 身份验证详细信息的 Unity 目录连接。
- source_schema：SharePoint 网站 ID。
- destination_catalog：将包含引入数据的目标目录的名称。
- destination_schema：将包含引入数据的目标架构的名称。
- scd_type：要使用的 SCD 方法： SCD_TYPE_1 或 SCD_TYPE_2。默认值为 SCD 类型 1。有关详细信息，请参阅“启用历史记录跟踪”（SCD 类型 2）。
要修改的单元格 3 值：
- name：管道的唯一名称。
- connection_name：存储 SharePoint 身份验证详细信息的 Unity 目录连接。
- source_schema：SharePoint 网站 ID。
- source_table：SharePoint 驱动器名称。
- destination_catalog：将包含引入数据的目标目录的名称。
- destination_schema：将包含引入数据的目标架构的名称。
- destination_table：如果驱动器名称中具有空格或特殊字符，则必须指定具有有效名称的目标表。例如，如果驱动器名称为 my drive，则必须指定目标表名称，如下所示 my_drive。
- scd_type：要使用的 SCD 方法： SCD_TYPE_1 或 SCD_TYPE_2。默认值为 SCD 类型 1。有关详细信息，请参阅“启用历史记录跟踪”（SCD 类型 2）。
单击“全部运行”。

选项 2：Databricks CLI

运行下面的命令：

databricks pipelines create --json "<pipeline definition or json file path>"

管道定义模板

如果要在 SharePoint 站点中引入所有驱动器，请使用管道定义的架构规格格式。如果只想在 SharePoint 站点中引入某些驱动器，请改用表规格定义格式。不要修改 channel。这一定是 PREVIEW。

要修改的架构规格值：

name：管道的唯一名称。
connection_name：存储 SharePoint 身份验证详细信息的 Unity 目录连接。
source_schema：SharePoint 网站 ID。
destination_catalog：将包含引入数据的目标目录的名称。
destination_schema：将包含引入数据的目标架构的名称。
scd_type：要使用的 SCD 方法： SCD_TYPE_1 或 SCD_TYPE_2。默认值为 SCD 类型 1。有关详细信息，请参阅“启用历史记录跟踪”（SCD 类型 2）。

架构规格模板：

pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "schema": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""

要修改的表格规格值：

name：管道的唯一名称。
connection_name：存储 SharePoint 身份验证详细信息的 Unity 目录连接。
source_schema：SharePoint 网站 ID。
source_table：SharePoint 驱动器名称。
destination_catalog：要在其中存储数据
destination_catalog：将包含引入数据的目标目录的名称。
destination_schema：将包含引入数据的目标架构的名称。
scd_type：要使用的 SCD 方法： SCD_TYPE_1 或 SCD_TYPE_2。默认值为 SCD 类型 1。有关详细信息，请参阅“启用历史记录跟踪”（SCD 类型 2）。

表规格模板：

pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "table": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "destination_table": "<NAME"> # e.g., "my_drive",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""

后续步骤

在管道上启动、计划和设置警报。
可以将原始文档分析为文本、对分析的数据进行分块、从区块创建嵌入等。然后，可以直接在下游管道中的输出表上使用 readStream 。请参阅下游 RAG 用例。

其他资源

常见模式：

反馈

此页面是否有帮助？

Last updated on 2025-12-12

通过

创建 Microsoft SharePoint 引入管道

在您开始之前

选项 1：Azure Databricks 笔记本

创建 SharePoint 引入管道笔记本

选项 2：Databricks CLI

管道定义模板

后续步骤

其他资源

反馈

其他资源