创建 Microsoft SharePoint 引入管道

重要

托管 SharePoint 连接器处于 Beta 版中。 工作区管理员可以从 预览 页控制对此功能的访问。 请参阅 管理 Azure Databricks 预览版

本页介绍如何使用 Databricks Lakeflow Connect 创建 Microsoft SharePoint 引入管道。 支持以下接口:

  • Databricks 资产捆绑包
  • Databricks API 接口
  • Databricks SDK
  • Databricks 命令行界面 (CLI)

在您开始之前

若要创建引入管道,必须满足以下要求:

  • 你的工作区必须启用 Unity Catalog。

  • 必须为工作区启用无服务器计算。 请参阅 无服务器计算要求

  • 如果计划创建新的连接:你必须对元存储拥有 CREATE CONNECTION 特权。

    如果连接器支持基于 UI 的管道创作,管理员可以通过完成此页面上的步骤,同时创建连接和管道。 但是,如果创建管道的用户使用基于 API 的管道创作或非管理员用户,则管理员必须先在目录资源管理器中创建连接。 请参阅连接到托管的数据引入源

  • 如果计划使用现有连接:您必须在连接对象上具有 USE CONNECTION 特权或 ALL PRIVILEGES

  • 你必须对目标目录拥有 USE CATALOG 特权。

  • 你必须对现有架构拥有USE SCHEMACREATE TABLE特权,或者对目标目录拥有CREATE SCHEMA特权。

若要从 SharePoint 引入,必须配置支持的身份验证方法。 请参阅 SharePoint 引入设置概述

选项 1:Azure Databricks 笔记本

  1. 将以下笔记本导入工作区:

    创建 SharePoint 引入管道笔记本

    获取笔记本

  2. 保留单元格 1 中的默认值。 请不要修改此单元格。

  3. 如果要在 SharePoint 网站中引入所有驱动器,请修改单元格 2 中的架构规范。 如果你只想在 SharePoint 站点中引入某些驱动器,请删除单元格 2,并修改单元格 3 中的表格设置。

    不要修改 channel。 这一定是 PREVIEW

    要修改的单元格 2 值:

    • name:管道的唯一名称。
    • connection_name:存储 SharePoint 身份验证详细信息的 Unity 目录连接。
    • source_schema:SharePoint 网站 ID。
    • destination_catalog:将包含引入数据的目标目录的名称。
    • destination_schema:将包含引入数据的目标架构的名称。
    • scd_type:要使用的 SCD 方法: SCD_TYPE_1SCD_TYPE_2。 默认值为 SCD 类型 1。 有关详细信息,请参阅“启用历史记录跟踪”(SCD 类型 2)。

    要修改的单元格 3 值:

    • name:管道的唯一名称。
    • connection_name:存储 SharePoint 身份验证详细信息的 Unity 目录连接。
    • source_schema:SharePoint 网站 ID。
    • source_table:SharePoint 驱动器名称。
    • destination_catalog:将包含引入数据的目标目录的名称。
    • destination_schema:将包含引入数据的目标架构的名称。
    • destination_table:如果驱动器名称中具有空格或特殊字符,则必须指定具有有效名称的目标表。 例如,如果驱动器名称为 my drive,则必须指定目标表名称,如下所示 my_drive
    • scd_type:要使用的 SCD 方法: SCD_TYPE_1SCD_TYPE_2。 默认值为 SCD 类型 1。 有关详细信息,请参阅“启用历史记录跟踪”(SCD 类型 2)。
  4. 单击“全部运行”

选项 2:Databricks CLI

运行下面的命令:

databricks pipelines create --json "<pipeline definition or json file path>"

管道定义模板

如果要在 SharePoint 站点中引入所有驱动器,请使用管道定义的架构规格格式。 如果只想在 SharePoint 站点中引入某些驱动器,请改用表规格定义格式。 不要修改 channel。 这一定是 PREVIEW

要修改的架构规格值:

  • name:管道的唯一名称。
  • connection_name:存储 SharePoint 身份验证详细信息的 Unity 目录连接。
  • source_schema:SharePoint 网站 ID。
  • destination_catalog:将包含引入数据的目标目录的名称。
  • destination_schema:将包含引入数据的目标架构的名称。
  • scd_type:要使用的 SCD 方法: SCD_TYPE_1SCD_TYPE_2。 默认值为 SCD 类型 1。 有关详细信息,请参阅“启用历史记录跟踪”(SCD 类型 2)。

架构规格模板:

pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "schema": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""

要修改的表格规格值:

  • name:管道的唯一名称。
  • connection_name:存储 SharePoint 身份验证详细信息的 Unity 目录连接。
  • source_schema:SharePoint 网站 ID。
  • source_table:SharePoint 驱动器名称。
  • destination_catalog:要在其中存储数据
  • destination_catalog:将包含引入数据的目标目录的名称。
  • destination_schema:将包含引入数据的目标架构的名称。
  • scd_type:要使用的 SCD 方法: SCD_TYPE_1SCD_TYPE_2。 默认值为 SCD 类型 1。 有关详细信息,请参阅“启用历史记录跟踪”(SCD 类型 2)。

表规格模板:

pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "table": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "destination_table": "<NAME"> # e.g., "my_drive",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""

后续步骤

  • 在管道上启动、计划和设置警报
  • 可以将原始文档分析为文本、对分析的数据进行分块、从区块创建嵌入等。 然后,可以直接在下游管道中的输出表上使用 readStream 。 请参阅 下游 RAG 用例

其他资源