SharePoint 引入设置概述

了解 SharePoint 引入 Azure Databricks 中支持的身份验证方法。

重要

托管 SharePoint 连接器处于 Beta 版中。 工作区管理员可以从 预览 页控制对此功能的访问。 请参阅 管理 Azure Databricks 预览版

小窍门

本页介绍用于引入非结构化文件(PDF、DOCX 等)的托管 SharePoint 连接器,以便在 RAG 等应用程序中使用。

若要使用 SharePoint 连接器构建自定义管道,并对结构化文件(例如 CSV 和 Excel)以及非结构化文件进行解析、转换和导入以完全控制,请参阅 从 SharePoint 引入文件

选择 SharePoint 连接器

Lakeflow Connect 提供两个互补的 SharePoint 连接器。 它们都访问 SharePoint 中的数据,但它们支持不同的目标。

注意事项 管理 SharePoint 连接器 标准 SharePoint 连接器
管理和自定义 完全托管的连接器。
用于将数据引入 Delta 表并使其与源保持同步的企业应用程序的简单低维护连接器。 请参阅 Lakeflow Connect 中的托管连接器
使用 SQL、PySpark 或 Lakeflow Spark 声明性管道,以及批处理和流式处理 API(例如read_filesspark.readCOPY INTO和自动加载器),生成自定义数据引入管道。
提供在数据引入过程中进行复杂转换的灵活性,同时增加您在管理和维护管道方面的责任。
输出格式 统一二进制内容表。 以二进制格式加载每个文件(每行对应一个文件),以及文件元数据。
附加列。
结构化 Delta 表。 将结构化文件(如 CSV 和 Excel)引入为 Delta 表。 还可用于引入
采用二进制格式的非结构化文件。
粒度、筛选和选择 目前没有子文件夹或文件级别选择。 无基于模式的筛选。
引入指定 SharePoint 文档库中的所有文件。
粒度和自定义。
选择基于 URL 从文档库、子文件夹或单个文件进行收集。 还支持使用 pathGlobFilter 选项基于模式的筛选。

支持哪些身份验证方法?

SharePoint 连接器支持以下身份验证方法:

应选择哪种身份验证方法?

在大多数情况下,Databricks 建议使用机器对机器 (M2M) OAuth。 M2M 将连接器权限限定为特定站点。 但是,如果要将权限限定为任何身份验证用户可以访问的权限,请改为选择用户到计算机 (U2M) OAuth。 这两种方法都提供自动令牌刷新和增强的安全性。

手动令牌刷新身份验证被视为旧方法,不建议这样做。

U2M 与 M2M 相比

下表比较了用于向 SharePoint 进行身份验证的 U2M 和 M2M:

功能 / 特点 OAuth U2M OAuth M2M
身份验证类型 委派访问权限(基于用户) 仅限应用访问(服务主体)
需要用户交互 是 - 用户必须登录 否 - 完全自动化
最适用于 用户特定的访问方案 自动化生产管道
令牌刷新 由 Azure Databricks 自动处理 由 Azure Databricks 自动处理
SharePoint 权限 委托的权限 应用程序权限
访问范围 仅限于用户的权限 由应用注册定义