了解 SharePoint 引入 Azure Databricks 中支持的身份验证方法。
重要
托管 SharePoint 连接器处于 Beta 版中。 工作区管理员可以从 预览 页控制对此功能的访问。 请参阅 管理 Azure Databricks 预览版。
小窍门
本页介绍用于引入非结构化文件(PDF、DOCX 等)的托管 SharePoint 连接器,以便在 RAG 等应用程序中使用。
若要使用 SharePoint 连接器构建自定义管道,并对结构化文件(例如 CSV 和 Excel)以及非结构化文件进行解析、转换和导入以完全控制,请参阅 从 SharePoint 引入文件。
选择 SharePoint 连接器
Lakeflow Connect 提供两个互补的 SharePoint 连接器。 它们都访问 SharePoint 中的数据,但它们支持不同的目标。
| 注意事项 | 管理 SharePoint 连接器 | 标准 SharePoint 连接器 |
|---|---|---|
| 管理和自定义 | 完全托管的连接器。 用于将数据引入 Delta 表并使其与源保持同步的企业应用程序的简单低维护连接器。 请参阅 Lakeflow Connect 中的托管连接器。 |
使用 SQL、PySpark 或 Lakeflow Spark 声明性管道,以及批处理和流式处理 API(例如read_files、spark.read、COPY INTO和自动加载器),生成自定义数据引入管道。提供在数据引入过程中进行复杂转换的灵活性,同时增加您在管理和维护管道方面的责任。 |
| 输出格式 | 统一二进制内容表。 以二进制格式加载每个文件(每行对应一个文件),以及文件元数据。 附加列。 |
结构化 Delta 表。 将结构化文件(如 CSV 和 Excel)引入为 Delta 表。 还可用于引入 采用二进制格式的非结构化文件。 |
| 粒度、筛选和选择 | 目前没有子文件夹或文件级别选择。 无基于模式的筛选。 引入指定 SharePoint 文档库中的所有文件。 |
粒度和自定义。 选择基于 URL 从文档库、子文件夹或单个文件进行收集。 还支持使用 pathGlobFilter 选项基于模式的筛选。 |
支持哪些身份验证方法?
SharePoint 连接器支持以下身份验证方法:
应选择哪种身份验证方法?
在大多数情况下,Databricks 建议使用机器对机器 (M2M) OAuth。 M2M 将连接器权限限定为特定站点。 但是,如果要将权限限定为任何身份验证用户可以访问的权限,请改为选择用户到计算机 (U2M) OAuth。 这两种方法都提供自动令牌刷新和增强的安全性。
手动令牌刷新身份验证被视为旧方法,不建议这样做。
U2M 与 M2M 相比
下表比较了用于向 SharePoint 进行身份验证的 U2M 和 M2M:
| 功能 / 特点 | OAuth U2M | OAuth M2M |
|---|---|---|
| 身份验证类型 | 委派访问权限(基于用户) | 仅限应用访问(服务主体) |
| 需要用户交互 | 是 - 用户必须登录 | 否 - 完全自动化 |
| 最适用于 | 用户特定的访问方案 | 自动化生产管道 |
| 令牌刷新 | 由 Azure Databricks 自动处理 | 由 Azure Databricks 自动处理 |
| SharePoint 权限 | 委托的权限 | 应用程序权限 |
| 访问范围 | 仅限于用户的权限 | 由应用注册定义 |