Compartir a través de


Descripción general sobre la configuración de importación de SharePoint

Obtenga información sobre los métodos de autenticación admitidos para la ingesta de SharePoint en Azure Databricks.

Importante

El conector de SharePoint administrado está en Beta. Los administradores del área de trabajo pueden controlar el acceso a esta característica desde la página Vistas previas . Consulte Administración de versiones preliminares de Azure Databricks.

Sugerencia

En esta página se describe el conector de SharePoint administrado para ingerir archivos no estructurados (PDF, DOCX, etc.) para su uso en aplicaciones como RAG.

Para crear canalizaciones personalizadas con el conector de SharePoint, proporcionando control total sobre el análisis, las transformaciones y la ingesta de archivos estructurados (por ejemplo, CSV y Excel) y archivos no estructurados en tablas Delta, vea Ingesta de archivos desde SharePoint.

Elegir el conector de SharePoint

Lakeflow Connect ofrece dos conectores complementarios de SharePoint. Ambos acceden a datos en SharePoint, pero admiten objetivos distintos.

Consideración Conector de SharePoint administrado Conector estándar de SharePoint
Administración y personalización Un conector totalmente administrado.
Conectores sencillos y de bajo mantenimiento para aplicaciones empresariales que ingieren datos en tablas Delta y los mantienen sincronizados con el origen. Consulte Conectores administrados en Lakeflow Connect.
Cree canalizaciones de ingesta personalizadas con SQL, PySpark o canalizaciones declarativas de Lakeflow Spark mediante APIs de streaming y por lotes, como read_files, spark.read, COPY INTO, y "Auto Loader".
Ofrece la flexibilidad de realizar transformaciones complejas durante la ingesta, a la vez que proporciona mayor responsabilidad para administrar y mantener las canalizaciones.
Formato de salida Tabla de contenido binario uniforme. Ingiere cada archivo en formato binario (un archivo por fila), junto con los metadatos de archivo en
columnas adicionales.
Tablas delta estructuradas. Ingiere archivos estructurados (como CSV y Excel) como tablas delta. También se puede usar para ingerir
archivos no estructurados en formato binario.
Granularidad, filtrado y selección Actualmente no hay ninguna selección de nivel de archivo o subcarpeta. No hay filtrado basado en patrones.
Ingiere todos los archivos de la biblioteca de documentos de SharePoint especificada.
Granular y personalizado.
Selección basada en direcciones URL para ingerir desde bibliotecas de documentos, subcarpetas o archivos individuales. También admite el filtrado basado en patrones mediante la pathGlobFilter opción .

¿Qué métodos de autenticación se admiten?

El conector de SharePoint admite los siguientes métodos de autenticación:

¿Qué método de autenticación debo elegir?

En la mayoría de los escenarios, Databricks recomienda OAuth de máquina a máquina (M2M). M2M limita los permisos del conector a un sitio específico. Sin embargo, si desea definir el ámbito de los permisos a los que pueda acceder el usuario autenticado, elija OAuth de usuario a máquina (U2M) en su lugar. Ambos métodos ofrecen actualización automatizada de tokens y mayor seguridad.

La autenticación de actualización manual de tokens se considera un método heredado y no se recomienda.

U2M en comparación con M2M

En la tabla siguiente se comparaN U2M y M2M para la autenticación con SharePoint:

Característica OAuth U2M OAuth M2M
Tipo de autenticación Acceso delegado (basado en el usuario) Acceso solo a la aplicación (entidad de servicio)
Se requiere interacción del usuario Sí: el usuario debe iniciar sesión No: totalmente automatizado
Más adecuado para Escenarios de acceso específicos del usuario Canalizaciones de producción automatizadas
Actualización de tokens Controlado automáticamente por Azure Databricks Controlado automáticamente por Azure Databricks
Permisos de SharePoint Permisos delegados Permisos de aplicación
Ámbito de acceso Limitado a los permisos del usuario Definido por el registro de aplicaciones