Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Découvrez les méthodes d’authentification prises en charge pour l’ingestion SharePoint dans Azure Databricks.
Important
Le connecteur SharePoint géré est en version bêta. Les administrateurs d’espace de travail peuvent contrôler l’accès à cette fonctionnalité à partir de la page Aperçus . Consultez Gérer les préversions d’Azure Databricks.
Conseil / Astuce
Cette page couvre le connecteur SharePoint managé pour l’ingestion de fichiers non structurés (PDF, DOCX, etc.) à utiliser dans des applications telles que RAG.
Pour créer des pipelines personnalisés avec le connecteur SharePoint, en fournissant un contrôle total sur l’analyse, les transformations et l’ingestion des fichiers structurés (par exemple, CSV et Excel) et des fichiers non structurés dans des tables Delta, consultez Ingestion de fichiers à partir de SharePoint.
Choisir votre connecteur SharePoint
Lakeflow Connect offre deux connecteurs SharePoint complémentaires. Ils accèdent tous deux aux données dans SharePoint, mais ils prennent en charge des objectifs distincts.
| Considération | Connecteur SharePoint managé | Connecteur SharePoint standard |
|---|---|---|
| Gestion et personnalisation | Connecteur complètement managé. Connecteurs simples et à faible maintenance pour les applications d’entreprise qui ingèrent des données dans des tables Delta et les conservent synchronisées avec la source. Consultez Connecteurs gérés dans Lakeflow Connect. |
Créez des pipelines d’ingestion personnalisés avec SQL, PySpark ou des pipelines Lakeflow Spark Déclaratifs à l’aide d’API de traitement par lots et de diffusion en continu telles que read_files, spark.read, COPY INTO, et Auto Loader.Offre la possibilité d’effectuer des transformations complexes pendant l’ingestion, tout en vous donnant une plus grande responsabilité pour la gestion et la maintenance de vos pipelines. |
| Format de sortie | Table de contenu binaire uniforme. Ingère chaque fichier au format binaire (un fichier par ligne), ainsi que les métadonnées de fichier dans colonnes supplémentaires. |
Tables Delta structurées. Ingestion de fichiers structurés (comme CSV et Excel) en tant que tables Delta. Peut également être utilisé pour ingérer fichiers non structurés au format binaire. |
| Granularité, filtrage et sélection | Aucun sous-dossier ou sélection au niveau du fichier aujourd’hui. Aucun filtrage basé sur des modèles. Ingère tous les fichiers dans la bibliothèque de documents SharePoint spécifiée. |
Granulaire et personnalisé. Sélection basée sur l’URL à ingérer à partir de bibliothèques de documents, de sous-dossiers ou de fichiers individuels. Prend également en charge le filtrage basé sur des modèles à l’aide de l’option pathGlobFilter . |
Quelles méthodes d’authentification sont prises en charge ?
Le connecteur SharePoint prend en charge les méthodes d’authentification suivantes :
Quelle méthode d’authentification dois-je choisir ?
Dans la plupart des scénarios, Databricks recommande l’OAuth machine à machine (M2M). Les autorisations du connecteur M2M s’étendent à un site spécifique. Toutefois, si vous souhaitez restreindre les autorisations à ce que l'utilisateur qui s'authentifie peut accéder, choisissez plutôt OAuth utilisateur-à-machine (U2M). Les deux méthodes offrent une actualisation automatisée des jetons et une sécurité accrue.
L’authentification manuelle de l’actualisation des jetons est considérée comme une méthode héritée et n’est pas recommandée.
U2M comparé à M2M
Le tableau suivant compare U2M et M2M pour l’authentification auprès de SharePoint :
| Caractéristique | OAuth U2M | OAuth M2M |
|---|---|---|
| Type d’authentification | Accès délégué (basé sur l’utilisateur) | Accès uniquement aux applications (principal de service) |
| Interaction utilisateur requise | Oui : l’utilisateur doit se connecter | Non - Entièrement automatisé |
| Idéal pour | Scénarios d’accès spécifiques à l’utilisateur | Pipelines de production automatisés |
| Actualisation du jeton | Géré automatiquement par Azure Databricks | Géré automatiquement par Azure Databricks |
| Autorisations SharePoint | Autorisations déléguées | Autorisations de l’application |
| Étendue d’accès | Limité aux autorisations de l’utilisateur | Défini par l'enregistrement de l'application |