Freigeben über


Übersicht über die Konfiguration der SharePoint-Erfassung

Erfahren Sie mehr über die unterstützten Authentifizierungsmethoden für die SharePoint-Aufnahme in Azure Databricks.

Von Bedeutung

Der verwaltete SharePoint-Connector befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Verwalten von Azure Databricks-Vorschauen.

Tipp

Auf dieser Seite wird der verwaltete SharePoint-Connector zum Aufnehmen unstrukturierter Dateien (PDFs, DOCX und mehr) für die Verwendung in Anwendungen wie RAG behandelt.

Informationen zum Erstellen von benutzerdefinierten Pipelines mit dem SharePoint-Connector, die vollständige Kontrolle über die Analyse, Transformationen und Aufnahme von strukturierten Dateien (z. B. CSV und Excel) und unstrukturierten Dateien in Delta-Tabellen finden Sie unter "Ingestieren von Dateien aus SharePoint".

Auswählen Ihres SharePoint-Connectors

Lakeflow Connect bietet zwei ergänzende SharePoint-Connectors. Beide greifen in SharePoint auf Daten zu, unterstützen jedoch unterschiedliche Ziele.

Überlegung Verwalteter SharePoint-Connector Standard-SharePoint-Connector
Verwaltung und Anpassung Ein vollständig verwalteter Steckverbinder.
Einfache, wartungsarme Connectors für Unternehmensanwendungen, die Daten in Delta-Tabellen aufnehmen und mit der Quelle synchronisieren. Siehe Managed Connectors in Lakeflow Connect.
Erstellen Sie benutzerdefinierte Aufnahmepipelines mit SQL, PySpark oder Lakeflow Spark Declarative Pipelines mithilfe von Batch- und Streaming-APIs wie read_files, spark.read, COPY INTO und Auto Loader.
Bietet die Flexibilität, komplexe Transformationen während der Aufnahme durchzuführen, und bietet Ihnen eine größere Verantwortung für die Verwaltung und Wartung Ihrer Pipelines.
Ausgabeformat Einheitliche Binärinhaltstabelle. Verarbeitet jede Datei im Binärformat (eine Datei pro Zeile) zusammen mit den Dateimetadaten.
zusätzliche Spalten.
Strukturierte Delta-Tabellen. Nimmt strukturierte Dateien (z. B. CSV und Excel) als Delta-Tabellen ein. Kann auch zum Aufnehmen verwendet werden
unstrukturierte Dateien im Binärformat.
Granularität, Filterung und Auswahl Heute gibt es keine Auswahl auf Unterordner- oder Dateiebene. Keine musterbasierte Filterung.
Nimmt alle Dateien in der angegebenen SharePoint-Dokumentbibliothek ein.
Granular und benutzerdefiniert.
URL-basierte Auswahl, die aus Dokumentbibliotheken, Unterordnern oder einzelnen Dateien aufgenommen werden soll. Unterstützt auch die Filterung basierend auf Mustern mithilfe der pathGlobFilter Option.

Welche Authentifizierungsmethoden werden unterstützt?

Der SharePoint-Connector unterstützt die folgenden Authentifizierungsmethoden:

Welche Authentifizierungsmethode sollte ich auswählen?

In den meisten Szenarien empfiehlt Databricks Machine-to-Machine (M2M) OAuth. M2M-Bereichskonnektorberechtigungen für einen bestimmten Standort. Wollen Sie jedoch die Berechtigungen auf das beschränken, worauf der authentifizierende Benutzer Zugriff hat, wählen Sie stattdessen Benutzer-zu-Maschine (U2M) OAuth. Beide Methoden bieten automatisierte Tokenaktualisierung und erhöhte Sicherheit.

Manuelle Tokenaktualisierungsauthentifizierung wird als Legacymethode betrachtet und wird nicht empfohlen.

U2M im Vergleich zu M2M

In der folgenden Tabelle werden U2M und M2M für die Authentifizierung mit SharePoint verglichen:

Merkmal OAuth U2M OAuth M2M
Authentifizierungsart Delegierter Zugriff (benutzerbasiert) Nur-App-Zugriff (Dienstprinzipal)
Benutzerinteraktion erforderlich Ja – Der Benutzer muss sich anmelden Nein – Vollautomatisiert
Am besten geeignet für: Benutzerspezifische Zugriffsszenarien Automatisierte Produktionspipelinen
Tokenaktualisierung Automatisch von Azure Databricks verarbeitet Automatisch von Azure Databricks verarbeitet
SharePoint-Berechtigungen Delegierte Berechtigungen Anwendungsberechtigungen
Zugriffsbereich Beschränkt auf Benutzerberechtigungen Definiert durch die App-Registrierung