Freigeben über


Vergleichen der Dateierkennungsmodi von Autoloader

Der Autoloader unterstützt zwei Modi zum Erkennen neuer Dateien: Verzeichnisauflistung und Dateibenachrichtigung. Sie können Dateiermittlungsmodi über Streamneustarts hinweg wechseln und dennoch Garantien für die Datenverarbeitung genau einmal erhalten.

Verzeichnisauflistungsmodus

Im Verzeichnisauflistungsmodus identifiziert Auto Loader neue Dateien, indem es das Eingabeverzeichnis auflistet. Der Verzeichnisauflistungsmodus ermöglicht ihnen das schnelle Starten von Autoloader-Streams ohne berechtigungsbasierte Konfigurationen außer dem Zugriff auf Ihre Daten im Cloudspeicher.

In Databricks Runtime 9.1 und höher kann der Autoloader automatisch erkennen, ob Dateien mit lexikalischer Reihenfolge in Ihrem Cloudspeicher eintreffen, und die Anzahl der API-Aufrufe, die zum Erkennen neuer Dateien erforderlich sind, erheblich reduzieren. Weitere Details finden Sie unter "Automatisches Laden von Datenströmen mit Verzeichnisauflistungsmodus ".

Der Dateibenachrichtigungsmodus nutzt Dateibenachrichtigungs- und Warteschlangendienste in Ihrem Cloudinfrastrukturkonto. Auto Loader kann automatisch einen Benachrichtigungsdienst und einen Warteschlangendienst einrichten, die Dateiereignisse aus dem Eingabeverzeichnis abonnieren. Wenn Sie Dateiereignisse für den betreffenden externen Speicherort aktivieren, der die betreffenden Dateien enthält, müssen Sie beim Einrichten des Datenstroms für das automatische Laden keine zusätzlichen Berechtigungen angeben.

Der Benachrichtigungsmodus mit Dateiereignissen ist effizienter und besser skalierbar als die Verzeichnisauflistung. Databricks empfiehlt den Dateibenachrichtigungsmodus mithilfe von Dateiereignissen anstelle des Verzeichnislistenmodus für die meisten Workloads. Wenn Sie derzeit Auto Loader im Verzeichnislistenmodus verwenden, empfiehlt Databricks, zum Dateibenachrichtigungsmodus mithilfe von Dateiereignissen zu migrieren, um signifikante Leistungsverbesserungen zu erleben. Siehe Auto Loader-Datenströme im Dateibenachrichtigungsmodus konfigurieren.

Cloud-Speicher wird von Modi unterstützt

Diese Tabelle listet die unterstützte Berechnung für jeden Dateierkennungsmodus vom Cloudspeicheranbieter auf.

Wenn Sie von einem externen Speicherort oder einem DBFS-Mount auf ein Unity Catalog-Volume migrieren, bietet der Auto Loader weiterhin eine Exact-once-Garantie.

Cloudspeicher Verzeichnisauflistung Dateibenachrichtigungen ohne Dateiaktivitäten Dateibenachrichtigungen bei Dateiereignissen
AWS S3 Alle Versionen Alle Versionen Databricks Runtime 14.3 LTS und höher
ADLS Alle Versionen Alle Versionen Databricks Runtime 14.3 LTS und höher
GCS Alle Versionen Alle Versionen Databricks Runtime 14.3 LTS und höher
Azure Blob Storage (Speicherdienst von Azure für unstrukturierte Daten) Alle Versionen Alle Versionen Nicht unterstützt
DBFS Alle Versionen Nur für Bereitstellungspunkte Databricks Runtime 14.3 LTS und höher, wenn der DBFS-Bereitstellungspunkt über einen externen Speicherort verfügt, der im Unity-Katalog definiert ist
Unity Catalog-Volume Databricks Runtime 13.3 LTS und höher Nicht unterstützt Databricks Runtime 14.3 LTS und höher