Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Der Autoloader unterstützt zwei Modi zum Erkennen neuer Dateien: Verzeichnisauflistung und Dateibenachrichtigung. Sie können Dateiermittlungsmodi über Streamneustarts hinweg wechseln und dennoch Garantien für die Datenverarbeitung genau einmal erhalten.
Verzeichnisauflistungsmodus
Im Verzeichnisauflistungsmodus identifiziert Auto Loader neue Dateien, indem es das Eingabeverzeichnis auflistet. Der Verzeichnisauflistungsmodus ermöglicht ihnen das schnelle Starten von Autoloader-Streams ohne berechtigungsbasierte Konfigurationen außer dem Zugriff auf Ihre Daten im Cloudspeicher.
In Databricks Runtime 9.1 und höher kann der Autoloader automatisch erkennen, ob Dateien mit lexikalischer Reihenfolge in Ihrem Cloudspeicher eintreffen, und die Anzahl der API-Aufrufe, die zum Erkennen neuer Dateien erforderlich sind, erheblich reduzieren. Weitere Details finden Sie unter "Automatisches Laden von Datenströmen mit Verzeichnisauflistungsmodus ".
Dateibenachrichtigungsmodus (empfohlen)
Der Dateibenachrichtigungsmodus nutzt Dateibenachrichtigungs- und Warteschlangendienste in Ihrem Cloudinfrastrukturkonto. Auto Loader kann automatisch einen Benachrichtigungsdienst und einen Warteschlangendienst einrichten, die Dateiereignisse aus dem Eingabeverzeichnis abonnieren. Wenn Sie Dateiereignisse für den betreffenden externen Speicherort aktivieren, der die betreffenden Dateien enthält, müssen Sie beim Einrichten des Datenstroms für das automatische Laden keine zusätzlichen Berechtigungen angeben.
Der Benachrichtigungsmodus mit Dateiereignissen ist effizienter und besser skalierbar als die Verzeichnisauflistung. Databricks empfiehlt den Dateibenachrichtigungsmodus mithilfe von Dateiereignissen anstelle des Verzeichnislistenmodus für die meisten Workloads. Wenn Sie derzeit Auto Loader im Verzeichnislistenmodus verwenden, empfiehlt Databricks, zum Dateibenachrichtigungsmodus mithilfe von Dateiereignissen zu migrieren, um signifikante Leistungsverbesserungen zu erleben. Siehe Auto Loader-Datenströme im Dateibenachrichtigungsmodus konfigurieren.
Cloud-Speicher wird von Modi unterstützt
Diese Tabelle listet die unterstützte Berechnung für jeden Dateierkennungsmodus vom Cloudspeicheranbieter auf.
Wenn Sie von einem externen Speicherort oder einem DBFS-Mount auf ein Unity Catalog-Volume migrieren, bietet der Auto Loader weiterhin eine Exact-once-Garantie.
| Cloudspeicher | Verzeichnisauflistung | Dateibenachrichtigungen ohne Dateiaktivitäten | Dateibenachrichtigungen bei Dateiereignissen |
|---|---|---|---|
| AWS S3 | Alle Versionen | Alle Versionen | Databricks Runtime 14.3 LTS und höher |
| ADLS | Alle Versionen | Alle Versionen | Databricks Runtime 14.3 LTS und höher |
| GCS | Alle Versionen | Alle Versionen | Databricks Runtime 14.3 LTS und höher |
| Azure Blob Storage (Speicherdienst von Azure für unstrukturierte Daten) | Alle Versionen | Alle Versionen | Nicht unterstützt |
| DBFS | Alle Versionen | Nur für Bereitstellungspunkte | Databricks Runtime 14.3 LTS und höher, wenn der DBFS-Bereitstellungspunkt über einen externen Speicherort verfügt, der im Unity-Katalog definiert ist |
| Unity Catalog-Volume | Databricks Runtime 13.3 LTS und höher | Nicht unterstützt | Databricks Runtime 14.3 LTS und höher |