Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Moduł automatycznego ładowania obsługuje dwa tryby wykrywania nowych plików: lista katalogów i powiadomienie o plikach. Tryby odnajdywania plików można przełączać między ponownymi uruchomieniami strumienia i nadal uzyskiwać dokładnie jednokrotne gwarancje przetwarzania danych.
Tryb wyświetlania katalogu
W trybie listy katalogów funkcja automatycznego ładowania identyfikuje nowe pliki, wyświetlając katalog wejściowy. Tryb listy katalogów pozwala szybko uruchamiać strumienie Auto Loader bez potrzeby konfiguracji uprawnień, poza dostępem do danych w chmurowej przestrzeni dyskowej.
W Databricks Runtime 9.1 lub nowszym Auto Loader może automatycznie wykrywać, czy pliki docierają w porządku leksykalnym do przechowywania w chmurze i znacznie zmniejsza ilość wywołań interfejsu API potrzebnych do wykrywania nowych plików. Aby uzyskać więcej informacji, zobacz Auto Loader streams z trybem listy katalogów.
Tryb powiadomień dotyczących plików (zalecane)
Tryb powiadomień plików korzysta z usług powiadomień dotyczących plików i kolejek na koncie infrastruktury chmury. Auto Loader może automatycznie skonfigurować usługę powiadomień i usługę kolejki, które subskrybują zdarzenia plików z katalogu wejściowego. Jeśli włączysz zdarzenia plików w zewnętrznej lokalizacji, która zawiera dane pliki, nie musisz podawać dodatkowych uprawnień podczas konfigurowania strumienia Auto Loader.
Tryb powiadomień dotyczących plików ze zdarzeniami plików jest bardziej wydajny i skalowalny niż lista katalogów. Usługa Databricks zaleca tryb powiadomień plików przy użyciu zdarzeń plików zamiast trybu wyświetlania listy katalogów dla większości obciążeń. Jeśli obecnie używasz automatycznego modułu ładującego w trybie wyświetlania katalogu, Databricks zaleca migrację do trybu powiadomień plików przy użyciu zdarzeń plikowych, aby osiągnąć znaczące ulepszenia wydajności. Zobacz Configure Auto Loader streams in file notification mode (Konfigurowanie strumieni automatycznego modułu ładującego w trybie powiadomień plików).
Magazyn w chmurze obsługiwany przez tryby
Ta tabela zawiera listę obsługiwanych zasobów obliczeniowych dla każdego trybu wykrywania plików według dostawcy magazynu w chmurze.
W przypadku migracji z lokalizacji zewnętrznej lub montowania DBFS do woluminu Unity Catalog, funkcja automatycznego ładowania nadal zapewnia gwarancje wykonania dokładnie jeden raz.
| Magazyn w chmurze | Lista katalogów | Powiadomienia o plikach bez zdarzeń dotyczących plików | Powiadomienia o wydarzeniach związanych z plikami |
|---|---|---|---|
| AWS S3 | Wszystkie wersje | Wszystkie wersje | Databricks Runtime 14.3 LTS i nowsze |
| ADLS | Wszystkie wersje | Wszystkie wersje | Databricks Runtime 14.3 LTS i nowsze |
| GCS | Wszystkie wersje | Wszystkie wersje | Databricks Runtime 14.3 LTS i nowsze |
| Azure Blob Storage | Wszystkie wersje | Wszystkie wersje | Nieobsługiwane |
| DBFS | Wszystkie wersje | Tylko w przypadku punktów montowania | Databricks Runtime 14.3 LTS i nowsze, jeśli punkt montażowy DBFS ma zewnętrzną lokalizację zdefiniowaną w Katalogu Unity |
| Wolumin wykazu aparatu Unity | Databricks Runtime 13.3 LTS i nowsze | Nieobsługiwane | Databricks Runtime 14.3 LTS i nowsze |