Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Auto Loader prend en charge deux modes de détection des nouveaux fichiers : la liste de répertoires et la notification de fichiers. Vous pouvez changer de mode de détection des fichiers entre les redémarrages de flux et continuer à obtenir des garanties de traitement des données « une seule fois ».
Mode de liste de répertoires
Dans le mode Liste de répertoires, Auto Loader identifie les nouveaux fichiers en listant le répertoire d’entrée. Le mode Liste de répertoires vous permet de démarrer rapidement les flux Auto Loader sans aucune configuration d’autorisation autre que l’accès à vos données sur le stockage cloud.
Dans Databricks Runtime 9.1 et versions ultérieures, Auto Loader peut détecter automatiquement si les fichiers arrivent avec un ordre lexical dans votre stockage cloud et réduire de manière significative le nombre d’appels d’API qu’il doit effectuer pour détecter les nouveaux fichiers. Consultez les streams du chargeur automatique en mode de listing de répertoires pour plus d'informations.
Mode de notification de fichier (recommandé)
Le mode de notification de fichier tire parti des services de notification de fichiers et de file d’attente dans votre compte d’infrastructure cloud. Auto Loader peut configurer automatiquement un service de notification et un service de file d’attente qui s’abonnent aux événements de fichiers du répertoire d’entrée. Si vous activez des événements de fichier sur l’emplacement externe qui contient les fichiers en question, vous n’avez pas besoin de fournir d’autorisations supplémentaires lorsque vous configurez le flux du chargeur automatique.
Le mode de notification de fichier avec les événements de fichier est plus performant et évolutif que la liste des répertoires. Databricks recommande le mode de notification de fichier à l’aide d’événements de fichier au lieu du mode de référencement de répertoires pour la plupart des charges de travail. Si vous utilisez le chargeur automatique en mode liste de répertoires aujourd’hui, Databricks vous recommande de migrer vers le mode de notification de fichier à l’aide d’événements de fichier pour voir des améliorations significatives des performances. Consultez Configurer des flux de chargeur automatique en mode de notification de fichier.
Stockage en ligne pris en charge par les modes
Ce tableau répertorie les calculs pris en charge pour chaque mode de détection de fichier, par fournisseur de stockage cloud.
Si vous migrez d’un emplacement externe ou d’un montage DBFS vers un volume Unity Catalog, Auto Loader continue de fournir des garanties d’exécution unique.
| Stockage cloud | Liste de répertoires | Notifications de fichiers en l'absence d'événements de fichier | Notifications de fichiers avec des événements de fichier |
|---|---|---|---|
| AWS S3 | Toutes les versions | Toutes les versions | Dans Databricks Runtime 14.3 LTS et versions ultérieures |
| ADLS | Toutes les versions | Toutes les versions | Dans Databricks Runtime 14.3 LTS et versions ultérieures |
| GCS | Toutes les versions | Toutes les versions | Dans Databricks Runtime 14.3 LTS et versions ultérieures |
| Stockage Blob Azure | Toutes les versions | Toutes les versions | Non pris en charge |
| Système de fichiers DBFS | Toutes les versions | Pour les points de montage uniquement | Databricks Runtime 14.3 LTS et versions ultérieures, si le point de montage DBFS a un emplacement externe défini dans le catalogue Unity |
| Volume Unity Catalog | Dans Databricks Runtime 13.3 LTS et versions ultérieures | Non pris en charge | Dans Databricks Runtime 14.3 LTS et versions ultérieures |