Ingérer des données à partir du stockage d’objets cloud

Cet article répertorie les façons dont vous pouvez configurer l’ingestion incrémentielle à partir du stockage d’objets cloud.

Ajouter une interface utilisateur de données

Pour découvrir comment utiliser l’IU d’ajout de données pour créer une table managée à partir de données dans un stockage d’objets cloud, consultez Charger des données à l’aide d’un emplacement externe Unity Catalog.

Notebook ou éditeur SQL

Cette section décrit les options de configuration de l’ingestion incrémentielle à partir du stockage d’objets cloud via un notebook ou de l'éditeur SQL Databricks.

Chargeur automatique

Auto Loader traite de façon incrémentielle et efficace les nouveaux fichiers de données à mesure qu’ils arrivent dans le stockage cloud, sans configuration supplémentaire. Auto Loader fournit une source de flux structuré appelée cloudFiles. À partir d’un chemin d’accès de répertoire d’entrée sur le stockage de fichiers cloud, la source cloudFiles traite automatiquement les nouveaux fichiers à mesure qu’ils arrivent, avec la possibilité de traiter également les fichiers existants dans ce répertoire.

COPY INTO

Avec COPY INTO, les utilisateurs SQL peuvent ingérer de manière idempotente et incrémentielle des données du stockage d’objets cloud dans des tables Delta. Vous pouvez utiliser COPY INTO dans Databricks SQL, les notebooks et les travaux Lakeflow.

Quand utiliser COPY INTO et quand utiliser le chargeur automatique

Voici quelques éléments à prendre en compte lors du choix entre Auto Loader et COPY INTO :

Si vous allez ingérer des fichiers dans l’ordre des milliers au fil du temps, vous pouvez utiliser COPY INTO. Si vous attendez des millions de fichiers ou plus au fil du temps, utilisez Auto Loader. Auto Loader nécessite un nombre total d’opérations moindre pour découvrir des fichiers par rapport à COPY INTO, et peut fractionner le traitement en plusieurs lots. En d’autres termes, Auto Loader est moins coûteux et plus efficace à grande échelle.
Si le schéma de vos données est appelé à évoluer fréquemment, Auto Loader fournit de meilleurs types de données primitifs pour l’inférence et l’évolution de schéma. Pour plus d’informations, consultez Configurer l’inférence et l’évolution de schéma dans Auto Loader.
Le chargement d’un sous-ensemble de fichiers rechargés peut être un peu plus facile à gérer avec COPY INTO. Avec le chargeur automatique, il est plus difficile de retraiter un sous-ensemble de fichiers sélectionné. Toutefois, vous pouvez utiliser COPY INTO pour recharger le sous-ensemble de fichiers alors qu’un flux Auto Loader est exécuté simultanément.

Pour une expérience d’ingestion de fichiers encore plus évolutive et robuste, Auto Loader permet aux utilisateurs SQL de tirer parti des tables de streaming. Voir l'utilisation des tables de streaming dans Databricks SQL.

Pour obtenir une brève présentation et une démonstration d’Auto Loader, ainsi que de COPY INTO, regardez la vidéo YouTube suivante (2 minutes).

Automatiser ETL avec des pipelines déclaratifs Spark Lakeflow et un chargeur automatique

Vous pouvez simplifier le déploiement d’une infrastructure d’ingestion évolutive et incrémentielle avec le chargeur automatique et les pipelines déclaratifs Spark Lakeflow. Les pipelines déclaratifs Spark Lakeflow n’utilisent pas l’exécution interactive standard trouvée dans les notebooks, mais mettent l’accent sur le déploiement de l’infrastructure prête à être utilisée en production.

Tables de streaming

Outils d’ingestion tiers

Databricks valide les intégrations de partenaires technologiques qui vous permettent d'ingérer des données de diverses sources, y compris le stockage d'objets dans le cloud. Ces intégrations permettent une ingestion des données évolutive et nécessitant peu de code à partir d’une variété de sources dans Azure Databricks. Consultez Partenaires technologiques. Certains partenaires technologiques sont présentés dans Présentation de Databricks Partner Connect, qui fournit une interface utilisateur qui simplifie la connexion d’outils tiers à vos données lakehouse.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2025-11-13