Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article répertorie les façons dont vous pouvez configurer l’ingestion incrémentielle à partir du stockage d’objets cloud.
Ajouter une interface utilisateur de données
Pour découvrir comment utiliser l’IU d’ajout de données pour créer une table managée à partir de données dans un stockage d’objets cloud, consultez Charger des données à l’aide d’un emplacement externe Unity Catalog.
Notebook ou éditeur SQL
Cette section décrit les options de configuration de l’ingestion incrémentielle à partir du stockage d’objets cloud via un notebook ou de l'éditeur SQL Databricks.
Chargeur automatique
Auto Loader traite de façon incrémentielle et efficace les nouveaux fichiers de données à mesure qu’ils arrivent dans le stockage cloud, sans configuration supplémentaire. Auto Loader fournit une source de flux structuré appelée cloudFiles. À partir d’un chemin d’accès de répertoire d’entrée sur le stockage de fichiers cloud, la source cloudFiles traite automatiquement les nouveaux fichiers à mesure qu’ils arrivent, avec la possibilité de traiter également les fichiers existants dans ce répertoire.
COPY INTO
Avec COPY INTO, les utilisateurs SQL peuvent ingérer de manière idempotente et incrémentielle des données du stockage d’objets cloud dans des tables Delta. Vous pouvez utiliser COPY INTO dans Databricks SQL, les notebooks et les travaux Lakeflow.
Quand utiliser COPY INTO et quand utiliser le chargeur automatique
Voici quelques éléments à prendre en compte lors du choix entre Auto Loader et COPY INTO :
- Si vous allez ingérer des fichiers dans l’ordre des milliers au fil du temps, vous pouvez utiliser
COPY INTO. Si vous attendez des millions de fichiers ou plus au fil du temps, utilisez Auto Loader. Auto Loader nécessite un nombre total d’opérations moindre pour découvrir des fichiers par rapport àCOPY INTO, et peut fractionner le traitement en plusieurs lots. En d’autres termes, Auto Loader est moins coûteux et plus efficace à grande échelle. - Si le schéma de vos données est appelé à évoluer fréquemment, Auto Loader fournit de meilleurs types de données primitifs pour l’inférence et l’évolution de schéma. Pour plus d’informations, consultez Configurer l’inférence et l’évolution de schéma dans Auto Loader.
- Le chargement d’un sous-ensemble de fichiers rechargés peut être un peu plus facile à gérer avec
COPY INTO. Avec le chargeur automatique, il est plus difficile de retraiter un sous-ensemble de fichiers sélectionné. Toutefois, vous pouvez utiliserCOPY INTOpour recharger le sous-ensemble de fichiers alors qu’un flux Auto Loader est exécuté simultanément.
- Pour une expérience d’ingestion de fichiers encore plus évolutive et robuste, Auto Loader permet aux utilisateurs SQL de tirer parti des tables de streaming. Voir l'utilisation des tables de streaming dans Databricks SQL.
Pour obtenir une brève présentation et une démonstration d’Auto Loader, ainsi que de COPY INTO, regardez la vidéo YouTube suivante (2 minutes).
Automatiser ETL avec des pipelines déclaratifs Spark Lakeflow et un chargeur automatique
Vous pouvez simplifier le déploiement d’une infrastructure d’ingestion évolutive et incrémentielle avec le chargeur automatique et les pipelines déclaratifs Spark Lakeflow. Les pipelines déclaratifs Spark Lakeflow n’utilisent pas l’exécution interactive standard trouvée dans les notebooks, mais mettent l’accent sur le déploiement de l’infrastructure prête à être utilisée en production.
- Tutoriel : Créer un pipeline ETL avec des pipelines déclaratifs Spark Lakeflow
- Intégrer des données à partir d’Azure Data Lake Storage
Outils d’ingestion tiers
Databricks valide les intégrations de partenaires technologiques qui vous permettent d'ingérer des données de diverses sources, y compris le stockage d'objets dans le cloud. Ces intégrations permettent une ingestion des données évolutive et nécessitant peu de code à partir d’une variété de sources dans Azure Databricks. Consultez Partenaires technologiques. Certains partenaires technologiques sont présentés dans Présentation de Databricks Partner Connect, qui fournit une interface utilisateur qui simplifie la connexion d’outils tiers à vos données lakehouse.