Partager via


Tables et vues dans Azure Databricks

Cet article fournit une vue d'ensemble des tables, des vues, des tables de streaming et des vues matérialisées dans Azure Databricks.

Tableau

Une table est un jeu de données structuré stocké dans un emplacement spécifique. Le type de table par défaut créé dans Azure Databricks est une table gérée par le catalogue Unity. Les tables peuvent être interrogées et manipulées à l’aide de commandes SQL ou d’API DataFrame, prenant en charge des opérations telles que INSERT, , UPDATEDELETEet MERGE INTO. Consultez les tables Azure Databricks

Afficher

Une vue est une table virtuelle définie par une requête qui ne stocke pas de données et peut présenter des données d’une ou plusieurs tables dans un format ou une abstraction spécifique. Les vues sont utiles pour simplifier les requêtes complexes, encapsuler la logique métier et fournir une interface cohérente aux données sous-jacentes sans dupliquer le stockage. Voir Qu’est-ce qu’une vue ?

Vue matérialisée

Comme pour une vue, une vue matérialisée est définie par une requête. Toutefois, contrairement à une vue, une vue matérialisée précompute et stocke le résultat de la requête. Les requêtes peuvent s’exécuter plus rapidement sur la vue matérialisée que les vues, mais elles prennent un stockage supplémentaire. Vous pouvez utiliser Databricks SQL pour créer et actualiser une vue matérialisée autonome ou utiliser des pipelines déclaratifs Spark Lakeflow pour créer et actualiser une ou plusieurs vues matérialisées, des tables de streaming et des vues. Consultez Utiliser des vues matérialisées dans Databricks SQL et des vues matérialisées.

Table de diffusion en continu

Une table de streaming est un type de table gérée par Unity Catalog qui inclut la logique de traitement en utilisant des flux pour la définir. Vous pouvez utiliser Databricks SQL pour créer et actualiser une table de diffusion en continu autonome ou utiliser des pipelines déclaratifs Spark Lakeflow pour créer et actualiser une ou plusieurs tables de diffusion en continu, des vues matérialisées et des vues. Consultez Utilisation de tables de streaming dans Databricks SQL et les tables de streaming.

Vue matérialisée contre table de diffusion en continu

Les vues matérialisées et les tables de diffusion en continu sont deux objets de données courants utilisés pour l’ingénierie des données. Les vues matérialisées utilisent la sémantique de traitement par lots et les tables de diffusion en continu utilisent la sémantique de diffusion en continu. Pour obtenir une comparaison entre le traitement par lots et la diffusion en continu et les considérations relatives au choix de vos charges de travail d’ingénierie des données, consultez Batch et traitement des données de streaming dans Azure Databricks.