Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cette page présente le partage Delta dans Azure Databricks, la plateforme de partage de données sécurisée qui vous permet de partager des données et des ressources IA dans Azure Databricks avec des utilisateurs externes à votre organisation, qu’ils utilisent Ou non Azure Databricks. Delta Sharing est également la base pour Databricks Marketplace, un forum ouvert pour échanger des produits de données et des salles propres, un environnement sécurisé et de protection de la confidentialité où plusieurs parties peuvent travailler ensemble sur des données d’entreprise sensibles.
Le partage Delta est également disponible en tant que projet open source que vous pouvez utiliser pour partager des tables Delta à partir d’autres plateformes.
Comment fonctionne Delta Sharing ?
Delta Sharing est un protocole ouvert développé par Databricks pour le partage de données sécurisé avec d’autres organisations, quelles que soient les plateformes informatiques qu’elles utilisent.
Il existe plusieurs façons de partager des données à l’aide du partage Delta :
Le protocole de partage Databricks-to-Databricks, qui vous permet de partager des données et des ressources IA à partir de votre espace de travail Unity Catalog avec des utilisateurs qui ont également accès à un espace de travail Databricks compatible avec Unity Catalog.
Cette approche utilise le serveur Delta Sharing intégré à Azure Databricks. Il prend en charge certaines fonctionnalités de partage Delta qui ne sont pas prises en charge dans les autres protocoles, notamment le partage de blocs-notes, le partage de volumes du catalogue Unity, le partage de modèles d’INTELLIGENCE artificielle Unity, la gouvernance des données Unity Catalog, l’audit et le suivi de l’utilisation pour les fournisseurs et les destinataires. L’intégration à Unity Catalog simplifie la configuration et la gouvernance pour les fournisseurs et les destinataires, et améliore les performances.
Le protocole de partage ouvert Databricks, qui vous permet de partager des données tabulaires que vous gérez dans un espace de travail Databricks compatible avec le catalogue Unity avec des utilisateurs sur n’importe quelle plateforme informatique.
Cette approche utilise le serveur de partage Delta intégré à Azure Databricks et est utile lorsque vous gérez des données à l’aide de Unity Catalog et souhaitez le partager avec des utilisateurs qui n’utilisent pas Databricks ou qui n’ont pas accès à un espace de travail Databricks compatible avec le catalogue Unity. L’intégration à Unity Catalog côté fournisseur simplifie la configuration et la gouvernance pour les fournisseurs.
Consultez Partager des données à l’aide du protocole de partage ouvert delta (pour les fournisseurs).
Implémentation gérée par le client du serveur de partage Delta open source, qui vous permet de partager à partir de n’importe quelle plateforme, qu’il s’agisse de Databricks ou non.
La documentation Azure Databricks ne couvre pas les instructions de configuration de votre propre serveur Delta Sharing. Voir github.com/delta-io/delta-sharing.
Connecteur SAP Business Data Cloud (BDC) pour Azure Databricks, qui vous permet de partager des données entre votre espace de travail Unity Catalog et un compte SAP BDC.
Cette approche utilise le connecteur SAP BDC, qui utilise le partage Delta pour l’accès direct et sans copie aux produits de données SAP BDC.
Consultez Qu’est-ce que le connecteur SAP BDC pour Azure Databricks ?.
Partages, fournisseurs et destinataires
Les principaux concepts sous-jacents du partage Delta dans Azure Databricks sont des partages, des fournisseurs et desdestinataires.
Qu’est-ce qu’un partage ?
Dans Delta Sharing, un partage est une collection en lecture seule de tables et de partitions de tables qu’un fournisseur souhaite partager avec un ou plusieurs destinataires. Si votre destinataire utilise un espace de travail Databricks compatible avec le catalogue Unity, vous pouvez également inclure des fichiers de notebook, des vues (y compris des vues dynamiques qui limitent l’accès au niveau de la ligne et de la colonne), des volumes catalogue Unity et des modèles catalogue Unity dans un partage.
Vous pouvez ajouter ou supprimer des tables, des tables de streaming, des tables Iceberg managées, des vues, des vues matérialisées, des volumes, des modèles et des fichiers de notebook à partir d’un partage à tout moment, et vous pouvez affecter ou révoquer l’accès du destinataire des données à un partage à tout moment.
Dans un espace de travail Azure Databricks compatible avec Unity Catalog, un partage est un objet sécurisable inscrit dans unity Catalog. Si vous supprimez un partage dans votre metastore Unity Catalog, tous les destinataires de ce partage perdent leur accès.
Consultez Créer et gérer des partages pour Delta Sharing.
Qu'est-ce qu'un fournisseur ?
Un fournisseur est une entité qui partage des données avec un destinataire. Si vous êtes un fournisseur et que vous souhaitez tirer parti du serveur de partage Delta Databricks intégré et gérer des partages et des destinataires à l’aide de Unity Catalog, vous avez besoin d’au moins un espace de travail Azure Databricks activé pour Unity Catalog. Vous n’avez pas besoin de migrer tous vos espaces de travail existants vers le catalogue Unity. Vous pouvez simplement créer un espace de travail avec catalogue Unity pour vos besoins de partage Delta.
Si un destinataire se trouve sur un espace de travail Databricks compatible avec le catalogue Unity, le fournisseur est également un objet sécurisable Unity Catalog qui représente l’organisation du fournisseur et associe cette organisation à un ensemble de partages.
Qu’est-ce qu’un destinataire ?
Un destinataire est une entité qui reçoit des parts d’un fournisseur. Dans Le catalogue Unity, un partage est un objet sécurisable qui représente une organisation et l’associe à un identificateur d’informations d’identification ou de partage sécurisé qui permet à cette organisation d’accéder à un ou plusieurs partages.
En tant que fournisseur de données (« sharer »), vous pouvez définir plusieurs destinataires pour un metastore Unity Catalog donné. Toutefois, si vous souhaitez partager les données de plusieurs metastores avec un utilisateur ou un groupe d’utilisateurs spécifique, vous devez définir le destinataire séparément pour chaque metastore. Un destinataire peut avoir accès à plusieurs partages.
Si un fournisseur supprime un destinataire de son metastore Unity Catalog, ce destinataire perd l’accès à tous les partages qu’il peut accéder précédemment.
Consultez Créer et gérer des destinataires de données pour Delta Sharing (partage Databricks-to-Databricks).
Comparaison du partage ouvert et du partage Databricks-to-Databricks
Cette section décrit les deux protocoles pour le partage à partir d’un espace de travail Databricks activé pour Unity Catalog.
Note
Cette section suppose que le fournisseur se trouve sur un espace de travail Azure Databricks compatible avec Unity Catalog. Pour en savoir plus sur la configuration d’un serveur de partage Delta open source à partager à partir d’une plateforme non Databricks ou d’un espace de travail catalogue non Unity, consultez github.com/delta-io/delta-sharing.
La manière dont un fournisseur utilise Delta Sharing dans Azure Databricks dépend des personnes avec lesquelles il partage des données :
- Le partage ouvert vous permet de partager des données avec n’importe quel utilisateur, qu’ils aient ou non accès à Azure Databricks.
- Le partage Databricks-to-Databricks vous permet de partager des données avec des utilisateurs Azure Databricks dont l’espace de travail est attaché à un metastore Unity Catalog différent du vôtre. Le partage Databricks-to-Databricks prend également en charge le partage de notebooks, de volumes et de modèles, ce qui n’est pas disponible dans le partage ouvert.
Présentation du protocole ouvert Delta Sharing
Si vous souhaitez partager des données avec des utilisateurs hors de votre espace de travail Azure Databricks, qu’ils utilisent Databricks ou non, vous pouvez utiliser le protocole ouvert Delta Sharing pour partager vos données en toute sécurité. En tant que fournisseur de données, vous gérez l’authentification avec le destinataire de partage à l’aide de l’une des méthodes suivantes :
- Vous générez un jeton du porteur de longue durée et le partagez en toute sécurité avec le destinataire. Ils utilisent le jeton pour authentifier et obtenir l’accès en lecture aux tables que vous avez incluses dans les partages auxquels vous leur avez accordé l’accès.
- Vous utilisez la fédération Open ID Connect (OIDC), en accordant des jetons Databricks OAuth de courte durée au destinataire en échange de jetons JWT transmis par le fournisseur d’identité du destinataire à Databricks.
Les destinataires peuvent accéder aux données partagées à l’aide de nombreux outils et plateformes informatiques, notamment :
- Azure Databricks
- Apache Spark
- Pandas
- Power BI
Pour obtenir la liste complète des connecteurs de partage Delta et des informations sur leur utilisation, consultez la documentation sur le partage Delta .
Consultez également Partager des données à l’aide du protocole de partage ouvert delta (pour les fournisseurs).
Présentation du protocole Delta Sharing Databricks à Databricks
Si vous souhaitez partager des données avec des utilisateurs disposant d’un espace de travail Databricks activé pour unity Catalog, vous pouvez utiliser Databricks-to-Databricks Delta Sharing. Le partage Databricks-to-Databricks vous permet de partager des données avec des utilisateurs dans d’autres comptes Databricks, qu’ils soient sur AWS, Azure ou GCP. Il s’agit également d’un excellent moyen de partager en toute sécurité des données entre différents metastores du catalogue Unity dans votre propre compte Databricks. Notez qu’il n’est pas nécessaire d’utiliser le partage Delta pour partager des données entre les espaces de travail attachés au même metastore du catalogue Unity, car dans ce scénario, vous pouvez utiliser Unity Catalog lui-même pour gérer l’accès aux données entre les espaces de travail.
L’un des avantages du partage Databricks à Databricks est que le destinataire du partage n’a pas besoin d’un jeton pour accéder au partage et que le fournisseur n’a pas besoin de gérer les jetons de destinataire. La sécurité de la connexion de partage, notamment l’ensemble des vérifications d’identité, l’authentification et l’audit, est entièrement managée via Delta Sharing et la plateforme Databricks. Un autre avantage est la possibilité de partager des fichiers de notebook Databricks, des volumes Unity Catalog et des modèles Unity Catalog.
Voir également Partager des données à l'aide du protocole Delta Sharing Databricks-to-Databricks (pour les fournisseurs).
Comment les administrateurs du fournisseur configurent-ils le partage Delta ?
Cette section fournit une vue d’ensemble de la façon dont les fournisseurs peuvent activer le partage Delta et lancer le partage à partir d’un espace de travail Azure Databricks avec Unity Catalog. Pour le partage Delta open source, consultez github.com/delta-io/delta-sharing.
Le partage Databricks à Databricks entre différents metastores Unity Catalog du même compte est toujours activé. Si vous êtes un fournisseur qui souhaite activer le partage Delta pour partager des données avec des espaces de travail Databricks dans d'autres comptes ou des clients non Databricks, un administrateur de compte Azure Databricks ou un administrateur de métastore effectue les étapes de configuration suivantes (à un niveau élevé) :
Activez le partage Delta pour le metastore du catalogue Unity qui gère les données que vous souhaitez partager.
Note
Vous n’avez pas besoin d’activer le partage Delta sur votre metastore si vous envisagez d’utiliser le partage Delta pour partager des données uniquement avec des utilisateurs sur d’autres metastores du catalogue Unity dans votre compte. Le partage de metastore à metastore au sein d’un seul compte Azure Databricks est activé par défaut.
Consultez Activer Delta Sharing sur un metastore.
Créez un partage qui inclut des ressources de données inscrites dans le metastore Unity Catalog.
Si vous partagez avec un destinataire non Databricks (appelé partage ouvert), vous pouvez inclure des tables au format Delta. Si vous envisagez d’utiliser le partage Databricks-to-Databricks, vous pouvez également ajouter des vues, des volumes Unity Catalog, des modèles Unity Catalog et des fichiers notebook à un partage.
Créez un destinataire.
Consultez Créer et gérer des destinataires de données pour Delta Sharing (partage Databricks-to-Databricks).
Si votre destinataire n’est pas un utilisateur Databricks ou n’a pas accès à un espace de travail Databricks activé pour le catalogue Unity, vous devez utiliser le partage ouvert. Vous pouvez générer des informations d’identification basées sur un jeton du porteur pour ce destinataire ou utiliser la fédération OIDC.
Si votre destinataire a accès à un espace de travail Databricks activé pour Unity Catalog, vous pouvez utiliser le partage Databricks à Databricks et aucune information d’identification basée sur des jetons n’est requise. Vous demandez un identificateur de partage auprès du destinataire et l’utilisez pour établir la connexion sécurisée.
Tip
Testez le processus d’installation en vous désignant vous-même comme destinataire de test.
Permettre l’accès à un ou plusieurs partages au destinataire.
Consultez Gérer l’accès aux partages de données Delta Sharing (pour les fournisseurs).
Note
Cette étape peut également être effectuée par un utilisateur non-administrateur avec les privilèges
USE SHAREetUSE RECIPIENTSET SHARE PERMISSION. Consultez les privilèges du catalogue Unity et les objets sécurisables.Envoyez au destinataire les informations dont il a besoin pour se connecter au partage (partage ouvert uniquement).
Pour ouvrir le partage à l’aide de jetons du porteur, utilisez un canal sécurisé pour envoyer au destinataire un lien d’activation qui leur permet de télécharger leurs informations d’identification basées sur les jetons. Consultez Envoyer au destinataire ses informations de connexion.
Pour ouvrir le partage à l’aide de la fédération de jetons OIDC, envoyez l’URL du portail généré. Consultez Utiliser la fédération Open ID Connect (OIDC) pour activer l’authentification auprès des partages Delta Sharing (partage ouvert).
Pour le partage Databricks à Databricks, les données incluses dans le partage sont disponibles dans l’espace de travail Databricks du destinataire dès que vous leur accordez l’accès au partage.
Le destinataire a désormais accès aux données partagées.
Comment les destinataires accèdent-ils aux données partagées ?
Les destinataires accèdent aux ressources de données partagées au format en lecture seule. Les fichiers de notebook partagés sont en lecture seule, mais ils peuvent être clonés, puis modifiés et exécutés dans l’espace de travail du destinataire comme n’importe quel autre notebook.
L’accès sécurisé dépend du modèle de partage :
Le partage ouvert (le destinataire n’a pas d’espace de travail Databricks activé pour le catalogue Unity) a deux options :
- Dans le flux de jeton du porteur, le destinataire fournit les informations d’identification chaque fois qu’il accède aux données dans l'outil de son choix, notamment Apache Spark, pandas, Power BI, Databricks, et bien d'autres. Consultez Lire les données partagées à l’aide du partage ouvert Delta Sharing avec des jetons du porteur (pour les destinataires).
- Dans le flux de fédération de jeton OIDC, le destinataire ou l’application cliente du destinataire accède aux données à l’aide de leur propre idP. Consultez Recevoir des partages de partage Delta à l’aide de la fédération Open ID Connect (OIDC) dans un flux utilisateur à machine (partage ouvert) et recevoir des partages de partage Delta à l’aide d’un client Python et d’une fédération Open ID Connect (OIDC) dans un flux d’ordinateur à ordinateur (partage ouvert).
Databricks-to-Databricks (l'espace de travail du destinataire est activé pour Unity Catalog) : le destinataire accède aux données à l'aide de Databricks. Ils peuvent utiliser le catalogue Unity pour accorder et refuser l’accès à d’autres utilisateurs dans leur compte Databricks. Consultez Lire les données partagées à l’aide du partage Delta Databricks à Databricks (pour les destinataires).
Chaque fois que le fournisseur de données met à jour des tables de données ou des volumes dans son propre compte Databricks, les mises à jour s’affichent en quasi temps réel dans le système du destinataire. Pour savoir comment accéder aux données qui ont été partagées avec vous à l’aide du partage Delta, consultez Accéder aux données partagées avec vous à l’aide du partage Delta (pour les destinataires).
Comment effectuer le suivi des personnes qui partagent les données partagées et y accèdent ?
Les fournisseurs de données sur les espaces de travail Azure Databricks compatibles avec Unity Catalog peuvent utiliser la journalisation et les tables système d’audit Azure Databricks pour surveiller la création et la modification des partages et des destinataires, et peuvent surveiller l’activité des destinataires sur les partages. Consultez Auditer et surveiller le partage de données.
Les destinataires de données qui utilisent des données partagées dans un espace de travail Databricks peuvent utiliser la journalisation d’audit Databricks et les tables système pour comprendre qui accède aux données. Consultez Auditer et surveiller le partage de données.
Partage de volumes
Vous pouvez partager des volumes à l’aide du flux de partage Databricks-to-Databricks. Consultez Ajouter des volumes à un partage (pour les fournisseurs) et Lire les données partagées à l’aide du partage Delta Databricks-to-Databricks (pour les destinataires).
Partage de modèles
Vous pouvez partager des modèles à l’aide du flux de partage Databricks-to-Databricks. Consultez Ajouter des modèles à un partage (pour les fournisseurs) et Lire les données partagées à l’aide du partage Delta Databricks-to-Databricks (pour les destinataires).
Partage de notebooks
Vous pouvez utiliser Delta Sharing pour partager des fichiers de notebook à l’aide du flux de partage Databricks à Databricks. Consultez Ajouter des fichiers de bloc-notes à un partage (pour les fournisseurs) et lire des blocs-notes partagés (pour les destinataires).
Restriction de l’accès au niveau des lignes et des colonnes lors du partage des vues
Vous pouvez partager des vues dynamiques qui limitent l’accès à certaines données de table en fonction des propriétés du destinataire. Consultez Ajouter des vues dynamiques à un partage pour filtrer les lignes et les colonnes.
Delta Sharing et diffusion en continu
Delta Sharing prend en charge Apache Spark Structured Streaming. Un fournisseur peut partager une table avec l’historique ou une table de diffusion en continu afin qu’un destinataire puisse l’utiliser comme source Structured Streaming, en traitant les données partagées de manière incrémentielle avec une faible latence. Les destinataires peuvent également effectuer des requêtes de voyage dans le temps Delta Lake sur des tables partagées avec l’historique.
Pour savoir comment partager des tables avec l’historique, consultez Ajouter des tables à un partage. Pour savoir comment utiliser des tables partagées comme sources de diffusion en continu, consultez Interroger une table à l’aide d’Apache Spark Structured Streaming (pour les destinataires du partage Databricks à Databricks) ou Accéder à une table partagée à l’aide de Spark Structured Streaming (pour les destinataires de données de partage ouvertes).
Pour savoir comment partager des tables de diffusion en continu, consultez Ajouter des tables de diffusion en continu à un partage.
Consultez également les concepts de diffusion en continu structuré.
Matrice de prise en charge des fonctionnalités Delta Lake
Delta Sharing prend en charge la plupart des fonctionnalités Delta Lake lorsque vous partagez une table. Cette matrice de prise en charge répertorie les éléments suivants :
- Fonctionnalités Delta qui nécessitent des versions spécifiques de Databricks Runtime, le connecteur Spark de Delta Sharing open source ou le connecteur Python de Delta Sharing open source.
- Fonctionnalités partiellement prises en charge.
| Feature | Provider | Destinataire Databricks | Destinataire de source ouverte |
|---|---|---|---|
| Vecteurs de suppression |
|
|
|
| Mappage de colonnes |
|
|
|
| Format uniforme |
|
|
|
| Point de contrôle V2 | Prise en charge avec des limitations | Prise en charge avec des limitations | Prise en charge avec des limitations |
| TimestampNTZ | Supported | Databricks Runtime 14.1+ | Connecteur Spark de Delta Sharing 3.3+ |
| Regroupement de liquide | Prise en charge avec des limitations | Prise en charge avec des limitations | Prise en charge avec des limitations |
FAQ Delta Sharing
Voici une liste de questions fréquentes concernant Delta Sharing.
Ai-je besoin du catalogue Unity pour utiliser le partage Delta ?
Non, vous n’avez pas besoin de Unity Catalog pour partager (en tant que fournisseur) ou consommer des données partagées (en tant que destinataire). Toutefois, Unity Catalog offre des avantages comme la compatibilité du partage de ressources non tabulaires et AI, la gouvernance prête à l’emploi, la simplicité et les performances des requêtes.
Les fournisseurs peuvent partager des données de deux façons :
Placez les ressources à partager dans le gestionnaire Unity Catalog et partagez-les à l’aide du serveur Delta Sharing Azure Databricks intégré.
Il n’est pas nécessaire de migrer toutes vos ressources vers Unity Catalog. Il vous suffit d’un seul espace de travail Azure Databricks compatible Unity Catalog pour gérer les ressources que vous souhaitez partager. Dans certains comptes, de nouveaux espaces de travail sont activés automatiquement pour Unity Catalog. Consultez l’activation automatique du catalogue Unity.
Implémentez le serveur de partage Delta ouvert pour partager des données, sans nécessairement utiliser votre compte Azure Databricks.
Les destinataires peuvent consommer des données de deux façons :
Sans espace de travail Databricks. Utilisez les connecteurs Delta Sharing open source disponibles pour de nombreuses plateformes de données, comme Power BI, pandas et Apache Spark open source. Consultez Lire les données partagées à l’aide du partage ouvert Delta Sharing avec des jetons du porteur (pour les destinataires) et le projet Delta Sharing open source.
Dans un espace de travail Databricks. Les espaces de travail des destinataires n’ont pas besoin d’être activés pour le catalogue Unity, mais il existe des avantages de gouvernance, de simplicité et de performances s’ils le sont.
Les organisations destinataires qui souhaitent bénéficier de ces avantages n'ont pas besoin de migrer toutes les ressources vers Unity Catalog. Il vous suffit d’un seul espace de travail Azure Databricks compatible Unity Catalog pour gérer les ressources partagées avec vous. Dans certains comptes, de nouveaux espaces de travail sont activés automatiquement pour Unity Catalog. Consultez l’activation automatique du catalogue Unity.
Consultez Lire les données partagées à l’aide du partage ouvert Delta Sharing avec des jetons du porteur (pour les destinataires) et Lire les données partagées à l’aide de Delta Sharing Databricks-to-Databricks (pour les destinataires).
Dois-je être un client Databricks pour utiliser Delta Sharing ?
Non, Delta Sharing est un protocole ouvert. Vous pouvez partager des données non Databricks avec des destinataires sur n’importe quelle plateforme de données. Les fournisseurs peuvent configurer un serveur Delta Sharing ouvert pour partager à partir de n’importe quelle plateforme informatique. Les destinataires peuvent consommer des données partagées à l’aide de connecteurs Delta Sharing open source pour de nombreux produits de données, notamment Power BI, pandas et Spark open source.
Cependant, l’utilisation de Delta Sharing sur Azure Databricks, et notamment le partage à partir d’un espace de travail compatible Unity Catalog, offre de nombreux avantages.
Consultez la première question de cette FAQ pour en savoir plus.
Dans quels cas vais-je faire l’objet de coûts Delta Sharing et comment les vérifier ?
Des coûts Delta Sharing sont engagés en cas de partage et d’accès aux vues, vues matérialisées et tables de streaming. Voici les sources potentielles de coût pour le partage :
- Coût de calcul, facturé par Azure Databricks.
- Coût de stockage et de transfert réseau (sortie), facturé par le fournisseur de stockage.
- Coût source de calcul étranger, lors du partage de schémas et de tables étrangers.
La méthode par laquelle le calcul est effectué et qui paie pour elle dépend de plusieurs facteurs :
- Type de capacité de calcul du destinataire
- Que le partage se produise dans le même compte Azure Databricks ou entre les comptes
Le tableau suivant décrit la méthode de facturation pour le partage et l’accès aux vues à l’aide de Delta Sharing :
| Calcul du destinataire | Relation de compte | Qui paie | Référence SKU utilisée pour la facturation | Méthode d'accès |
|---|---|---|---|---|
| Databricks Serverless | Any | Recipient* | Serverless du destinataire | Le destinataire reçoit un accès direct aux données sous-jacentes |
| Databricks Classique | Même compte | Recipient* | Classique du récipiendaire | Le destinataire reçoit un accès direct aux données sous-jacentes |
| Databricks Classique | Autre compte | Recipient | Serverless interactif du fournisseur | Le fournisseur effectue le filtrage |
| Ouvrir les connecteurs de partage Delta | Any | Provider | Serverless interactif du fournisseur | Le fournisseur effectue le filtrage |
* Lorsque vous utilisez le partage Delta avec un destinataire à l’aide d’un calcul sans serveur dans un autre compte ou avec un destinataire dans le même compte, aucun frais supplémentaire n’est appliqué. Cela signifie qu’il n’existe aucun coût supplémentaire pour matérialiser la ressource de données.
Lors du partage de tables étrangères (bêta), le filtrage est toujours effectué et stocké côté fournisseur. Les fournisseurs peuvent voir des frais supplémentaires attribués au stockage par défaut utilisé pour la matérialisation des données. Aucun coût de calcul de filtrage n’est facturé pendant la version bêta.
La répartition des coûts de facturation est également interrogeable à l’aide de la Référence de table système d’utilisation facturable et de la Référence de la table système d’historique de matérialisation de Delta Sharing. Si le destinataire paie pour l’attribution, seul le destinataire peut voir l’enregistrement associé dans la table système. Pour obtenir des exemples de requêtes, consultez Exemples de requêtes.
Est-ce que Delta Sharing entraîne des coûts de sortie ?
Delta Sharing au sein d’une région n’entraîne aucun coût de sortie. Contrairement à d’autres plateformes de partage de données, Delta Sharing ne nécessite pas de réplication des données. Ce modèle présente de nombreux avantages, mais il signifie que votre fournisseur de cloud peut facturer des frais de sortie de données lorsque vous partagez des données entre des clouds ou des régions. Azure Databricks prend en charge le partage à partir de Cloudflare R2, qui n’entraîne aucun frais de sortie, et fournit d’autres outils et recommandations pour superviser et éviter les frais de sortie. Consultez Surveiller et gérer les coûts de sortie Delta Sharing (pour les fournisseurs).
Les destinataires ont-ils un accès direct aux données sous-jacentes dans les vues partagées, les vues matérialisées et les tables de diffusion en continu ?
Pour les vues partagées, les tables de diffusion en continu et les vues matérialisées, le destinataire des données a un accès direct si l’une des valeurs suivantes est vraie :
- Le destinataire utilise le calcul serverless ou le calcul classique non dédié sur le même compte Azure Databricks.
- Le destinataire utilise le calcul serverless sur un autre compte Azure Databricks.
Sinon, les données sont matérialisées et filtrées côté fournisseur.
La matérialisation des données est stockée dans l'emplacement parent de stockage de la ressource de données partagée.
Lors du partage des ressources matérialisées, le calcul traite la requête en appliquant les filtres nécessaires et en créant une matérialisation temporaire mise en cache dans le stockage du fournisseur. Ces données filtrées sont remises aux destinataires à l’aide d’URL pré-signées de courte durée, ce qui garantit un accès sécurisé tout en conservant le contrôle d’accès fournisseur à destinataire.
Les fournisseurs peuvent-ils révoquer l’accès du destinataire ?
Oui, l’accès du destinataire peut être révoqué à la demande et selon des niveaux de granularité spécifiques. Vous pouvez refuser l’accès du destinataire à des partages et à des adresses IP spécifiques, filtrer ses données tabulaires, révoquer ses jetons et le supprimer complètement. Consultez Révoquer l’accès des destinataires à un partageet créer et gérer des destinataires de données pour le partage Delta (partage Databricks-to-Databricks).
N’est-il pas non sécurisé d’utiliser des URL pré-signées ?
Delta Sharing utilise des URL pré-signées pour fournir un accès temporaire à un fichier dans le stockage d’objets. Elles sont uniquement attribuées aux destinataires qui ont déjà accès aux données partagées. Ils sont sécurisés, car ils sont de courte durée et n’étendent pas le niveau d’accès au-delà de ce que les destinataires ont déjà reçus.
Les jetons utilisés dans le protocole de partage Delta Sharing ouvert sont-ils sécurisés ?
Comme Delta Sharing active le partage multiplateforme, contrairement à d’autres plateformes de partage de données disponibles, le protocole de partage nécessite un jeton ouvert. Les fournisseurs peuvent garantir la sécurité des jetons en configurant leur durée de vie, en définissant des contrôles réseau et en révoquant l’accès à la demande. De plus, le jeton n’étend pas le niveau d’accès au-delà des autorisations existantes des destinataires. Consultez considérations relatives à la sécurité pour les jetons.
Si vous préférez ne pas utiliser de jetons pour gérer l’accès aux partages des destinataires, vous devez utiliser le partage Databricks-to-Databricks ou contacter l’équipe de votre compte Databricks pour d’autres solutions.
Quelle est la différence entre Lakeflow Connect et Delta Sharing ?
Delta Sharing vous permet de partager de manière sécurisée des données dynamiques entre plusieurs plateformes, clouds, et régions. Databricks recommande d’effectuer l’ingestion en utilisant des connecteurs managés, car ils se mettent à l’échelle pour prendre en charge les volumes de données élevés, les requêtes à faible latence, et les limites des API de tiers. Cependant, vous souhaiterez peut-être interroger vos données sans les déplacer.
Lorsque vous avez le choix entre les connecteurs managés et le partage Delta, choisissez Le partage Delta pour les scénarios suivants :
- Limite de la duplication des données.
- Interrogation des données les plus récentes possibles.
Limites
- Les données tabulaires doivent être au format Delta ou Iceberg géré. Vous pouvez facilement convertir des tables Parquet au format Delta, puis les reconvertir. Consultez CONVERT TO DELTA.
- Les fournisseurs ne peuvent pas partager des tables qui utilisent le clustering liquide et le point de contrôle V2 avec le filtrage de partition.
- Les fournisseurs ne peuvent pas partager de tables R2 avec un Liquid Clustering et un Checkpoint V2.
- Les contraintes de clé étrangère ne sont pas disponibles dans les tables partagées.
- Les vues partageables doivent être définies sur des tables Delta ou sur d’autres vues partageables. Consultez Ajouter des vues à un partage (pour les fournisseurs) et lire des vues partagées (pour les destinataires).
- Le partage de notebooks est pris en charge uniquement dans le partage de Databricks à Databricks. Consultez Ajouter des fichiers de notebook à un partage et Lire les données partagées en utilisant Delta Sharing de Databricks à Databricks (pour les destinataires).
- Le partage de volumes est uniquement pris en charge dans le partage Databricks-to-Databricks. Consultez Ajouter des volumes à un partage (pour les fournisseurs) et Lire les données partagées via Databricks-to-Databricks Delta Sharing (pour les destinataires).
- Le partage de modèles est pris en charge uniquement dans le partage Databricks-to-Databricks. Consultez Ajouter des modèles à un partage (pour les fournisseurs) et Lisez des données partagées en utilisant le partage Delta de Databricks à Databricks (pour les destinataires).
- Il existe un nombre maximal de fichiers autorisés dans les métadonnées pour une table partagée. Pour en savoir plus, consultez les erreurs de dépassement de la limite des ressources.
- Les schémas nommés
information_schemane peuvent pas être importés dans un metastore Unity Catalog, car ce nom de schéma est réservé dans Unity Catalog. - Le partage de tables
SHALLOW CLONEn’est pas pris en charge par le partage Delta. Azure Databricks ne prend pas en charge la signature préalable d’URL pour les journaux Delta qui référencent des chemins d’accès absolus. - Le partage de tables avec les classements activés n’est pas pris en charge par le partage Delta.
- Le partage Delta ne peut lire que les tables UniForm en tant que tables Delta.
- Le partage Delta ne prend pas en charge la modification
responseFormatà la volée pour les sources de diffusion en continu et lors du redémarrage de la diffusion en continu.
Consultez également la matrice de prise en charge des fonctionnalités Delta Lake.
Quotas de ressources
Azure Databricks applique des quotas de ressources sur tous les objets sécurisables Delta Sharing. Ces quotas sont répertoriés dans les limites des ressources. Si vous prévoyez de dépasser ces limites de ressources, contactez l’équipe de votre compte Azure Databricks.
Vous pouvez surveiller l’utilisation de vos quotas à l’aide des API de quotas de ressources d’Unity Catalog. Consultez Surveiller votre utilisation des quotas de ressources du catalogue Unity.
Étapes suivantes
- Activer votre compte Databricks pour le partage Delta
- Créer des partages
- Créer des destinataires
- En savoir plus sur les modèles de partage ouvert et de partage Databricks à Databricks
- Découvrez comment les destinataires accèdent aux données partagées