Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cette page fournit des recommandations pour les administrateurs et les utilisateurs puissants qui configurent les connexions entre Azure Databricks et les sources et services de données externes.
Vous pouvez connecter votre compte Azure Databricks à des sources de données telles que le stockage d’objets cloud, les systèmes de gestion de base de données relationnelle, les services de données de streaming et les plateformes d’entreprise telles que la gestion de la relation client (CRM). Vous pouvez également connecter votre compte Azure Databricks à des services externes non-stockage.
Configurer des connexions au stockage d’objets
La plupart des données utilisées par les charges de travail Azure Databricks sont stockées dans le stockage d’objets cloud, comme Azure Data Lake Storage ou AWS S3. Vous pouvez gérer l’accès au stockage d’objets cloud à l’aide de l’une des opérations suivantes :
Catalogue Unity (recommandé), qui fournit une gouvernance des données pour les données structurées et non structurées dans le stockage d’objets cloud. Consultez Se connecter au stockage d’objets cloud à l’aide du catalogue Unity.
Connecteurs hérités et modèles de connexion. Consultez Configurer l’accès au stockage d’objets cloud pour Azure Databricks à l’aide de modèles hérités.
Configurer des connexions à des systèmes de données externes
Databricks offre plusieurs options pour configurer des connexions à des systèmes de données externes. Le tableau suivant fournit une vue d’ensemble de ces options :
| Option | Description |
|---|---|
| Connecteurs de fédération de requête | Lakehouse Federation fournit un accès en lecture seule aux données dans les systèmes de données d’entreprise. La fédération de requêtes utilise des connexions JDBC sécurisées pour fédérer à des systèmes de données externes tels que PostgreSQL et MySQL. La fédération de catalogue connecte des catalogues externes, tels qu’un metastore Hive ou snowflake Horizon Catalog, pour interroger les données directement dans le stockage de fichiers. |
| Connecteurs d’ingestion managés | Lakeflow Connect permet aux utilisateurs administrateurs de créer une connexion et un pipeline d’ingestion managé en même temps dans l’interface utilisateur d’ingestion des données. Consultez Connecteurs gérés dans Lakeflow Connect. Si les utilisateurs qui créent des pipelines sont des utilisateurs non-administrateurs ou s’ils planifient d’utiliser des API Databricks, des kits SDK Databricks, l’interface CLI Databricks ou des bundles de ressources Databricks, un administrateur doit d’abord créer la connexion dans l’Explorateur de catalogues. Ces interfaces nécessitent que les utilisateurs spécifient une connexion existante lorsqu’ils créent un pipeline. Consultez Se connecter aux sources d’ingestion managées. |
| Connecteurs de diffusion en continu | Azure Databricks fournit des connecteurs optimisés pour de nombreux systèmes de données de streaming. Pour toutes les sources de données de streaming, vous devez générer des informations d’identification qui fournissent l’accès et chargent ces informations d’identification dans Azure Databricks. Databricks recommande de stocker les informations d’identification à l’aide de secrets, car vous pouvez utiliser des secrets pour toutes les options de configuration et dans tous les modes d’accès. Tous les connecteurs de données pour les sources de streaming prennent en charge la transmission d’informations d’identification à l’aide d’options lorsque vous définissez des requêtes de streaming. Consultez les connecteurs Standard dans Lakeflow Connect. |
| Intégrations tierces | Utilisez des outils tiers pour vous connecter à des sources de données externes et automatiser l’ingestion de données dans le lakehouse. Certaines solutions incluent également les opérations ETL inverses et l’accès direct aux données de lakehouse à partir de systèmes externes. Voir Qu’est-ce que Databricks Partner Connect ?. |
| Drivers | Azure Databricks inclut des pilotes pour les systèmes de données externes dans chaque Runtime Databricks. Vous pouvez éventuellement installer des pilotes tiers pour accéder aux données dans d’autres systèmes. Vous devez configurer des connexions pour chaque table. Certains pilotes incluent l’accès en écriture. Consultez Se connecter à des systèmes externes. Pour la fédération de requêtes en lecture seule, la fédération Lakehouse est toujours préférée à ces pilotes. |
| JDBC | Plusieurs pilotes inclus pour les systèmes externes s’appuient sur la prise en charge native de JDBC, et l’option JDBC fournit des options extensibles pour la configuration des connexions à d’autres systèmes. Vous devez configurer des connexions pour chaque table. Consultez Interroger des bases de données en utilisant JDBC. Pour la fédération de requêtes en lecture seule, la fédération Lakehouse est toujours préférée à ces pilotes. |
Configurer des connexions à des services externes
Unity Catalog régit l’accès aux services non-stockage à l’aide d’un objet sécurisable appelé informations d’identification de service. Les informations d’identification du service encapsulent des informations d’identification cloud à long terme qui fournissent l’accès à un service externe auquel les utilisateurs doivent se connecter à partir d’Azure Databricks. Voir Se connecter à des services cloud externes à l’aide du catalogue Unity
Gérer et demander l’accès aux sources de données et aux services externes
La plupart des méthodes de connexion nécessitent des privilèges élevés sur la source de données externe ou le service et l’espace de travail Azure Databricks. Dans les organisations classiques, peu d’utilisateurs disposent de privilèges suffisants dans Azure Databricks ou dans des fournisseurs de données externes et de stockage pour configurer eux-mêmes les connexions de données.
Votre organisation a peut-être déjà configuré l’accès à une source de données ou à un service à l’aide de l’un des modèles décrits dans les articles liés à partir de cette page. Si votre organisation dispose d’un processus bien défini pour demander l’accès aux données et aux services tiers, Databricks recommande de suivre ce processus. Si vous ne savez pas comment accéder à une source de données, cette procédure peut vous aider à :
- Utilisez Catalog Explorer pour afficher les tables et les volumes auxquels vous pouvez accéder. Consultez Qu’est-ce que Catalog Explorer ?.
- Demandez à vos collègues ou responsables quelles sont les sources de données auxquelles ils peuvent accéder.
- La plupart des organisations utilisent des groupes synchronisés à partir de leur fournisseur d’identité (par exemple, Okta ou Microsoft Entra ID) afin de gérer les autorisations pour les utilisateurs de l’espace de travail. Si d’autres membres de votre équipe peuvent accéder aux sources de données auxquelles vous avez besoin d’accéder, un administrateur d’espace de travail vous ajoute au groupe approprié pour accorder l’accès.
- Si une table, un volume ou une source de données particulière a été configurée par un collègue, cette personne doit pouvoir vous accorder l’accès aux données.
Certaines organisations attachent des autorisations d’accès aux données à des clusters de calcul et à des entrepôts SQL spécifiques. Il s’agit d’un modèle de gouvernance hérité, mais si votre organisation l’utilise et que vous souhaitez apprendre quelles sources de données sont disponibles sur une ressource de calcul spécifique, contactez le créateur de calcul répertorié sous l’onglet Calcul .