Partager via


Se connecter à des sources d’ingestion managée

Découvrez comment créer des connexions dans l’Explorateur de catalogues qui stockent les détails d’authentification pour des sources d’ingestion managée Lakeflow Connect. Tout utilisateur disposant de privilèges USE CONNECTION ou ALL PRIVILEGES sur la connexion peut ensuite créer des pipelines d’ingestion managée à partir de sources telles que Salesforce et SQL Server.

Un utilisateur administrateur doit effectuer les étapes décrites dans cet article si les utilisateurs qui vont créer des pipelines :

  • Sont des utilisateurs non-administrateurs.
  • Utiliseront des API Databricks, des kits de développement logiciel (SDK) Databricks, l’interface CLI Databricks, ou des bundles de ressources Databricks.

Ces interfaces nécessitent que les utilisateurs spécifient une connexion existante lorsqu’ils créent un pipeline.

Les utilisateurs administrateurs peuvent également créer une connexion et un pipeline en même temps dans l’interface utilisateur d’ingestion des données. Consultez Connecteurs gérés dans Lakeflow Connect.

LakeFlow Connect versus Lakehouse Federation

Lakehouse Federation vous permet d’interroger des sources de données externes sans déplacer vos données. Lorsque vous avez le choix entre Lakeflow Connect et Lakehouse Federation, choisissez Lakehouse Federation pour la création de rapports ad hoc ou le travail de preuve de concept sur vos pipelines ETL. Consultez Qu’est-ce que Lakehouse Federation ?.

Privilèges requis

Les privilèges utilisateur requis pour se connecter à une source d’ingestion managée dépendent de l’interface que vous choisissez :

  • Interface utilisateur d’ingestion des données

    Les utilisateurs administrateurs peuvent créer une connexion et un pipeline en même temps. Cet Assistant d’ingestion de bout en bout est disponible uniquement dans l’interface utilisateur. Tous les connecteurs d’ingestion managés ne prennent pas en charge la création de pipelines basée sur l’interface utilisateur.

  • Explorateur de catalogues

    L’utilisation de l’Explorateur de catalogues sépare la création de connexion de la création de pipeline. Cela permet aux administrateurs de créer des connexions avec lesquelles les utilisateurs non-administrateurs peuvent créer des pipelines.

    Si les utilisateurs qui créent des pipelines sont des utilisateurs non-administrateurs ou s’ils planifient d’utiliser des API Databricks, des kits SDK Databricks, l’interface CLI Databricks ou des bundles de ressources Databricks, un administrateur doit d’abord créer la connexion dans l’Explorateur de catalogues. Ces interfaces nécessitent que les utilisateurs spécifient une connexion existante lorsqu’ils créent un pipeline.

Scénario Interfaces prises en charge Privilèges utilisateur requis
Un utilisateur administrateur crée une connexion et un pipeline d’ingestion en même temps. Interface utilisateur d’ingestion des données
  • CREATE CONNECTION sur le metastore
  • USE CATALOG sur le catalogue cible
  • (Applications SaaS) USE SCHEMA et CREATE TABLE sur un schéma existant ou CREATE SCHEMA sur le catalogue cible
  • (Bases de données) USE SCHEMA, CREATE TABLE, et CREATE VOLUME sur un schéma existant ou CREATE SCHEMA sur le catalogue cible
Un utilisateur administrateur crée une connexion avec laquelle les utilisateurs non-administrateurs peuvent créer des pipelines. Administrateur :
  • Explorateur de catalogues

Non-administrateur :
  • Interface utilisateur d’ingestion des données
  • API Databricks
  • Kits SDK Databricks
  • Interface CLI de Databricks
  • Bundles de ressources Databricks
Administrateur :
  • CREATE CONNECTION sur le metastore

Non-administrateur :
  • USE CONNECTION ou ALL PRIVILEGES sur une connexion existante.
  • USE CATALOG sur le catalogue cible
  • (Applications SaaS) USE SCHEMA et CREATE TABLE sur un schéma existant ou CREATE SCHEMA sur le catalogue cible
  • (Bases de données) USE SCHEMA, CREATE TABLE, et CREATE VOLUME sur un schéma existant ou CREATE SCHEMA sur le catalogue cible

Confluence

Pour créer une connexion Confluence dans l’Explorateur de catalogues, procédez comme suit :

  1. Terminez la configuration de la source. Utilisez les détails d’authentification que vous obtenez pour créer la connexion.

  2. Dans l’espace de travail Azure Databricks, cliquez sur Catalog > External Data > Connections > Create connection.

  3. Dans la page Principes de base de la connexion de l’Assistant de configuration de la connexion, entrez un nom de connexion unique.

  4. Dans le menu déroulant Type de connexion , sélectionnez Confluence.

  5. Dans le menu déroulant Type d’authentification , sélectionnez OAuth.

  6. (Facultatif) Ajoutez un commentaire.

  7. Cliquez sur Suivant.

  8. Dans la page Authentification , entrez les informations d’identification suivantes :

    • Domaine : nom de domaine de l’instance Confluence (par exemple, your-domain.atlassian.net). N’incluez pas https:// ou www.
    • Clé secrète client : celle provenant de la configuration source.
    • ID client : ID client de la configuration source.
  9. Cliquez sur Se connecter avec Confluence.

    Vous êtes redirigé vers la page d’autorisation Atlassian.

  10. Entrez vos informations d’identification Confluence et terminez le processus d’authentification.

    Vous êtes redirigé vers l’espace de travail Azure Databricks.

  11. Cliquez sur Créer une connexion.

Données brutes Google Analytics

L’interface utilisateur Databricks prend uniquement en charge OAuth pour les connexions GA4. Vous pouvez utiliser l’authentification de base à la place en créant la connexion à l’aide des API Databricks.

Interface utilisateur Databricks

  1. Dans l’espace de travail Azure Databricks, cliquez sur Catalogue > Emplacements externes > Connexions > Créer une connexion.
  2. Dans la page Informations de base de connexion de l’assistant Configurer la connexion, spécifiez un Nom de connexion unique.
  3. Dans le menu déroulant Type de connexion , sélectionnez Données brutes Google Analytics.
  4. (Facultatif) Ajoutez un commentaire.
  5. Cliquez sur Suivant.
  6. Dans la page Authentification , cliquez sur Se connecter à Google et connectez-vous avec vos informations d’identification de compte Google.
  7. À l’invite pour autoriser Lakeflow Connect à accéder à votre compte Google, cliquez sur Autoriser.
  8. Cliquez sur Créer une connexion.

API Databricks

L’exemple suivant montre comment créer une connexion à GA4 à l’aide de l’authentification de base avec une clé JSON de compte de service. Databricks recommande d’exécuter le code suivant localement pour éviter d’avoir votre jeton d’accès personnel et votre compte de service connectés à l’action runCommand de vos journaux d’audit. Si des journaux d’audit détaillés sont activés, la création de la connexion dans un notebook Azure Databricks avec des informations d’identification en texte clair peut rendre ces informations visibles par toute personne ayant accès à la system.access.audit table ou aux journaux d’audit bruts.

curl -X POST \
 "${DATABRICKS_INSTANCE}/api/2.1/unity-catalog/connections" \
 -H "Authorization: Bearer ${TOKEN}" \
 -H "Content-Type: application/json" \
 -d "{
\"name\": \"YOUR_CONNECTION_NAME\",
\"connection_type\": \"GA4_RAW_DATA\",
\"options\": {
\"service_account_json\": $(jq -Rs '.' service_account.json)
},
\"comment\": \"GA4 Raw Data connection for managed ingestion\"
}"

Meta Ads

Prerequisites

Configurez Meta Ads en tant que source de données.

Créer une connexion

  1. Dans l’Explorateur de catalogues, cliquez sur Ajouter et sélectionnez Ajouter une connexion.
  2. Dans le menu déroulant Type de connexion , sélectionnez Meta Marketing.
  3. Attribuez un nom à cette connexion.
  4. Dans le champ ID d’application , entrez l’ID d’application de votre meta app.
  5. Dans le champ Secret de l’application, entrez le secret de l’application à partir de votre application meta.
  6. Cliquez sur Authentifier et créer une connexion.
  7. Dans la fenêtre d’authentification meta, connectez-vous avec votre compte Meta et accordez les autorisations demandées.
  8. Une fois l’authentification réussie, la connexion est créée.

MySQL

Prerequisites

Terminez la configuration de la source. Vous utiliserez les détails d’authentification que vous obtenez pour créer la connexion.

Créer une connexion

  1. Dans l’espace de travail Azure Databricks, cliquez sur Catalogue > Emplacements externes > Connexions > Créer une connexion.

  2. Dans la page Informations de base de connexion de l’assistant Configurer la connexion, spécifiez un Nom de connexion unique.

  3. Dans le menu déroulant Type de connexion , sélectionnez MySQL.

  4. (Facultatif) Ajoutez un commentaire.

  5. Cliquez sur Suivant.

  6. Dans la page Authentification , entrez les éléments suivants :

    • Hôte : spécifiez le nom de domaine MySQL.
    • Utilisateur et mot de passe : entrez les informations d’identification de connexion MySQL de l’utilisateur de réplication.
  7. Cliquez sur Créer une connexion.

Le bouton Tester la connexion échoue actuellement pour les utilisateurs créés avec caching_sha2_password ou sha256_password même lorsque les informations d’identification sont correctes. Il s’agit d’un problème connu.

PostgreSQL

Prerequisites

Configurer PostgreSQL pour l’ingestion dans Azure Databricks

Créer une connexion

  1. Dans l’espace de travail Azure Databricks, cliquez sur Catalogue > Emplacements externes > Connexions > Créer une connexion.
  2. Dans la page Informations de base de connexion de l’assistant Configurer la connexion, spécifiez un Nom de connexion unique.
  3. Dans le menu déroulant Type de connexion , sélectionnez PostgreSQL.
  4. (Facultatif) Ajoutez un commentaire.
  5. Cliquez sur Suivant.
  6. Dans la page Authentification , pour Host, spécifiez le nom de domaine PostgreSQL.
  7. Pour l’utilisateur et le mot de passe, entrez les informations d’identification de connexion PostgreSQL de l’utilisateur de réplication.
  8. Cliquez sur Créer une connexion.

Salesforce

Lakeflow Connect prend en charge l’ingestion de données à partir de la plateforme Salesforce. Databricks offre également un connecteur de copie zéro dans Lakehouse Federation pour exécuter des requêtes fédérées sur Salesforce Data 360 (anciennement Data Cloud).

Prerequisites

Salesforce applique des restrictions d’utilisation aux applications connectées. Les autorisations contenues dans le tableau suivant sont requises pour une authentification de première fois réussie. Si vous ne disposez pas de ces autorisations, Salesforce bloque la connexion et nécessite qu’un administrateur installe l’application connectée Databricks.

Condition Autorisation requise
Le contrôle d’accès aux API est activé. Customize Application et soit Modify All Data soit Manage Connected Apps
Le contrôle d’accès aux API n’est pas activé. Approve Uninstalled Connected Apps

Pour en savoir plus sur le contexte, consultez Préparez-vous aux changements des restrictions d’utilisation des applications connectées dans la documentation Salesforce.

Créer une connexion

Pour créer une connexion d’ingestion Salesforce dans l’Explorateur de catalogues, effectuez ces étapes :

  1. Dans l’espace de travail Azure Databricks, cliquez sur Catalogue > Emplacements externes > Connexions > Créer une connexion.

  2. Dans la page Informations de base de connexion de l’assistant Configurer la connexion, spécifiez un Nom de connexion unique.

  3. Dans le menu déroulant Type de connexion, sélectionnez Salesforce.

  4. (Facultatif) Ajoutez un commentaire.

  5. Cliquez sur Suivant.

  6. Si vous ingérez des données depuis un compte Salesforce Sandbox, définissez Is sandbox sur true.

  7. Cliquez sur Se connecter avec Salesforce.

    Vous êtes redirigé vers Salesforce.

  8. Si vous ingérez à partir d’un bac à sable Salesforce, cliquez sur Utiliser un domaine personnalisé, indiquez l’URL du bac à sable, puis cliquez sur Continuer.

    Bouton Utiliser un domaine personnalisé

    Entrer l’URL du bac à sable

  9. Entrez vos informations d’identification Salesforce, puis cliquez sur Se connecter. Databricks recommande de se connecter en tant qu'utilisateur Salesforce dédié à l'ingestion Databricks.

    Importante

    À des fins de sécurité, authentifiez uniquement si vous avez cliqué sur un lien OAuth 2.0 dans l’interface utilisateur Azure Databricks.

  10. Après être revenu dans l’Assistant d’ingestion, cliquez sur Créer une connexion.

ServiceNow

Les étapes de création d’une connexion ServiceNow dans l’Explorateur de catalogue dépendent de la méthode OAuth que vous choisissez. Les méthodes suivantes sont prises en charge :

  • U2M OAuth (recommandé)
  • Informations d’identification du mot de passe du propriétaire de la ressource OAuth (ROPC)

Databricks recommande d’utiliser U2M OAuth, car il s’agit de l’approche plus sécurisée.

  1. Terminez la configuration de la source. Vous utiliserez les détails d’authentification que vous obtenez pour créer la connexion.

  2. Dans l’espace de travail Azure Databricks, cliquez sur Catalogue > Emplacements externes > Connexions > Créer une connexion.

  3. Dans la page Informations de base de connexion de l’assistant Configurer la connexion, spécifiez un Nom de connexion unique.

  4. Dans le menu déroulant Type de connexion , sélectionnez ServiceNow.

  5. Dans le menu déroulant Type d’authentification , sélectionnez OAuth (recommandé) .

  6. (Facultatif) Ajoutez un commentaire.

  7. Cliquez sur Suivant.

  8. Dans la page Authentification , entrez les éléments suivants :

    • URL de l’instance : URL de l’instance ServiceNow.
    • Étendue OAuth : conservez la valeur useraccountpar défaut .
    • Clé secrète client : secret client que vous avez obtenu dans la configuration source.
    • ID client : ID client que vous avez obtenu dans la configuration source.
  9. Cliquez sur Se connecter avec ServiceNow.

  10. Connectez-vous à l’aide de vos informations d’identification ServiceNow.

    Vous êtes redirigé vers l’espace de travail Azure Databricks.

  11. Cliquez sur Créer une connexion.

ROPC

  1. Terminez la configuration de la source. Utilisez les détails d’authentification que vous obtenez pour créer la connexion.

  2. Dans l’espace de travail Azure Databricks, cliquez sur Catalogue > Emplacements externes > Connexions > Créer une connexion.

  3. Dans la page Informations de base de connexion de l’assistant Configurer la connexion, spécifiez un Nom de connexion unique.

  4. Dans le menu déroulant Type de connexion , sélectionnez ServiceNow.

  5. Dans le menu déroulant Type d’authentification , sélectionnez Mot de passe du propriétaire de la ressource OAuth.

  6. (Facultatif) Ajoutez un commentaire.

  7. Cliquez sur Suivant.

  8. Dans la page Authentification , entrez les éléments suivants :

    • Utilisateur : votre nom d’utilisateur ServiceNow.
    • Mot de passe : votre mot de passe ServiceNow.
    • URL de l’instance : URL de l’instance ServiceNow.
    • ID client : ID client que vous avez obtenu dans la configuration source.
    • Clé secrète client : secret client que vous avez obtenu dans la configuration source.
  9. Cliquez sur Créer une connexion.

Netsuite

Le connecteur NetSuite utilise l’authentification basée sur les jetons.

Prerequisites

Terminez la configuration de la source. Vous utiliserez les détails d’authentification que vous obtenez pour créer la connexion.

Créer une connexion

Pour créer une connexion d’ingestion NetSuite dans l’Explorateur de catalogues, procédez comme suit :

  1. Dans l’espace de travail Azure Databricks, cliquez sur Catalogue > Emplacements externes > Connexions > Créer une connexion.

  2. Dans la page Informations de base de connexion de l’assistant Configurer la connexion, spécifiez un Nom de connexion unique.

  3. Dans le menu déroulant Type de connexion , sélectionnez NetSuite.

  4. (Facultatif) Ajoutez un commentaire.

  5. Cliquez sur Suivant.

  6. Dans la page Authentification , entrez les informations d’identification suivantes :

    • Clé d'accès client : clé d'accès client OAuth à partir de votre intégration NetSuite.
    • Secret client : le secret OAuth du client à partir de votre intégration NetSuite.
    • ID du jeton d'accès : L'ID du jeton d'accès pour votre utilisateur NetSuite.
    • Secret du jeton : Le secret du jeton d’accès pour votre utilisateur NetSuite.
    • ID de rôle : ID interne du rôle Intégrateur d’entrepôt de données dans NetSuite.
    • Hôte : nom d’hôte à partir de votre URL JDBC NetSuite.
    • Port : numéro de port de votre URL JDBC NetSuite.
    • ID de compte : ID de compte de votre URL JDBC NetSuite.
  7. Cliquez sur Tester la connexion pour vérifier que vous êtes en mesure de vous connecter à Netsuite.

  8. Cliquez sur Créer une connexion.

SharePoint

Les méthodes d’authentification suivantes sont prises en charge :

Dans la plupart des scénarios, Databricks recommande l’OAuth machine à machine (M2M). Les autorisations du connecteur M2M s’étendent à un site spécifique. Toutefois, si vous souhaitez limiter les autorisations à ce à quoi l'utilisateur authentificateur peut accéder, choisissez plutôt l'OAuth utilisateur-à-machine (U2M). Les deux méthodes offrent une actualisation automatisée des jetons et une sécurité accrue.

M2M

  1. Terminez la configuration de la source. Vous utiliserez les détails d’authentification que vous obtenez pour créer la connexion.

  2. Dans l’espace de travail Azure Databricks, cliquez sur Catalog > External Data > Connections > Create connection.

  3. Dans la page Informations de base de connexion de l’assistant Configurer la connexion, spécifiez un Nom de connexion unique.

  4. Dans le menu déroulant Type de connexion , sélectionnez Microsoft SharePoint.

  5. Dans le menu déroulant Type d’authentification , sélectionnez OAuth Machine to Machine.

  6. (Facultatif) Ajoutez un commentaire.

  7. Cliquez sur Suivant.

  8. Dans la page Authentification , entrez les informations d’identification suivantes pour votre application Microsoft Entra ID :

    • Clé secrète client : clé secrète client que vous avez récupérée dans la configuration source.
    • ID client : ID client que vous avez récupéré dans la configuration source.
    • Domaine : URL de l’instance SharePoint au format suivant : https://MYINSTANCE.sharepoint.com
    • ID de locataire : ID de locataire que vous avez récupéré dans la configuration source.
  9. Cliquez sur Se connecter avec Microsoft SharePoint.

    Une nouvelle fenêtre s’ouvre. Une fois connecté avec vos informations d’identification SharePoint, les autorisations que vous accordez à l’application Entra ID sont affichées.

  10. Cliquez sur Accepter.

    Un message Autorisation réussie s’affiche et vous êtes redirigé vers l’espace de travail Azure Databricks.

  11. Cliquez sur Créer une connexion.

U2M

  1. Terminez la configuration de la source. Vous utiliserez les détails d’authentification que vous obtenez pour créer la connexion.

  2. Dans l’espace de travail Azure Databricks, cliquez sur Catalog > External Data > Connections > Create connection.

  3. Dans la page Informations de base de connexion de l’assistant Configurer la connexion, spécifiez un Nom de connexion unique.

  4. Dans le menu déroulant Type de connexion , sélectionnez Microsoft SharePoint.

  5. Dans le menu déroulant Type d’authentification , sélectionnez OAuth.

  6. (Facultatif) Ajoutez un commentaire.

  7. Cliquez sur Suivant.

  8. Dans la page Authentification , entrez les informations d’identification suivantes pour votre application Microsoft Entra ID :

    • Clé secrète client : clé secrète client que vous avez récupérée dans la configuration source.
    • ID client : ID client que vous avez récupéré dans la configuration source.
    • Étendue OAuth : laissez l’étendue OAuth définie sur la valeur préremplie : https://graph.microsoft.com/Sites.Read.All offline_access
    • Domaine : URL de l’instance SharePoint au format suivant : https://MYINSTANCE.sharepoint.com
    • ID de locataire : ID de locataire que vous avez récupéré dans la configuration source.

    Champs obligatoires pour une connexion de catalogue Unity qui stocke les détails de l’authentification SharePoint

  9. Cliquez sur Se connecter avec Microsoft SharePoint.

    Une nouvelle fenêtre s’ouvre. Une fois connecté avec vos informations d’identification SharePoint, les autorisations que vous accordez à l’application Entra ID sont affichées.

  10. Cliquez sur Accepter.

    Un message Autorisation réussie s’affiche et vous êtes redirigé vers l’espace de travail Azure Databricks.

  11. Cliquez sur Créer une connexion.

Jeton d’actualisation manuel

  1. Terminez la configuration de la source. Vous utiliserez les détails d’authentification que vous obtenez pour créer la connexion.

  2. Dans l’espace de travail Azure Databricks, cliquez sur Catalog > External Data > Connections > Create connection.

  3. Dans la page Informations de base de connexion de l’assistant Configurer la connexion, spécifiez un Nom de connexion unique.

  4. Dans le menu déroulant Type de connexion , sélectionnez Microsoft SharePoint.

  5. Dans le menu déroulant Type d’authentification , sélectionnez Jeton d’actualisation OAuth.

  6. (Facultatif) Ajoutez un commentaire.

  7. Cliquez sur Suivant.

  8. Dans la page Authentification , entrez les informations d’identification suivantes pour votre application Microsoft Entra ID :

    • ID de locataire : ID de locataire que vous avez récupéré dans la configuration source.
    • ID client : ID client que vous avez récupéré dans la configuration source.
    • Clé secrète client : clé secrète client que vous avez récupérée dans la configuration source.
    • Jeton d’actualisation : jeton d’actualisation que vous avez récupéré dans la configuration source.

    Champs obligatoires pour une connexion de catalogue Unity qui stocke les détails de l’authentification SharePoint à l’aide d’un jeton d’actualisation manuel

  9. Cliquez sur Créer une connexion.

Serveur SQL

Pour créer une connexion Microsoft SQL Server dans l’Explorateur de catalogues, effectuez les étapes suivantes :

  1. Dans l’espace de travail Azure Databricks, cliquez sur Catalogue > Données externes > Connexions.
  2. Cliquez sur Créer une connexion.
  3. Entrez un Nom de connexion unique.
  4. Pour Type de connexion, sélectionnez SQL Server.
  5. Pour Hôte, spécifiez le nom de domaine SQL Server.
  6. Pour Utilisateur et Mot de passe, entrez vos informations d’identification de connexion SQL Server.
  7. Cliquez sur Créer.

Rapports de Workday

Pour créer une connexion Workday Reports dans l’Explorateur de catalogues, effectuez les étapes suivantes :

  1. Créez des informations d’identification d’accès à Workday. Pour obtenir des instructions, consultez Configurer des rapports Workday pour l’ingestion.
  2. Dans l’espace de travail Azure Databricks, cliquez sur Catalogue > Emplacements externes > Connexions > Créer une connexion.
  3. Pour Nom de la connexion, entrez un nom unique pour la connexion Workday.
  4. Pour Type de connexion, sélectionnez Workday Reports.
  5. Pour le type d’authentification, sélectionnez Jeton d’actualisation OAuth ou Nom d’utilisateur et mot de passe (authentification de base), puis cliquez sur Suivant.
  6. (Jeton d’actualisation OAuth) Dans la page Authentification , entrez l’ID client, la clé secrète client et le jeton d’actualisation que vous avez obtenus dans la configuration source.
  7. (Authentification de base) Entrez votre nom d’utilisateur et votre mot de passe Workday.
  8. Cliquez sur Créer une connexion.

Étape suivante

Une fois que vous avez créé une connexion à votre source d’ingestion managée dans l’Explorateur de catalogues, tout utilisateur disposant de privilèges USE CONNECTION ou ALL PRIVILEGES sur la connexion peut créer un pipeline d’ingestion de la manière suivante :

  • Assistant d'ingestion (uniquement pour les connecteurs pris en charge)
  • Bundles de ressources Databricks
  • API Databricks
  • Kits SDK Databricks
  • Interface CLI de Databricks

Pour obtenir des instructions sur la création d’un pipeline, consultez la documentation sur les connecteurs managés.