Partager via


tâche de plateforme dbt pour les travaux

Important

Cette fonctionnalité est en version bêta. Les administrateurs d’espace de travail peuvent contrôler l’accès à cette fonctionnalité à partir de la page Aperçus . Consultez Gérer les préversions d’Azure Databricks.

Utilisez la tâche de plateforme dbt pour orchestrer et surveiller les travaux de plateforme dbt existants directement à partir d’Azure Databricks. Cette page explique comment sélectionner et déclencher des travaux dbt, définir des options de nouvelle tentative automatique pour les échecs et surveiller les exécutions.

Différences entre la plateforme dbt et les tâches dbt

Les travaux offrent deux types de tâches pour les projets dbt. Choisissez celle qui convient en fonction de l’emplacement de gestion de votre projet dbt :

tâche de plateforme dbt : utilisez-la pour orchestrer les travaux de plateforme dbt préexistants. Il se connecte à l’API de plateforme dbt et déclenche une exécution. Choisissez cette option si vous souhaitez centraliser l’orchestration dans Azure Databricks tout en conservant tous les avantages de la plateforme dbt, tels que la supervision et la planification.

tâche dbt : utilisez-la pour exécuter des projets dbt core sur un cluster Azure Databricks avec du code à partir de Git. Choisissez cette option si vous avez besoin d’un contrôle total sur l’environnement d’exécution et préférez gérer entièrement les dépendances dans Azure Databricks. Consultez tâche dbt pour des travaux.

Prerequisites

Pour utiliser la tâche de plateforme dbt, vous devez respecter les conditions préalables suivantes :

  • Un administrateur de l'espace de travail doit activer l'aperçu. Consultez Gérer les préversions d’Azure Databricks.
  • Vous devez disposer CREATE CONNECTION de privilèges sur le metastore du catalogue Unity dans votre espace de travail.
  • Accès à un projet dbt existant avec un travail défini dans la plateforme dbt. Pour plus d’informations, consultez Travaux dans la plateforme dbt dans la documentation dbt.
  • Autorisations pour générer un jeton de service dans la plateforme dbt. Pour en savoir plus, consultez jetons de compte de service.

Note

Pour la sécurité et la stabilité opérationnelle, Databricks recommande de générer un jeton de compte de service, et non un jeton d’accès personnel. Les jetons de compte de service ne sont pas liés à un utilisateur individuel et peuvent être facilement étendus pour fournir les autorisations minimales nécessaires.

Collecter les détails de la plateforme dbt

Pour intégrer dbt à Azure Databricks, vous avez besoin des trois détails suivants :

  • ID de votre compte de plateforme dbt.
  • Clé API générée dans la plateforme dbt.
  • URL de l’hôte de déploiement de votre plateforme dbt.

Les sections suivantes décrivent comment trouver ces informations requises.

Obtenez l’ID de votre compte :

Pour récupérer votre ID de compte :

  1. Connectez-vous à la plateforme dbt.
  2. Accédez aux paramètres>du compte.
  3. Obtenez l’ID de compte à partir du suffixe d’URL, qui est au format suivant : https://cloud.getdbt.com/settings/accounts/{account_id}.

Obtenir votre clé API

Pour récupérer votre clé API :

  1. Connectez-vous à la plateforme dbt.
  2. Accédez à Paramètres>Paramètre de profil>Votre profil>Accès à l'API>Clé API.

URL de l’hôte

Votre URL d’hôte dépend de votre emplacement et de votre location. Consultez access, régions et adresses IP dans la documentation dbt pour rechercher l’URL de votre région.

Identifiez votre région et votre location (multilocataire ou basée sur des cellules). Utilisez la colonne URL d’accès pour obtenir l’URL de votre hôte.

Type de location Exemple de région Exemple d’URL d’hôte
Multilocataire Amérique du Nord https://cloud.getdbt.com
Basé sur des cellules Amérique du Nord (us-east-1) https://12345.us1.dbt.com (utilisation 12345 comme ID de compte)

Configuration de la connexion de la plateforme dbt

Procédez comme suit pour configurer votre connexion de plateforme dbt dans Azure Databricks.

  1. Cliquez sur l’icône Données.Catalogue dans la barre latérale.
  2. Cliquez sur l’icône Plus dans le navigateur de schéma. Cliquez ensuite sur Créer une connexion. Le formulaire Configurer la connexion s’ouvre .
  3. Entrez les informations suivantes, puis cliquez sur Suivant :
    • Dans Nom de la connexion, entrez un nom.
    • Pour le type de connexion, choisissez la plateforme dbt.
  4. Entrez l’URL de l’hôte de la plateforme dbt dans le champ de texte hôte . N’incluez pas de barre oblique finale (/).
  5. Entrez votre ID de compte de plateforme dbt et le jeton d’API que vous avez collectés à l’étape précédente.
  6. Cliquez sur Créer une connexion pour confirmer les détails de la connexion.
  7. (Facultatif) Accordez à d’autres utilisateurs des privilèges pour utiliser la connexion :
    • Choisissez les ID d’utilisateur et les groupes auxquels vous souhaitez accorder des privilèges dans le menu déroulant Principaux.
    • Sélectionnez les privilèges que vous souhaitez accorder.
    • Cliquez sur Confirmer.

Créer une nouvelle tâche avec une tâche de plateforme dbt

  1. Dans votre espace de travail, cliquez sur l’icône Flux de travail.Travaux & Pipelines dans la barre latérale.
  2. Cliquez sur Créer, puis Travail. Le nouveau travail est automatiquement nommé avec un horodatage associé.
  3. (Facultatif) Cliquez sur le nom du travail et entrez un nouveau nom pour le modifier.
  4. Cliquez sur Ajouter un autre type de tâche. Recherchez la plateforme dbt et cliquez sur la vignette pour la sélectionner.
  5. Entrez un nom de tâche.
  6. Utilisez le menu déroulant de connexion de la plateforme dbt pour sélectionner la connexion créée précédemment.
  7. Utilisez le menu déroulant du travail de plateforme dbt pour sélectionner le travail de plateforme dbt que vous souhaitez orchestrer.
  8. Cliquez sur Enregistrer la tâche.
  9. (Facultatif) Cliquez sur Exécuter maintenant pour tester manuellement votre travail.

Définir une planification ou un déclencheur

Vous pouvez configurer des travaux pour qu’ils se déclenchent automatiquement en fonction d’une planification basée sur le temps ou de l’arrivée de nouvelles données. Pour en savoir plus sur les options disponibles, consultez Automatisation des travaux avec des planifications et des déclencheurs.

Note

Les déclencheurs continus ne sont pas pris en charge pour les tâches sur la plateforme dbt.

Surveiller les processus

Vous pouvez surveiller les travaux Lakeflow dans l’interface utilisateur Azure Databricks. Pour les travaux de plateforme dbt, vous pouvez également ouvrir un lien qui pointe vers les détails de l’exécution des travaux dans la plateforme dbt.

Pour surveiller une exécution :

  1. Cliquez sur Jobs & Pipelines dans la barre latérale de l’espace de travail.

  2. (Facultatif) Sélectionnez les filtres Jobs et Créé par moi.

  3. Cliquez sur le lien Nom de votre travail.

    L’onglet Exécutions s’affiche, affichant la matrice et les vues de liste des exécutions actives et terminées.

  4. Cliquez sur le lien de l’exécution dans la colonne Heure de début dans l’affichage liste des exécutions. L'état de la tâche de la plateforme dbt est affiché.

  5. Cliquez sur Afficher dans dbt pour afficher les détails de l’exécution du travail dans la plateforme dbt.