Partager via


Azure Databricks

Azure Databricks offre une plateforme unifiée pour la gestion, la gouvernance et l’analytique des données évolutives, combinant des flux de travail rationalisés avec la possibilité de gérer efficacement différents types de données

Ce connecteur est disponible dans les produits et régions suivants :

Service classe Régions
Copilot Studio Premium Toutes les régions Power Automate , à l’exception des éléments suivants :
     - Us Government (GCC)
     - Us Government (GCC High)
     - China Cloud géré par 21Vianet
     - Us Department of Defense (DoD)
Power Apps Premium Toutes les régions Power Apps , à l’exception des suivantes :
     - Us Government (GCC)
     - Us Government (GCC High)
     - China Cloud géré par 21Vianet
     - Us Department of Defense (DoD)
Power Automate Premium Toutes les régions Power Automate , à l’exception des éléments suivants :
     - Us Government (GCC)
     - Us Government (GCC High)
     - China Cloud géré par 21Vianet
     - Us Department of Defense (DoD)
Contact
Nom Prise en charge de Databricks
URL https://help.databricks.com
Messagerie électronique eng-partner-eco-help@databricks.com
Métadonnées du connecteur
Éditeur Databricks Inc.
Site internet https://www.databricks.com/
Politique de confidentialité https://www.databricks.com/legal/privacynotice
Catégories Data

Se connecter à Azure Databricks à partir de Microsoft Power Platform

Cette page explique comment se connecter à Azure Databricks à partir de Microsoft Power Platform en ajoutant Azure Databricks comme connexion de données. Quand vous êtes connecté, vous pouvez utiliser vos données Azure Databricks à partir des plateformes suivantes :

  • Power Apps : Créez des applications qui peuvent lire et écrire dans Azure Databricks, tout en préservant vos contrôles de gouvernance Azure Databricks.
  • Power Automate : Générez des flux et ajoutez des actions qui activent l’exécution de SQL personnalisé ou d’un travail existant et récupérez les résultats.
  • Copilot Studio : Créez des agents personnalisés à l’aide de vos données Azure Databricks en tant que source de connaissances.

Avant de commencer

Avant de vous connecter à Azure Databricks à partir de Power Platform, vous devez répondre aux exigences suivantes :

  • Vous disposez d’un compte Microsoft Entra ID (anciennement Azure Active Directory).
  • Vous disposez d’une licence Power Apps Premium.
  • Vous disposez d’un compte Azure Databricks.
  • Vous avez accès à un entrepôt SQL dans Azure Databricks.

Facultatif : Se connecter avec des réseaux virtuels Azure

Si votre espace de travail Azure Databricks utilise des réseaux virtuels, il existe deux façons de se connecter :

  1. Intégrez Power Platform à des ressources à l’intérieur de votre réseau virtuel sans les exposer sur l’Internet public. Pour vous connecter au point de terminaison privé de votre espace de travail Azure Databricks, procédez comme suit après avoir configuré la connectivité privée à Azure Databricks :

    Pour plus d’informations sur les réseaux virtuels, consultez la vue d’ensemble de la prise en charge du réseau virtuel.

  2. Activez l’accès avec un déploiement hybride, où une liaison privée frontale avec un point de terminaison public est protégée par une liste d’accès IP de l’espace de travail. Pour activer l’accès, procédez comme suit :

    1. Activez l’accès public au niveau de l’espace de travail. Pour plus d’informations, consultez Configurer les listes d’accès IP pour les espaces de travail.
    2. Ajoutez la plage d’adresses IP AzureConnectors ou une plage d’adresses IP Power Platform spécifiques en fonction de la région de votre environnement à votre liste d’accès IP de l’espace de travail.

Facultatif : Créer un principal de service Microsoft Entra

Important

Si Azure Databricks et Power Platform se trouvent dans différents locataires, vous devez utiliser des principaux de service pour l’authentification.

Avant de vous connecter, effectuez les étapes suivantes pour créer, configurer et affecter un principal de service Microsoft Entra à votre compte ou espace de travail Azure Databricks :

Étape 1 : Ajouter une connexion Azure Databricks à Power Platform

Note: Si vous utilisez Copilot Studio, nous vous recommandons de créer la connexion Databricks dans Power Apps ou Power Automate. Ensuite, il peut être utilisé dans Copilot Studio.

Pour ajouter une connexion Azure Databricks, procédez comme suit :

  1. Dans Power Apps ou Power Automate, dans la barre latérale, cliquez sur Connexions.

  2. Cliquez sur + Nouvelle connexion dans le coin supérieur gauche.

  3. Recherchez « Azure Databricks » à l’aide de la barre de recherche en haut à droite.

  4. Sélectionnez la vignette Azure Databricks .

  5. Sélectionnez votre type d’authentification dans le menu déroulant.

  6. Sélectionnez votre méthode d’authentification et entrez vos informations d’authentification.

    • Si votre déploiement Power Platform et votre compte Azure Databricks se trouvent dans le même locataire Microsoft Entra, vous pouvez utiliser la connexion OAuth. Entrez les informations suivantes :

      • Pour le nom d’hôte du serveur, entrez le nom d’hôte d’azure Databricks SQL Warehouse.
      • Pour le chemin HTTP, entrez le chemin HTTP de l’entrepôt SQL.
      • Cliquez sur Créer.
      • Connectez-vous avec votre ID Microsoft Entra.
    • La connexion principal du service peut être utilisée dans n’importe quel scénario. Avant de vous connecter, créez un principal de service Microsoft Entra. Entrez les informations suivantes :

      • Pour l’ID client, entrez l’ID du principal de service.
      • Pour le secret client, entrez le secret principal du service.
      • Pour locataire, entrez le locataire du « service principal ».
      • Pour le nom d’hôte, entrez le nom d’hôte d’azure Databricks SQL Warehouse.
      • Pour le chemin HTTP, entrez le chemin HTTP de l’entrepôt SQL.
      • (Facultatif) Vous pouvez renommer ou partager la connexion du principal de service avec les membres de votre équipe une fois la connexion créée.
    • Pour trouver les détails de connexion de votre entrepôt SQL Azure Databricks, consultez Obtenir les détails de connexion pour une ressource de calcul Azure Databricks.

  7. Cliquez sur Créer.

Étape 2 : Utiliser la connexion Azure Databricks

Après avoir créé une connexion Azure Databricks dans Power Apps ou Power Automate, vous pouvez utiliser vos données Azure Databricks pour créer des applications Power canvas, des flux Power Automate et des agents Copilot Studio.

Utiliser vos données Azure Databricks pour créer des applications De canevas Power

Important

Vous pouvez uniquement utiliser des applications canevas si vous vous connectez directement à Azure Databricks dans l’application. Vous ne pouvez pas utiliser de tables virtuelles.

Pour ajouter vos données Azure Databricks à votre application, procédez comme suit :

  1. Dans la barre de navigation la plus à gauche, cliquez sur Créer.
  2. Cliquez sur Démarrer avec un canevas vide et sélectionnez votre taille de canevas souhaitée pour créer une application canevas.
  3. À partir de votre application, cliquez sur Ajouterdes connecteurs> de données>Azure Databricks. Sélectionnez la connexion Azure Databricks que vous avez créée.
  4. Sélectionnez un catalogue dans la barre latérale Choisir un jeu de données .
  5. Dans la barre latérale Choisir un jeu de données , sélectionnez toutes les tables à laquelle vous souhaitez connecter votre application canevas.
  6. Cliquez sur Se connecter.

Opérations de données dans Power Apps :

Le connecteur prend en charge les opérations de création, de mise à jour et de suppression, mais uniquement pour les tables qui ont une clé primaire définie. Lorsque vous effectuez des opérations de création, vous devez toujours spécifier la clé primaire.

Note: Azure Databricks prend en charge les colonnes d’identité générées. Dans ce cas, les valeurs de clé primaire sont générées automatiquement sur le serveur lors de la création de ligne et ne peuvent pas être spécifiées manuellement.

Utiliser vos données Azure Databricks pour générer des flux Power Automate

L’API d’exécution des instructions et l’API Travaux sont exposées dans Power Automate, ce qui vous permet d’écrire des instructions SQL et d’exécuter des travaux existants. Pour créer un flux Power Automate à l’aide d’Azure Databricks en tant qu’action, procédez comme suit :

  1. Dans la barre de navigation la plus à gauche, cliquez sur Créer.
  2. Créez un flux et ajoutez n’importe quel type de déclencheur.
  3. À partir de votre nouveau flux, cliquez + et recherchez « Databricks » pour afficher les actions disponibles.

Pour écrire SQL, sélectionnez l’une des actions suivantes :

  • Exécutez une instruction SQL : écrivez et exécutez une instruction SQL. Entrez les informations suivantes :

    • Pour Body/warehouse_id, entrez l’ID de l’entrepôt sur lequel exécuter l’instruction SQL.
    • Pour Body/statement_id, entrez l’ID de l’instruction SQL à exécuter.
    • Pour plus d’informations sur les paramètres avancés, voir ici.
  • Vérifiez l’état et obtenez les résultats : vérifiez l’état d’une instruction SQL et collectez les résultats. Entrez les informations suivantes :

    • Pour l’ID d’instruction, entrez l’ID retourné lorsque l’instruction SQL a été exécutée.
    • Pour plus d’informations sur le paramètre, voir ici.
  • Annulez l’exécution d’une instruction : arrêter l’exécution d’une instruction SQL. Entrez les informations suivantes :

    • Pour l’ID d’instruction, entrez l’ID de l’instruction SQL à interrompre.
    • Pour plus d’informations sur le paramètre, voir ici.
  • Obtenir le résultat par index de bloc : obtenir les résultats par index de bloc, qui convient aux jeux de résultats volumineux. Entrez les informations suivantes :

    • Pour l’ID d’instruction, entrez l’ID de l’instruction SQL dont vous souhaitez récupérer les résultats.
    • Pour l’index de bloc, entrez l’index de bloc cible.
    • Pour plus d’informations sur les paramètres, voir ici.

Pour interagir avec un travail Databricks existant, sélectionnez l’une des actions suivantes :

  • Répertorier les travaux : récupère une liste de travaux. Pour plus d’informations , voir ici.
  • Déclencher une nouvelle exécution de travail : exécute un travail et retourne la run_id de l’exécution déclenchée. Pour plus d’informations , voir ici.
  • Obtenir une seule exécution du travail : retourne les métadonnées relatives à une exécution, notamment l’état d’exécution (par exemple, RUNNING, SUCCESS, FAILED), l’heure de début et de fin, les durées d’exécution, les informations de cluster, etc. Pour plus d’informations , voir ici.
  • Annuler une exécution de travail : annule une exécution de travail ou une exécution de tâche. Vous pourrez trouver plus d’informations ici.
  • Obtenez la sortie d’une seule exécution de travail : récupère la sortie et les métadonnées d’une seule exécution de tâche. Vous pourrez trouver plus d’informations ici.

Utiliser Azure Databricks comme source de connaissances dans Copilot Studio

Pour ajouter vos données Azure Databricks en tant que source de connaissances à un agent Copilot Studio, procédez comme suit :

  1. Dans la barre latérale, cliquez sur Agent.
  2. Sélectionnez un agent existant ou créez un agent en cliquant sur + Nouvel agent.
    • Décrivez l’agent en plaçant un message, puis cliquez sur Créer.
    • Vous pouvez également cliquer sur Ignorer pour spécifier manuellement les informations de l’agent.
  3. Dans l’onglet Connaissances , cliquez sur + Connaissances.
  4. Cliquez sur Avancé.
  5. Sélectionnez Azure Databricks comme source de connaissances.
  6. Entrez le nom du catalogue dans lequel se trouve vos données.
  7. Cliquez sur Se connecter.
  8. Sélectionnez les tables que votre agent doit utiliser comme source de connaissances, puis cliquez sur Ajouter.

Créer des tables virtuelles Dataverse avec vos données Azure Databricks

Vous pouvez également créer des tables virtuelles Dataverse avec le connecteur Azure Databricks. Les tables virtuelles, également appelées entités virtuelles, intègrent des données à partir de systèmes externes à Microsoft Dataverse. Une table virtuelle définit une table dans Dataverse sans stocker la table physique dans la base de données Dataverse. Pour en savoir plus sur les tables virtuelles, consultez Prise en main des tables virtuelles (entités).

Remarque

Bien que les tables virtuelles n’utilisent pas de capacité de stockage Dataverse, Databricks vous recommande d’utiliser des connexions directes pour de meilleures performances.

Vous devez disposer du rôle Personnalisateur système ou Administrateur système. Pour plus d’informations, consultez les rôles de sécurité pour Power Platform.

Procédez comme suit pour créer une table virtuelle Dataverse :

  1. Dans Power Apps, dans la barre latérale, cliquez sur Tables.

  2. Cliquez sur + Nouveau tableau dans la barre de menus, puis sélectionnez Créer une table virtuelle.

  3. Sélectionnez une connexion Azure Databricks existante ou créez une connexion à Azure Databricks. Pour ajouter une nouvelle connexion, consultez l’étape 1 : Ajouter une connexion Azure Databricks à Power Platform.

    Databricks recommande d’utiliser une connexion par principal de service pour créer une table virtuelle.

  4. Cliquez sur Suivant.

  5. Sélectionnez les tables à représenter en tant que table virtuelle Dataverse.

    • Les tables virtuelles Dataverse nécessitent une clé primaire. Par conséquent, les vues ne peuvent pas être des tables virtuelles, mais les vues matérialisées peuvent.
  6. Cliquez sur Suivant.

  7. Configurez la table virtuelle en mettant à jour les détails de la table, si nécessaire.

  8. Cliquez sur Suivant.

  9. Confirmez les détails de la source de données, puis cliquez sur Terminer.

  10. Utilisez la table virtuelle Dataverse dans Power Apps, Power Automate et Copilot Studio.

Pour obtenir la liste des limitations connues des tables virtuelles Dataverse, consultez limitations connues et résolution des problèmes.

Effectuer des mises à jour par lots

Si vous devez effectuer des opérations de création, de mise à jour ou de suppression en bloc en réponse aux entrées Power Apps, Databricks recommande d’implémenter un flux Power Automate. Pour ce faire, procédez comme suit :

  1. Créez une application canevas à l’aide de votre connexion Azure Databricks dans Power Apps.

  2. Créez un flux Power Automate à l’aide de la connexion Azure Databricks et utilisez Power Apps comme déclencheur.

  3. Dans le déclencheur Power Automate, ajoutez les champs d’entrée que vous souhaitez passer de Power Apps à Power Automate.

  4. Créez un objet de collection dans Power Apps pour collecter toutes vos modifications.

  5. Ajoutez le flux Power Automate à votre application de type canvas.

  6. Appelez le flux Power Automate à partir de votre application de canevas et itérez sur la collection à l’aide d’une commande ForAll.

    ForAll(collectionName, FlowName.Run(input field 1, input field 2, input field 3, …)
    

Écritures simultanées

La concurrence au niveau des lignes réduit les conflits entre les opérations d’écriture simultanées en détectant les modifications au niveau des lignes et en résolvant automatiquement les conflits qui se produisent lorsque des écritures simultanées mettent à jour ou suppriment des lignes différentes dans le même fichier de données.

La concurrence au niveau des lignes est incluse dans Databricks Runtime 14.2 ou version ultérieure. La concurrence au niveau des lignes est prise en charge par défaut pour les types de tables suivants :

  • Tables avec vecteurs de suppression activés et sans partitionnement
  • Tables avec liquid clustering, sauf si les vecteurs de suppression sont désactivés

Pour activer les vecteurs de suppression, exécutez la commande SQL suivante :

ALTER TABLE table_name SET TBLPROPERTIES ('delta.enableDeletionVectors' = true);

Pour plus d’informations sur les conflits d’écriture simultanés dans Azure Databricks, consultez Les niveaux d’isolation et les conflits d’écriture sur Azure Databricks.

Ajouter Azure Databricks à une stratégie de données

En ajoutant Azure Databricks à une stratégie de données métiers, Azure Databricks ne peut pas partager de données avec des connecteurs dans d’autres groupes. Cela protège vos données et empêche leur partage avec ceux qui ne doivent pas y avoir accès. Pour plus d’informations, consultez Gérer les stratégies de données.

Pour ajouter le connecteur Azure Databricks à une stratégie de données Power Platform :

  1. Dans n’importe quelle application Power Platform, cliquez sur l’engrenage des paramètres dans le coin supérieur droit, puis sélectionnez Centre d’administration.
  2. Dans la barre latérale, cliquez sur Stratégies>de données.
  3. Si vous utilisez le nouveau centre d’administration, cliquez sur Données de sécurité> etPolitique de données>.
  4. Cliquez sur + Nouvelle stratégie ou sélectionnez une stratégie existante.
  5. Si vous créez une nouvelle politique, entrez un nom.
  6. Sélectionnez un environnement à ajouter à votre stratégie, puis cliquez sur + Ajouter à la stratégie ci-dessus.
  7. Cliquez sur Suivant.
  8. Recherchez et sélectionnez le connecteur Azure Databricks .
  9. Cliquez sur Transférer vers l’entreprise, puis cliquez sur Suivant.
  10. Passez en revue votre stratégie, puis cliquez sur Créer une stratégie.

Limites

  • Le connecteur Power Platform ne prend pas en charge les clouds gouvernementaux.

Limitations de Power App

Les formules PowerFx suivantes calculent les valeurs à l’aide uniquement des données récupérées localement :

Catégorie Formula
Table, fonction - GroupBy
-Distinct
Aggregation - CountRows
- StdevP
- StdevS

Création d’une connexion

Le connecteur prend en charge les types d’authentification suivants :

Connexion OAuth Connexion OAuth Toutes les régions Non partageable
Connexion du principal de service Connexion du principal de service Toutes les régions Partageable
Valeur par défaut [DÉCONSEILLÉE] Cette option concerne uniquement les connexions plus anciennes sans type d’authentification explicite et est fournie uniquement pour la compatibilité descendante. Toutes les régions Non partageable

Connexion OAuth

ID d’authentification : oauth2-auth

Applicable : Toutes les régions

Connexion OAuth

Cette connexion n’est pas partageable. Si l’application power est partagée avec un autre utilisateur, un autre utilisateur est invité à créer une connexion explicitement.

Nom Type Descriptif Obligatoire
Nom d’hôte du serveur (exemple : adb-3980263885549757139.2.azuredatabricks.net) ficelle Nom du serveur de l’espace de travail Databricks Vrai
Chemin HTTP (exemple : /sql/1.0/warehouses/a9c4e781bd29f315) ficelle Chemin HTTP de Databricks SQL Warehouse Vrai

Connexion du principal de service

ID d’authentification : oAuthClientCredentials

Applicable : Toutes les régions

Connexion du principal de service

Il s’agit d’une connexion partageable. Si l’application d’alimentation est partagée avec un autre utilisateur, la connexion est également partagée. Pour plus d’informations, consultez la vue d’ensemble des connecteurs pour les applications de canevas - Power Apps | Microsoft Docs

Nom Type Descriptif Obligatoire
ID de client ficelle Vrai
Clé secrète client securestring Vrai
Locataire ficelle Vrai
Nom d’hôte du serveur (exemple : adb-3980263885549757139.2.azuredatabricks.net) ficelle Nom du serveur de l’espace de travail Databricks Vrai
Chemin HTTP (exemple : /sql/1.0/warehouses/a9c4e781bd29f315) ficelle Chemin HTTP de Databricks SQL Warehouse Vrai

Valeur par défaut [DÉCONSEILLÉE]

Applicable : Toutes les régions

Cette option concerne uniquement les connexions plus anciennes sans type d’authentification explicite et est fournie uniquement pour la compatibilité descendante.

Cette connexion n’est pas partageable. Si l’application power est partagée avec un autre utilisateur, un autre utilisateur est invité à créer une connexion explicitement.

Limitations

Nom Appels Période de renouvellement
Appels d’API par connexion 100 60 secondes

Actions

Annuler l’exécution de l’instruction

Demande qu’une instruction en cours d’exécution soit annulée. Les appelants doivent interroger l’état pour voir l’état du terminal.

Annuler une exécution

Annule une exécution de travail ou une exécution de tâche. L’exécution est annulée de façon asynchrone. Elle peut donc toujours s’exécuter une fois cette requête terminée.

Azure Databricks Genie

Interrogez les espaces Genie pour obtenir des insights à partir de vos données.

Déclencher une nouvelle exécution de travail

Exécutez un travail et retournez la run_id de l’exécution déclenchée.

Exécuter une instruction SQL

Exécutez une instruction SQL et attendez éventuellement ses résultats pendant une heure spécifiée.

Liste des emplois

Récupère une liste de travaux.

Obtenir la sortie d’une seule exécution

Récupérez la sortie et les métadonnées d’une seule exécution de tâche. Lorsqu’une tâche de notebook retourne une valeur via l’appel dbutils.notebook.exit(), vous pouvez utiliser ce point de terminaison pour récupérer cette valeur. Azure Databricks restreint cette API à retourner les 5 premiers Mo de la sortie. Pour retourner un résultat plus volumineux, vous pouvez stocker les résultats d’un travail dans un service de stockage cloud. Ce point de terminaison valide le paramètre run_id et retourne un code d’état HTTP 400 si le paramètre run_id n’est pas valide. Les exécutions sont automatiquement supprimées après 60 jours. Si vous souhaitez les référencer au-delà de 60 jours, vous devez enregistrer les anciens résultats d’exécution avant leur expiration.

Obtenir le résultat par index de segment

Une fois l’exécution de l’instruction réussie, cette requête peut être utilisée pour extraire n’importe quel bloc par index.

Obtenir une seule exécution de travail

Récupère les métadonnées d’une exécution. Les tableaux volumineux dans les résultats sont paginés lorsqu’ils dépassent 100 éléments. Une demande d’exécution unique retourne toutes les propriétés de cette exécution et les 100 premiers éléments des propriétés de tableau (tâches, job_clusters, job_parameters et repair_history). Utilisez le champ next_page_token pour rechercher d’autres résultats et transmettre sa valeur en tant que page_token dans les requêtes suivantes. Si des propriétés de tableau ont plus de 100 éléments, des résultats supplémentaires sont retournés sur les demandes suivantes. Les tableaux sans résultats supplémentaires seront vides sur les pages ultérieures.

Vérifier l’état et obtenir les résultats

Obtenir l’état, le manifeste et les résultats de l’instruction

Annuler l’exécution de l’instruction

Demande qu’une instruction en cours d’exécution soit annulée. Les appelants doivent interroger l’état pour voir l’état du terminal.

Paramètres

Nom Clé Obligatoire Type Description
ID d’instruction
statement_id True string

ID d’instruction

Annuler une exécution

Annule une exécution de travail ou une exécution de tâche. L’exécution est annulée de façon asynchrone. Elle peut donc toujours s’exécuter une fois cette requête terminée.

Paramètres

Nom Clé Obligatoire Type Description
run_id
run_id True integer

Ce champ est obligatoire.

Azure Databricks Genie

Interrogez les espaces Genie pour obtenir des insights à partir de vos données.

Paramètres

Nom Clé Obligatoire Type Description
ID de l’espace Génie
genie_space_id True string

ID de l’espace Génie

Déclencher une nouvelle exécution de travail

Exécutez un travail et retournez la run_id de l’exécution déclenchée.

Paramètres

Nom Clé Obligatoire Type Description
idempotency_token
idempotency_token string

Jeton facultatif pour garantir l’idempotency des demandes d’exécution de travail. Si une exécution avec le jeton fourni existe déjà, la demande ne crée pas d’exécution, mais retourne l’ID de l’exécution existante à la place. Si une exécution avec le jeton fourni est supprimée, une erreur est retournée. Si vous spécifiez le jeton d’idempotency, en cas d’échec, vous pouvez réessayer jusqu’à ce que la demande réussisse. Azure Databricks garantit qu’une exécution exactement est lancée avec ce jeton d’idempotency. Ce jeton doit comporter au maximum 64 caractères. Pour plus d’informations, consultez Comment garantir l’idempotency pour les travaux.

job_id
job_id True integer

ID du travail à exécuter

job_parameters
job_parameters object

Paramètres au niveau du travail utilisés dans l’exécution. par exemple « param » : « overriding_val »

seulement
only array of string

Liste des clés de tâche à exécuter à l’intérieur du travail. Si ce champ n’est pas fourni, toutes les tâches du travail sont exécutées.

performance_target
performance_target string
full_refresh
full_refresh boolean

Si la valeur est true, déclenche une actualisation complète sur la table dynamique delta.

enabled
enabled True boolean

Si la valeur est true, activez la mise en file d’attente du travail. Ce champ est obligatoire.

Retours

Exécuter une instruction SQL

Exécutez une instruction SQL et attendez éventuellement ses résultats pendant une heure spécifiée.

Paramètres

Nom Clé Obligatoire Type Description
warehouse_id
warehouse_id True string

ID de l’entrepôt cible

instruction
statement True string

Instruction SQL à exécuter. L’instruction peut éventuellement être paramétrée, voir les paramètres

nom
name True string

Nom du marqueur de paramètre

type
type string

Type de données de paramètre

value
value string

Valeur du paramètre

catalogue
catalog string

Catalogue par défaut pour l’exécution

schéma
schema string

Schéma par défaut pour l’exécution

disposition
disposition string

Mode d’extraction de résultats

format
format string

Format du jeu de résultats

on_wait_timeout
on_wait_timeout string

Action sur le délai d’expiration

wait_timeout
wait_timeout string

Délai d’attente des résultats

byte_limit
byte_limit integer

Limite d’octets de résultat

row_limit
row_limit integer

Limite de ligne de résultat

Retours

Réponse d’exécution d’instruction

Liste des emplois

Récupère une liste de travaux.

Paramètres

Nom Clé Obligatoire Type Description
Limit
limit integer

Nombre de travaux à retourner. Cette valeur doit être supérieure à 0 et inférieure ou égale à 100. La valeur par défaut est 20.

Développer les tâches
expand_tasks boolean

Indique s’il faut inclure les détails des tâches et du cluster dans la réponse. Notez que seuls les 100 premiers éléments seront affichés. Utilisez :method :jobs/get pour paginer toutes les tâches et clusters.

Nom du travail
name string

Filtre sur la liste en fonction du nom de travail exact (sans respect de la casse).

Jeton de page
page_token string

Utilisez next_page_token ou prev_page_token retournés par la demande précédente pour répertorier respectivement la page suivante ou précédente des travaux.

Retours

Obtenir la sortie d’une seule exécution

Récupérez la sortie et les métadonnées d’une seule exécution de tâche. Lorsqu’une tâche de notebook retourne une valeur via l’appel dbutils.notebook.exit(), vous pouvez utiliser ce point de terminaison pour récupérer cette valeur. Azure Databricks restreint cette API à retourner les 5 premiers Mo de la sortie. Pour retourner un résultat plus volumineux, vous pouvez stocker les résultats d’un travail dans un service de stockage cloud. Ce point de terminaison valide le paramètre run_id et retourne un code d’état HTTP 400 si le paramètre run_id n’est pas valide. Les exécutions sont automatiquement supprimées après 60 jours. Si vous souhaitez les référencer au-delà de 60 jours, vous devez enregistrer les anciens résultats d’exécution avant leur expiration.

Paramètres

Nom Clé Obligatoire Type Description
ID d’exécution
run_id True integer

Identificateur canonique de l’exécution.

Retours

Obtenir le résultat par index de segment

Une fois l’exécution de l’instruction réussie, cette requête peut être utilisée pour extraire n’importe quel bloc par index.

Paramètres

Nom Clé Obligatoire Type Description
ID d’instruction
statement_id True string

ID d’instruction

Index de bloc
chunk_index True string

Index de bloc

Retours

Obtenir une seule exécution de travail

Récupère les métadonnées d’une exécution. Les tableaux volumineux dans les résultats sont paginés lorsqu’ils dépassent 100 éléments. Une demande d’exécution unique retourne toutes les propriétés de cette exécution et les 100 premiers éléments des propriétés de tableau (tâches, job_clusters, job_parameters et repair_history). Utilisez le champ next_page_token pour rechercher d’autres résultats et transmettre sa valeur en tant que page_token dans les requêtes suivantes. Si des propriétés de tableau ont plus de 100 éléments, des résultats supplémentaires sont retournés sur les demandes suivantes. Les tableaux sans résultats supplémentaires seront vides sur les pages ultérieures.

Paramètres

Nom Clé Obligatoire Type Description
ID d’exécution
run_id True integer

Identificateur canonique de l’exécution pour laquelle récupérer les métadonnées. Ce champ est obligatoire.

Inclure l’historique
include_history boolean

Indique s’il faut inclure l’historique des réparations dans la réponse.

Inclure des valeurs résolues
include_resolved_values boolean

Indique s’il faut inclure des valeurs de paramètre résolues dans la réponse.

Jeton de page
page_token string

Utilisez next_page_token retourné par la réponse GetRun précédente pour demander la page suivante des propriétés du tableau de l’exécution.

Retours

Corps
JobsRun

Vérifier l’état et obtenir les résultats

Obtenir l’état, le manifeste et les résultats de l’instruction

Paramètres

Nom Clé Obligatoire Type Description
ID d’instruction
statement_id True string

ID d’instruction

Retours

Réponse d’exécution d’instruction

Définitions

Objet

SqlBaseChunkInfo

Métadonnées d’un bloc de jeu de résultats

Nom Chemin d’accès Type Description
byte_count
byte_count integer

Nombre d’octets dans le segment de résultat

chunk_index
chunk_index integer

Position dans la séquence de blocs de jeu de résultats

row_count
row_count integer

Nombre de lignes dans le bloc de résultats

row_offset
row_offset integer

Début du décalage de ligne dans le jeu de résultats

SqlColumnInfo

Nom Chemin d’accès Type Description
nom
name string

Nom de colonne

position
position integer

Position de colonne (basée sur 0)

type_interval_type
type_interval_type string

Format de type d’intervalle

TYPE_NAME
type_name SqlColumnInfoTypeName

Nom du type de données de base. Cela n’inclut pas de détails pour les types complexes tels que STRUCT, MAP ou ARRAY.

type_precision
type_precision integer

Nombre de chiffres pour le type DECIMAL

type_scale
type_scale integer

Nombre de décimales pour le type DECIMAL

type_text
type_text string

Spécification complète du type SQL

SqlColumnInfoTypeName

Nom du type de données de base. Cela n’inclut pas de détails pour les types complexes tels que STRUCT, MAP ou ARRAY.

Nom du type de données de base. Cela n’inclut pas de détails pour les types complexes tels que STRUCT, MAP ou ARRAY.

SqlStatementResponse

Réponse d’exécution d’instruction

Nom Chemin d’accès Type Description
manifeste
manifest SqlResultManifest

Schéma et métadonnées du jeu de résultats

résultat
result SqlResultData
statement_id
statement_id string

ID d’instruction

status
status SqlStatementStatus

État de l’exécution des instructions

SqlResultManifest

Schéma et métadonnées du jeu de résultats

Nom Chemin d’accès Type Description
Morceaux
chunks array of SqlBaseChunkInfo

Métadonnées de bloc de résultats

format
format string
schéma
schema SqlResultSchema

Définitions de colonnes du jeu de résultats

total_byte_count
total_byte_count integer

Nombre total d’octets dans le jeu de résultats

total_chunk_count
total_chunk_count integer

Nombre total de blocs

total_row_count
total_row_count integer

Nombre total de lignes

tronqué
truncated boolean

État de troncation des résultats

SqlStatementStatus

État de l’exécution des instructions

Nom Chemin d’accès Type Description
erreur
error SqlServiceError
état
state SqlStatementState

État d’exécution de l’instruction

SqlStatementStatementState

État d’exécution de l’instruction

État d’exécution de l’instruction

SqlServiceError

Nom Chemin d’accès Type Description
error_code
error_code string
Message
message string

Message d'erreur

SqlResultSchema

Définitions de colonnes du jeu de résultats

Nom Chemin d’accès Type Description
column_count
column_count integer
columns
columns array of SqlColumnInfo

SqlResultData

Nom Chemin d’accès Type Description
byte_count
byte_count integer

Octets dans le segment de résultat

chunk_index
chunk_index integer

Position du bloc

data_array
data_array SqlJsonArray

Tableau de tableaux avec des valeurs de chaîne

external_links
external_links array of SqlExternalLink
next_chunk_index
next_chunk_index integer

Index de bloc suivant

next_chunk_internal_link
next_chunk_internal_link string

Lien de bloc suivant

row_count
row_count integer

Lignes en bloc

row_offset
row_offset integer

Décalage de ligne de départ

SqlJsonArray

Tableau de tableaux avec des valeurs de chaîne

Nom Chemin d’accès Type Description
Objets
array of
Nom Chemin d’accès Type Description
byte_count
byte_count integer

Octets en bloc

chunk_index
chunk_index integer

Position du bloc

date d'expiration
expiration date-time

Heure d’expiration du lien

external_link
external_link string
http_headers
http_headers object

En-têtes HTTP requis

next_chunk_index
next_chunk_index integer

Index de bloc suivant

next_chunk_internal_link
next_chunk_internal_link string

Lien de bloc suivant

row_count
row_count integer

Lignes en bloc

row_offset
row_offset integer

Décalage de ligne de départ

JobsRunNowResponse

Nom Chemin d’accès Type Description
run_id
run_id integer

ID global unique de l’exécution nouvellement déclenchée.

JobsPerformanceTarget

JobsPipelineParams

Nom Chemin d’accès Type Description
full_refresh
full_refresh boolean

Si la valeur est true, déclenche une actualisation complète sur la table dynamique delta.

JobsQueueSettings

Nom Chemin d’accès Type Description
enabled
enabled boolean

Si la valeur est true, activez la mise en file d’attente du travail. Ce champ est obligatoire.

JobsListJobsResponse

Nom Chemin d’accès Type Description
jobs
jobs array of JobsBaseJob

Liste des travaux. Inclus uniquement dans la réponse s’il existe des travaux à répertorier.

next_page_token
next_page_token string

Jeton qui peut être utilisé pour répertorier la page suivante des travaux (le cas échéant).

prev_page_token
prev_page_token string

Jeton qui peut être utilisé pour répertorier la page précédente des travaux (le cas échéant).

JobsBaseJob

Nom Chemin d’accès Type Description
created_time
created_time integer

Heure à laquelle ce travail a été créé en millisecondes d’époque (millisecondes depuis 1/1/1970 UTC).

creator_user_name
creator_user_name string

Nom d’utilisateur du créateur. Ce champ ne sera pas inclus dans la réponse si l’utilisateur a déjà été supprimé.

effective_budget_policy_id
effective_budget_policy_id uuid

ID de la stratégie budgétaire utilisée par ce travail à des fins d’attribution des coûts. Cela peut être défini (dans l’ordre de priorité) : 1. Administrateurs de budget via le compte ou la console d’espace de travail 2. Interface utilisateur des travaux dans la page détails du travail et API Travaux à l’aide de budget_policy_id 3. Valeur par défaut déduite en fonction des stratégies budgétaires accessibles de l’identité run_as lors de la création ou de la modification du travail.

has_more
has_more boolean

Indique si le travail a plus de propriétés de tableau (tâches, job_clusters) qui ne sont pas affichées. Ils sont accessibles via :method :jobs/get endpoint. Il s’applique uniquement aux requêtes API 2.2 :method :jobs/list avec expand_tasks=true.

job_id
job_id integer

Identificateur canonique pour ce travail.

settings
settings JobsJobSettings
trigger_state
trigger_state JobsTriggerStateProto

JobsJobSettings

Nom Chemin d’accès Type Description
budget_policy_id
budget_policy_id uuid

ID de la stratégie budgétaire spécifiée par l’utilisateur à utiliser pour ce travail. Si elle n’est pas spécifiée, une stratégie de budget par défaut peut être appliquée lors de la création ou de la modification du travail. Consultez effective_budget_policy_id pour connaître la stratégie budgétaire utilisée par cette charge de travail.

continu
continuous JobsContinuous
déploiement
deployment JobsJobDeployment
descriptif
description string

Description facultative du travail. La longueur maximale est de 27700 caractères dans l’encodage UTF-8.

edit_mode
edit_mode JobsJobEditMode
email_notifications
email_notifications JobsJobEmailNotifications
environments
environments array of JobsJobEnvironment

Liste des spécifications de l’environnement d’exécution des tâches qui peuvent être référencées par les tâches serverless de ce travail. Un environnement doit être présent pour les tâches sans serveur. Pour les tâches de notebook sans serveur, l'environnement est accessible depuis le panneau d'environnement du notebook. Pour d’autres tâches serverless, l’environnement de tâche doit être spécifié à l’aide de environment_key dans les paramètres de tâche.

git_source
git_source JobsGitSource
Santé
health JobsJobsHealthRules
job_clusters
job_clusters array of JobsJobCluster

Liste des spécifications de cluster de travaux qui peuvent être partagées et réutilisées par les tâches de ce travail. Les bibliothèques ne peuvent pas être déclarées dans un cluster de travaux partagés. Vous devez déclarer des bibliothèques dépendantes dans les paramètres de tâche.

max_concurrent_runs
max_concurrent_runs integer

Nombre maximal autorisé facultatif d’exécutions simultanées du travail. Définissez cette valeur si vous souhaitez pouvoir exécuter plusieurs exécutions du même travail simultanément. Cela est utile par exemple si vous déclenchez votre travail selon une planification fréquente et que vous souhaitez autoriser les exécutions consécutives à se chevaucher, ou si vous souhaitez déclencher plusieurs exécutions qui diffèrent par leurs paramètres d’entrée. Ce paramètre affecte uniquement les nouvelles exécutions. Par exemple, supposons que la concurrence du travail soit 4 et qu’il existe 4 exécutions actives simultanées. Ensuite, la définition de la concurrence sur 3 ne tue pas les exécutions actives. Toutefois, à partir de là, les nouvelles exécutions sont ignorées, sauf s’il y a moins de 3 exécutions actives. Cette valeur ne peut pas dépasser 1 000. Si vous définissez cette valeur sur 0, toutes les nouvelles exécutions sont ignorées.

nom
name string

Nom facultatif pour le poste. La longueur maximale est de 4 096 octets dans l’encodage UTF-8.

notification_settings
notification_settings JobsJobNotificationSettings
parameters
parameters array of JobsJobParameterDefinition

Définitions de paramètres au niveau du travail

performance_target
performance_target JobsPerformanceTarget
queue
queue JobsQueueSettings
run_as
run_as JobsJobRunAs
calendrier
schedule JobsCronSchedule
tags
tags object

Carte des balises associées au travail. Ceux-ci sont transférés au cluster en tant que balises de cluster pour les clusters de travaux et sont soumis aux mêmes limitations que les balises de cluster. Un maximum de 25 balises peuvent être ajoutées au poste.

tâches
tasks array of JobsTask

Liste des spécifications de tâche à exécuter par ce travail. Il prend en charge jusqu’à 1 000 éléments dans les points de terminaison d’écriture ( :method :jobs/create, :method :jobs/reset, :method :jobs/update, :method :jobs/submit). Les points de terminaison en lecture retournent uniquement 100 tâches. Si plus de 100 tâches sont disponibles, vous pouvez les paginer à l’aide de :method :jobs/get. Utilisez le champ next_page_token à la racine de l’objet pour déterminer si d’autres résultats sont disponibles.

timeout_seconds
timeout_seconds integer

Délai d’attente facultatif appliqué à chaque exécution de ce travail. La valeur 0 signifie qu’aucun délai d’expiration n’est nécessaire.

trigger
trigger JobsTriggerSettings
webhook_notifications
webhook_notifications JobsWebhookNotifications

JobsContinuous

Nom Chemin d’accès Type Description
pause_status
pause_status JobsPauseStatus

JobsPauseStatus

JobsJobDeployment

Nom Chemin d’accès Type Description
gentil
kind JobsJobDeploymentKind
metadata_file_path
metadata_file_path string

Chemin d’accès du fichier qui contient les métadonnées de déploiement.

JobsJobDeploymentKind

JobsJobEditMode

JobsJobEmailNotifications

Nom Chemin d’accès Type Description
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of string

Une liste d’adresses e-mail à notifier lorsque la durée d’une exécution dépasse le seuil spécifié pour la métrique de RUN_DURATION_SECONDS dans le champ d’intégrité. Si aucune règle pour la métrique RUN_DURATION_SECONDS n’est spécifiée dans le champ d’intégrité du travail, les notifications ne sont pas envoyées.

on_failure
on_failure array of string

Liste des adresses e-mail à avertir lorsqu’une exécution échoue. Une exécution est considérée comme ayant échoué si elle se termine par un INTERNAL_ERROR life_cycle_state ou un échec, ou TIMED_OUT result_state. S’il n’est pas spécifié lors de la création, de la réinitialisation ou de la mise à jour de la liste est vide et que les notifications ne sont pas envoyées.

on_start
on_start array of string

Liste des adresses e-mail à avertir lorsqu’une exécution commence. Si elle n’est pas spécifiée lors de la création, de la réinitialisation ou de la mise à jour du travail, la liste est vide et les notifications ne sont pas envoyées.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of string

Liste des adresses e-mail à notifier quand des seuils de backlog de diffusion en continu sont dépassés pour n’importe quel flux. Les seuils de backlog de diffusion en continu peuvent être définis dans le champ d’intégrité à l’aide des métriques suivantes : STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS ou STREAMING_BACKLOG_FILES. Les alertes sont basées sur la moyenne de 10 minutes de ces métriques. Si le problème persiste, les notifications sont réententes toutes les 30 minutes.

on_success
on_success array of string

Liste des adresses e-mail à avertir lorsqu’une exécution se termine correctement. Une exécution est considérée comme ayant réussi s’il se termine par un life_cycle_state TERMINATED et un result_state SUCCESS. Si elle n’est pas spécifiée lors de la création, de la réinitialisation ou de la mise à jour du travail, la liste est vide et les notifications ne sont pas envoyées.

JobsJobEnvironment

Nom Chemin d’accès Type Description
environment_key
environment_key string

Clé d’un environnement. Il doit être unique au sein d’un travail.

Spec
spec ComputeEnvironment

ComputeEnvironment

Nom Chemin d’accès Type Description
dépendances
dependencies array of string

Liste des dépendances pip, comme pris en charge par la version de pip dans cet environnement. Chaque dépendance est une ligne de fichier de configuration requise pip valide par https://pip.pypa.io/en/stable/reference/requirements-file-format/. Les dépendances autorisées incluent un spécificateur de conditions requises, une URL d’archivage, un chemin d’accès de projet local (par exemple, WSFS ou UC Volumes dans Azure Databricks) ou une URL de projet VCS.

environment_version
environment_version string

Obligatoire. Version de l’environnement utilisée par l’environnement. Chaque version est fournie avec une version de Python spécifique et un ensemble de packages Python. La version est une chaîne composée d’un entier. Voir https://learn.microsoft.com/azure/databricks/release-notes/serverless/#serverless-environment-versions.

JobsGitSource

Nom Chemin d’accès Type Description
git_branch
git_branch string

Nom de la branche à extraire et utiliser par ce travail. Ce champ ne peut pas être spécifié conjointement avec git_tag ou git_commit.

git_commit
git_commit string

Validez pour être extrait et utilisé par ce travail. Ce champ ne peut pas être spécifié conjointement avec git_branch ou git_tag.

git_provider
git_provider JobsGitProvider
git_snapshot
git_snapshot JobsGitSnapshot
git_tag
git_tag string

Nom de la balise à extraire et utiliser par ce travail. Ce champ ne peut pas être spécifié conjointement avec git_branch ou git_commit.

git_url
git_url string

URL du référentiel à cloner par ce travail.

JobsGitProvider

JobsGitSnapshot

Nom Chemin d’accès Type Description
used_commit
used_commit string

Validation utilisée pour exécuter l’exécution. Si git_branch a été spécifié, cela pointe vers le HEAD de la branche au moment de l’exécution ; si git_tag a été spécifié, cela pointe vers la validation de la balise.

JobsJobsHealthRules

Nom Chemin d’accès Type Description
rules
rules array of JobsJobsHealthRule

JobsJobsHealthRule

Nom Chemin d’accès Type Description
metric
metric JobsJobsHealthMetric
op
op JobsJobsHealthOperator
value
value integer

Spécifie la valeur de seuil que la métrique d’intégrité doit respecter pour satisfaire la règle d’intégrité.

JobsJobsHealthMetric

JobsJobsHealthOperator

JobsJobCluster

Nom Chemin d’accès Type Description
job_cluster_key
job_cluster_key string

Nom unique du cluster de travaux. Ce champ est obligatoire et doit être unique dans le travail. JobTaskSettings peut faire référence à ce champ pour déterminer le cluster à lancer pour l’exécution de la tâche.

new_cluster
new_cluster ComputeClusterSpec

ComputeClusterSpec

Nom Chemin d’accès Type Description
apply_policy_default_values
apply_policy_default_values boolean

Lorsque la valeur est true, les valeurs fixes et par défaut de la stratégie sont utilisées pour les champs omis. Lorsque la valeur est false, seules les valeurs fixes de la stratégie sont appliquées.

autoscale
autoscale ComputeAutoScale
autotermination_minutes
autotermination_minutes integer

Met automatiquement fin au cluster une fois qu’il est inactif pendant cette période en minutes. S’il n’est pas défini, ce cluster ne sera pas automatiquement arrêté. S’il est spécifié, le seuil doit être compris entre 10 et 1 000 minutes. Les utilisateurs peuvent également définir cette valeur sur 0 pour désactiver explicitement l’arrêt automatique.

azure_attributes
azure_attributes ComputeAzureAttributes
cluster_log_conf
cluster_log_conf ComputeClusterLogConf
nom du cluster
cluster_name string

Nom du cluster demandé par l’utilisateur. Cela n’a pas besoin d’être unique. S’il n’est pas spécifié lors de la création, le nom du cluster est une chaîne vide. Pour les clusters de travaux, le nom du cluster est automatiquement défini en fonction du travail et des ID d’exécution du travail.

custom_tags
custom_tags object

Étiquettes supplémentaires pour les ressources du cluster. Azure Databricks balise toutes les ressources de cluster (par exemple, les instances AWS et les volumes EBS) avec ces balises en plus de default_tags. Remarques : - Actuellement, Azure Databricks autorise au maximum 45 balises personnalisées : les clusters peuvent uniquement réutiliser les ressources cloud si les balises des ressources sont un sous-ensemble des balises de cluster

data_security_mode
data_security_mode ComputeDataSecurityMode
docker_image
docker_image ComputeDockerImage
driver_instance_pool_id
driver_instance_pool_id string

ID facultatif du pool d’instances pour le pilote auquel le cluster appartient. Le cluster de pool utilise le pool d’instances avec l’ID (instance_pool_id) si le pool de pilotes n’est pas affecté.

driver_node_type_id
driver_node_type_id string

Type de nœud du pilote Spark. Notez que ce champ est facultatif ; si aucun paramètre n’est défini, le type de nœud du pilote est défini comme la même valeur que node_type_id définie ci-dessus. Ce champ, ainsi que node_type_id, ne doit pas être défini si virtual_cluster_size est défini. Si les deux driver_node_type_id, node_type_id et virtual_cluster_size sont spécifiés, driver_node_type_id et node_type_id sont prioritaires.

enable_elastic_disk
enable_elastic_disk boolean

Mise à l’échelle automatique du stockage local : lorsqu’il est activé, ce cluster acquiert dynamiquement un espace disque supplémentaire lorsque ses processeurs Spark sont à court d'espace disque. Cette fonctionnalité nécessite des autorisations AWS spécifiques pour fonctionner correctement. Reportez-vous au Guide de l’utilisateur pour plus d’informations.

enable_local_disk_encryption
enable_local_disk_encryption boolean

Indique s’il faut activer LUKS sur les disques locaux des machines virtuelles de cluster

init_scripts
init_scripts array of ComputeInitScriptInfo

Configuration pour le stockage de scripts init. Vous pouvez spécifier n’importe quel nombre de destinations. Les scripts sont exécutés séquentiellement dans l’ordre fourni. Si cluster_log_conf est spécifié, les journaux de script init sont envoyés à <destination>/<cluster-ID>/init_scripts.

instance_pool_id
instance_pool_id string

ID facultatif du pool d’instances auquel appartient le cluster.

is_single_node
is_single_node boolean

Ce champ ne peut être utilisé que lorsque le type = CLASSIC_PREVIEW. Quand la valeur est true, Azure Databricks définit automatiquement des custom_tags, des spark_conf et des num_workers liés à un nœud unique

gentil
kind ComputeKind
node_type_id
node_type_id string

Ce champ code, via une seule valeur, les ressources disponibles pour chacun des nœuds Spark de ce cluster. Par exemple, les nœuds Spark peuvent être configurés et optimisés pour des charges de travail gourmandes en mémoire ou en calcul. Une liste des types de nœuds disponibles peut être récupérée à l’aide de l’appel d’API :method :clusters/listNodeTypes.

num_workers
num_workers integer

Nombre de nœuds de travail que ce cluster doit avoir. Un cluster a un pilote Spark et num_workers Exécuteurs pour un total de num_workers + 1 nœuds Spark. Remarque : lors de la lecture des propriétés d’un cluster, ce champ reflète le nombre souhaité de workers plutôt que le nombre actuel réel de workers. Par exemple, si un cluster est redimensionné de 5 à 10 workers, ce champ sera immédiatement mis à jour pour refléter la taille cible de 10 workers, tandis que les workers répertoriés dans spark_info augmenteront progressivement de 5 à 10 à mesure que les nouveaux nœuds sont approvisionnés.

policy_id
policy_id string

ID de la stratégie de cluster utilisée pour créer le cluster le cas échéant.

runtime_engine
runtime_engine ComputeRuntimeEngine
single_user_name
single_user_name string

Nom d’utilisateur unique si data_security_mode est SINGLE_USER

spark_conf
spark_conf object

Objet contenant un ensemble de paires de clé-valeur de configuration Spark facultatives spécifiées par l’utilisateur. Les utilisateurs peuvent également transmettre une chaîne d’options JVM supplémentaires au pilote et aux exécuteurs via spark.driver.extraJavaOptions et spark.executor.extraJavaOptions respectivement.

spark_env_vars
spark_env_vars object

Objet contenant un ensemble de paires clé-valeur de variable d’environnement facultatives spécifiées par l’utilisateur. Notez que la paire clé-valeur du formulaire (X,Y) sera exportée telle quelle (c’est-à-dire exporter X='Y') lors du lancement du pilote et des workers. Pour spécifier un ensemble supplémentaire de SPARK_DAEMON_JAVA_OPTS, nous vous recommandons de les ajouter à $SPARK_DAEMON_JAVA_OPTS, comme illustré dans l’exemple ci-dessous. Cela garantit que toutes les variables environnementales gérées par databricks par défaut sont également incluses. Exemples de variables d’environnement Spark : {"SPARK_WORKER_MEMORY » : « 28000m », « SPARK_LOCAL_DIRS » : « /local_disk0"} ou {"SPARK_DAEMON_JAVA_OPTS » : « $SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}

spark_version
spark_version string

Version Spark du cluster, par exemple 3.3.x-scala2.11. Une liste des versions spark disponibles peut être récupérée à l’aide de l’appel d’API :method :clusters/sparkVersions.

ssh_public_keys
ssh_public_keys array of string

Contenu de clé publique SSH qui sera ajouté à chaque nœud Spark de ce cluster. Les clés privées correspondantes peuvent être utilisées pour se connecter avec le nom d’utilisateur ubuntu sur le port 2200. Jusqu’à 10 clés peuvent être spécifiées.

use_ml_runtime
use_ml_runtime boolean

Ce champ ne peut être utilisé que lorsque le type = CLASSIC_PREVIEW. effective_spark_version est déterminée par spark_version (version DBR), ce champ use_ml_runtime et indique si node_type_id est un nœud gpu ou non.

workload_type
workload_type ComputeWorkloadType

ComputeAutoScale

Nom Chemin d’accès Type Description
max_workers
max_workers integer

Nombre maximal de workers auxquels le cluster peut effectuer un scale-up lorsqu’il est surchargé. Notez que max_workers doit être strictement supérieur à min_workers.

min_workers
min_workers integer

Nombre minimal de workers auxquels le cluster peut effectuer un scale-down lorsqu’il est sous-utilisé. Il s’agit également du nombre initial de workers que le cluster aura après la création.

ComputeAzureAttributes

Nom Chemin d’accès Type Description
disponibilité
availability ComputeAzureAvailability
first_on_demand
first_on_demand integer

Les premiers nœuds first_on_demand du cluster seront placés sur des instances à la demande. Cette valeur doit être supérieure à 0 pour vous assurer que le nœud du pilote de cluster est placé sur une instance à la demande. Si cette valeur est supérieure ou égale à la taille actuelle du cluster, tous les nœuds sont placés sur des instances à la demande. Si cette valeur est inférieure à la taille actuelle du cluster, first_on_demand nœuds seront placés sur des instances à la demande et le reste sera placé sur les instances de disponibilité. Notez que cette valeur n’affecte pas la taille du cluster et ne peut pas être mutée au cours de la durée de vie d’un cluster.

log_analytics_info
log_analytics_info ComputeLogAnalyticsInfo
spot_bid_max_price
spot_bid_max_price double

Prix maximal de l’offre à utiliser pour les instances Spot Azure. Le prix maximal de l’offre ne peut pas être supérieur au prix à la demande de l’instance. Si elle n’est pas spécifiée, la valeur par défaut est -1, qui spécifie que l’instance ne peut pas être supprimée en fonction du prix, et uniquement sur la base de la disponibilité. En outre, la valeur doit > être 0 ou -1.

ComputeAzureAvailability

ComputeLogAnalyticsInfo

Nom Chemin d’accès Type Description
log_analytics_primary_key
log_analytics_primary_key string
log_analytics_workspace_id
log_analytics_workspace_id string

ComputeClusterLogConf

Nom Chemin d’accès Type Description
dbfs
dbfs ComputeDbfsStorageInfo
volumes
volumes ComputeVolumesStorageInfo

ComputeDbfsStorageInfo

Nom Chemin d’accès Type Description
destination
destination string

destination dbfs, par exemple dbfs :/my/path

ComputeVolumesStorageInfo

Nom Chemin d’accès Type Description
destination
destination string

Destination des volumes UC, par exemple ,Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh ou dbfs :/Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh

ComputeDataSecurityMode

ComputeDockerImage

Nom Chemin d’accès Type Description
basic_auth
basic_auth ComputeDockerBasicAuth
URL
url string

URL de l’image Docker.

ComputeDockerBasicAuth

Nom Chemin d’accès Type Description
mot de passe
password string

Mot de passe de l’utilisateur

nom d'utilisateur
username string

Nom de l’utilisateur

ComputeInitScriptInfo

Nom Chemin d’accès Type Description
abfss
abfss ComputeAdlsgen2Info
file
file ComputeLocalFileInfo
gcs
gcs ComputeGcsStorageInfo
volumes
volumes ComputeVolumesStorageInfo
workspace
workspace ComputeWorkspaceStorageInfo

ComputeAdlsgen2Info

Nom Chemin d’accès Type Description
destination
destination string

destination abfss, par exemple abfss://< container-name>@<storage-account-name.dfs.core.windows.net/>< directory-name>.

ComputeLocalFileInfo

Nom Chemin d’accès Type Description
destination
destination string

destination de fichier local, par exemple file :/my/local/file.sh

ComputeGcsStorageInfo

Nom Chemin d’accès Type Description
destination
destination string

Destination/URI GCS, par exemple gs://my-bucket/some-prefix

ComputeWorkspaceStorageInfo

Nom Chemin d’accès Type Description
destination
destination string

destination wsfs, par exemple workspace :/cluster-init-scripts/setup-datadog.sh

ComputeKind

ComputeRuntimeEngine

ComputeWorkloadType

Nom Chemin d’accès Type Description
clients
clients ComputeClientsTypes

ComputeClientsTypes

Nom Chemin d’accès Type Description
jobs
jobs boolean

Avec les travaux définis, le cluster peut être utilisé pour les travaux

Cahiers
notebooks boolean

Avec les blocs-notes définis, ce cluster peut être utilisé pour les notebooks

JobsJobNotificationSettings

Nom Chemin d’accès Type Description
no_alert_for_canceled_runs
no_alert_for_canceled_runs boolean

Si la valeur est true, n’envoyez pas de notifications aux destinataires spécifiés dans on_failure si l’exécution est annulée.

no_alert_for_skipped_runs
no_alert_for_skipped_runs boolean

Si la valeur est true, n’envoyez pas de notifications aux destinataires spécifiés dans on_failure si l’exécution est ignorée.

JobsJobParameterDefinition

Nom Chemin d’accès Type Description
par défaut
default string

Valeur par défaut du paramètre.

nom
name string

Nom du paramètre défini. Peut contenir uniquement des caractères alphanumériques, _, -et .

JobsJobRunAs

Nom Chemin d’accès Type Description
service_principal_name
service_principal_name string

ID d’application d’un principal de service actif. La définition de ce champ nécessite le rôle servicePrincipal/utilisateur.

nom_utilisateur
user_name string

E-mail d’un utilisateur d’espace de travail actif. Les utilisateurs non administrateurs ne peuvent définir ce champ que sur leur propre e-mail.

JobsCronSchedule

Nom Chemin d’accès Type Description
pause_status
pause_status JobsPauseStatus
quartz_cron_expression
quartz_cron_expression string

Expression Cron utilisant la syntaxe Quartz qui décrit la planification d’un travail. Pour plus d’informations, consultez le déclencheur Cron . Ce champ est obligatoire.

timezone_id
timezone_id string

ID de fuseau horaire Java. La planification d’un travail est résolue par rapport à ce fuseau horaire. Pour plus d’informations, consultez Java TimeZone . Ce champ est obligatoire.

JobsTask

Nom Chemin d’accès Type Description
clean_rooms_notebook_task
clean_rooms_notebook_task Object
condition_task
condition_task JobsConditionTask
dashboard_task
dashboard_task JobsDashboardTask
dbt_task
dbt_task Object
depends_on
depends_on array of JobsTaskDependency

Tableau facultatif d’objets spécifiant le graphique de dépendance de la tâche. Toutes les tâches spécifiées dans ce champ doivent être effectuées avant d’exécuter cette tâche. La tâche s’exécute uniquement si la condition run_if a la valeur true. La clé est task_key, et la valeur est le nom attribué à la tâche dépendante.

descriptif
description string

Description facultative de cette tâche.

disable_auto_optimization
disable_auto_optimization boolean

Option permettant de désactiver l’optimisation automatique dans serverless

email_notifications
email_notifications JobsTaskEmailNotifications
environment_key
environment_key string

Clé qui fait référence à une spécification d’environnement dans un travail. Ce champ est requis pour les tâches python, de roue Python et de dbt lors de l’utilisation du calcul serverless.

existing_cluster_id
existing_cluster_id string

Si existing_cluster_id, ID d’un cluster existant utilisé pour toutes les exécutions. Lors de l’exécution de travaux ou de tâches sur un cluster existant, vous devrez peut-être redémarrer manuellement le cluster s’il cesse de répondre. Nous vous suggérons d’exécuter des tâches et des tâches sur de nouveaux clusters pour une plus grande fiabilité

for_each_task
for_each_task JobsForEachTask
Santé
health JobsJobsHealthRules
job_cluster_key
job_cluster_key string

Si job_cluster_key, cette tâche est exécutée en réutilisant le cluster spécifié dans job.settings.job_clusters.

libraries
libraries array of ComputeLibrary

Liste facultative des bibliothèques à installer sur le cluster. La valeur par défaut est une liste vide.

max_retries
max_retries integer

Nombre maximal facultatif de nouvelles tentatives d’exécution infructueuse. Une exécution est considérée comme ayant échoué si elle est terminée avec le result_state FAILED ou INTERNAL_ERROR life_cycle_state. La valeur -1 signifie réessayer indéfiniment et la valeur 0 signifie ne jamais réessayer.

min_retry_interval_millis
min_retry_interval_millis integer

Intervalle minimal facultatif en millisecondes entre le début de l’exécution ayant échoué et l’exécution de nouvelle tentative suivante. Le comportement par défaut est que les exécutions infructueuses sont immédiatement retentées.

new_cluster
new_cluster ComputeClusterSpec
notebook_task
notebook_task JobsNotebookTask
notification_settings
notification_settings JobsTaskNotificationSettings
pipeline_task
pipeline_task JobsPipelineTask
power_bi_task
power_bi_task Object
python_wheel_task
python_wheel_task JobsPythonWheelTask
retry_on_timeout
retry_on_timeout boolean

Stratégie facultative pour spécifier s’il faut réessayer un travail lorsqu’il expire. Le comportement par défaut consiste à ne pas réessayer lors du délai d’expiration.

run_if
run_if JobsRunIf
run_job_task
run_job_task JobsRunJobTask
spark_jar_task
spark_jar_task JobsSparkJarTask
spark_python_task
spark_python_task JobsSparkPythonTask
spark_submit_task
spark_submit_task JobsSparkSubmitTask
sql_task
sql_task Object
task_key
task_key string

Nom unique de la tâche. Ce champ est utilisé pour faire référence à cette tâche à partir d’autres tâches. Ce champ est obligatoire et doit être unique dans son travail parent. Lors de la mise à jour ou de la réinitialisation, ce champ est utilisé pour référencer les tâches à mettre à jour ou à réinitialiser.

timeout_seconds
timeout_seconds integer

Délai d’expiration facultatif appliqué à chaque exécution de cette tâche de travail. La valeur 0 signifie qu’aucun délai d’expiration n’est nécessaire.

webhook_notifications
webhook_notifications JobsWebhookNotifications

JobsConditionTask

Nom Chemin d’accès Type Description
gauche
left string

Opérande gauche de la tâche de condition. Il peut s’agir d’une valeur de chaîne, d’un état de travail ou d’une référence de paramètre.

op
op JobsConditionTaskOp
Droite
right string

Opérande droit de la tâche de condition. Il peut s’agir d’une valeur de chaîne, d’un état de travail ou d’une référence de paramètre.

JobsConditionTaskOp

JobsDashboardTask

Nom Chemin d’accès Type Description
dashboard_id
dashboard_id string

Identificateur du tableau de bord à actualiser.

subscription
subscription JobsSubscription
warehouse_id
warehouse_id string

Facultatif : ID d’entrepôt à exécuter le tableau de bord avec pour la planification. S’il n’est pas spécifié, l’entrepôt par défaut du tableau de bord est utilisé.

JobsSubscription

Nom Chemin d’accès Type Description
custom_subject
custom_subject string

Facultatif : permet aux utilisateurs de spécifier une ligne d’objet personnalisée sur l’e-mail envoyé aux abonnés.

Pause
paused boolean

Lorsque la valeur est true, l’abonnement n’envoie pas d’e-mails.

Abonnés
subscribers array of JobsSubscriptionSubscriber

Liste des abonnés à laquelle envoyer l’instantané du tableau de bord.

JobsSubscriptionSubscriber

Nom Chemin d’accès Type Description
destination_id
destination_id string

Un instantané du tableau de bord est envoyé à la destination lorsque le champ destination_id est présent.

nom_utilisateur
user_name string

Un instantané du tableau de bord est envoyé à l’e-mail de l’utilisateur lorsque le champ user_name est présent.

JobsSource

JobsTaskDependency

Nom Chemin d’accès Type Description
résultat
outcome string

Ne peut être spécifié que sur les dépendances de tâche de condition. Résultat de la tâche dépendante qui doit être remplie pour que cette tâche s’exécute.

task_key
task_key string

Le nom de la tâche sur laquelle dépend cette tâche.

JobsTaskEmailNotifications

Nom Chemin d’accès Type Description
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of string

Une liste d’adresses e-mail à notifier lorsque la durée d’une exécution dépasse le seuil spécifié pour la métrique de RUN_DURATION_SECONDS dans le champ d’intégrité. Si aucune règle pour la métrique RUN_DURATION_SECONDS n’est spécifiée dans le champ d’intégrité du travail, les notifications ne sont pas envoyées.

on_failure
on_failure array of string

Liste des adresses e-mail à avertir lorsqu’une exécution échoue. Une exécution est considérée comme ayant échoué si elle se termine par un INTERNAL_ERROR life_cycle_state ou un échec, ou TIMED_OUT result_state. S’il n’est pas spécifié lors de la création, de la réinitialisation ou de la mise à jour de la liste est vide et que les notifications ne sont pas envoyées.

on_start
on_start array of string

Liste des adresses e-mail à avertir lorsqu’une exécution commence. Si elle n’est pas spécifiée lors de la création, de la réinitialisation ou de la mise à jour du travail, la liste est vide et les notifications ne sont pas envoyées.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of string

Liste des adresses e-mail à notifier quand des seuils de backlog de diffusion en continu sont dépassés pour n’importe quel flux. Les seuils de backlog de diffusion en continu peuvent être définis dans le champ d’intégrité à l’aide des métriques suivantes : STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS ou STREAMING_BACKLOG_FILES. Les alertes sont basées sur la moyenne de 10 minutes de ces métriques. Si le problème persiste, les notifications sont réententes toutes les 30 minutes.

on_success
on_success array of string

Liste des adresses e-mail à avertir lorsqu’une exécution se termine correctement. Une exécution est considérée comme ayant réussi s’il se termine par un life_cycle_state TERMINATED et un result_state SUCCESS. Si elle n’est pas spécifiée lors de la création, de la réinitialisation ou de la mise à jour du travail, la liste est vide et les notifications ne sont pas envoyées.

ComputeLibrary

Nom Chemin d’accès Type Description
cran
cran ComputeRCranLibrary
jarre
jar string

URI de la bibliothèque JAR à installer. Les URI pris en charge incluent les chemins d’espace de travail, les chemins des volumes catalogue Unity et les URI ADLS. Par exemple : { « jar » : « /Workspace/path/to/library.jar » }, { « jar » : « /Volumes/path/to/library.jar » } ou { « jar » : « abfss://my-bucket/library.jar » }. Si ADLS est utilisé, vérifiez que le cluster dispose d’un accès en lecture sur la bibliothèque. Vous devrez peut-être lancer le cluster avec un principal de service Microsoft Entra ID pour accéder à l’URI ADLS.

Maven
maven ComputeMavenLibrary
pypi
pypi ComputePythonPyPiLibrary
conditions requises
requirements string

URI du fichier requirements.txt à installer. Seuls les chemins d’accès de l’espace de travail et les chemins des volumes catalogue Unity sont pris en charge. Par exemple : { « requirements » : « /Workspace/path/to/requirements.txt" } ou { « requirements » : « /Volumes/path/to/requirements.txt" }

whl
whl string

URI de la bibliothèque de roues à installer. Les URI pris en charge incluent les chemins d’espace de travail, les chemins des volumes catalogue Unity et les URI ADLS. Par exemple : { « whl » : « /Workspace/path/to/library.whl » }, { « whl » : « /Volumes/path/to/library.whl » } ou { « whl » : « abfss://my-bucket/library.whl » }. Si ADLS est utilisé, vérifiez que le cluster dispose d’un accès en lecture sur la bibliothèque. Vous devrez peut-être lancer le cluster avec un principal de service Microsoft Entra ID pour accéder à l’URI ADLS.

JobsForEachTask

Nom Chemin d’accès Type Description
accès concurrentiel
concurrency integer

Nombre maximal maximal facultatif d’exécutions simultanées de la tâche. Définissez cette valeur si vous souhaitez pouvoir exécuter plusieurs exécutions de la tâche simultanément.

entrées
inputs string

Tableau sur lequel effectuer une itération de tâche. Il peut s’agir d’une chaîne JSON ou d’une référence à un paramètre de tableau.

tâche
task Object

ComputeRCranLibrary

Nom Chemin d’accès Type Description
paquet
package string

Nom du package CRAN à installer.

Repo
repo string

Référentiel où se trouve le package. S’il n’est pas spécifié, le dépôt CRAN par défaut est utilisé.

ComputeMavenLibrary

Nom Chemin d’accès Type Description
coordonnées
coordinates string

Coordonnées maven de style Gradle. Par exemple : « org.jsoup :jsoup :1.7.2 ».

Exclusions
exclusions array of string

Liste des dépendances à exclure. Par exemple : ["slf4j :slf4j », « * :hadoop-client"]. Exclusions de dépendance Maven : https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html.

Repo
repo string

Référentiel Maven à partir duquel installer le package Maven. S’il est omis, le référentiel central Maven et les packages Spark sont recherchés.

ComputePythonPyPiLibrary

Nom Chemin d’accès Type Description
paquet
package string

Nom du package pypi à installer. Une spécification de version exacte facultative est également prise en charge. Exemples : « simplejson » et « simplejson==3.8.0 ».

Repo
repo string

Référentiel où se trouve le package. S’il n’est pas spécifié, l’index pip par défaut est utilisé.

JobsNotebookTask

Nom Chemin d’accès Type Description
base_parameters
base_parameters object

Paramètres de base à utiliser pour chaque exécution de ce travail. Si l’exécution est lancée par un appel à :method :jobs/run Now avec les paramètres spécifiés, les deux mappages de paramètres sont fusionnés. Si la même clé est spécifiée dans base_parameters et dans l’exécution, la valeur de run-now est utilisée. Utilisez des variables de paramètre de tâche pour définir des paramètres contenant des informations sur les exécutions de travaux. Si le notebook accepte un paramètre qui n’est pas spécifié dans le base_parameters du travail ou les paramètres de remplacement d’exécution, la valeur par défaut du bloc-notes est utilisée. Récupérez ces paramètres dans un notebook à l’aide de dbutils.widgets.get. La représentation JSON de ce champ ne peut pas dépasser 1 Mo.

notebook_path
notebook_path string

Chemin d’accès du notebook à exécuter dans l’espace de travail Azure Databricks ou le référentiel distant. Pour les notebooks stockés dans l’espace de travail Azure Databricks, le chemin d’accès doit être absolu et commencer par une barre oblique. Pour les notebooks stockés dans un référentiel distant, le chemin d’accès doit être relatif. Ce champ est obligatoire.

Source
source JobsSource
warehouse_id
warehouse_id string

Warehouse_id facultatif pour exécuter le notebook sur un entrepôt SQL. Les entrepôts SQL classiques ne sont pas pris en charge. Utilisez des entrepôts SQL serverless ou pro. Notez que les entrepôts SQL prennent uniquement en charge les cellules SQL ; si le notebook contient des cellules non-SQL, l’exécution échoue.

JobsTaskNotificationSettings

Nom Chemin d’accès Type Description
alert_on_last_attempt
alert_on_last_attempt boolean

Si la valeur est true, n’envoyez pas de notifications aux destinataires spécifiés dans on_start pour les exécutions retentées et n’envoyez pas de notifications aux destinataires spécifiés dans on_failure jusqu’à la dernière nouvelle tentative de l’exécution.

no_alert_for_canceled_runs
no_alert_for_canceled_runs boolean

Si la valeur est true, n’envoyez pas de notifications aux destinataires spécifiés dans on_failure si l’exécution est annulée.

no_alert_for_skipped_runs
no_alert_for_skipped_runs boolean

Si la valeur est true, n’envoyez pas de notifications aux destinataires spécifiés dans on_failure si l’exécution est ignorée.

JobsPipelineTask

Nom Chemin d’accès Type Description
full_refresh
full_refresh boolean

Si la valeur est true, déclenche une actualisation complète sur la table dynamique delta.

pipeline_id
pipeline_id string

Nom complet de la tâche de pipeline à exécuter.

JobsPythonWheelTask

Nom Chemin d’accès Type Description
entry_point
entry_point string

Point d’entrée nommé à utiliser, s’il n’existe pas dans les métadonnées du package qu’il exécute directement à partir du package à l’aide de $packageName.$entryPoint()

named_parameters
named_parameters object

Paramètres de ligne de commande passés à la tâche de roue Python sous la forme de [ »--name=task », « --data=dbfs :/path/to/data.json« ]. Laissez-le vide si les paramètres ne sont pas null.

package_name
package_name string

Nom du package à exécuter

parameters
parameters array of string

Paramètres de ligne de commande passés à la tâche de roue Python. Laissez-le vide si named_parameters n’est pas null.

JobsRunIf

JobsRunJobTask

Nom Chemin d’accès Type Description
job_id
job_id integer

ID du travail à déclencher.

job_parameters
job_parameters object

Paramètres au niveau du travail utilisés pour déclencher le travail.

pipeline_params
pipeline_params JobsPipelineParams

JobsSparkJarTask

Nom Chemin d’accès Type Description
main_class_name
main_class_name string

Nom complet de la classe contenant la méthode principale à exécuter. Cette classe doit être contenue dans un fichier JAR fourni en tant que bibliothèque. Le code doit utiliser SparkContext.getOrCreate pour obtenir un contexte Spark ; sinon, les exécutions du travail échouent.

parameters
parameters array of string

Paramètres passés à la méthode principale. Utilisez des variables de paramètre de tâche pour définir des paramètres contenant des informations sur les exécutions de travaux.

JobsSparkPythonTask

Nom Chemin d’accès Type Description
parameters
parameters array of string

Paramètres de ligne de commande passés au fichier Python. Utilisez des variables de paramètre de tâche pour définir des paramètres contenant des informations sur les exécutions de travaux.

python_file
python_file string

Fichier Python à exécuter. Les URI de fichier cloud (tels que dbfs :/, s3 :/, adls :/, gcs :/) et les chemins d’accès de l’espace de travail sont pris en charge. Pour les fichiers Python stockés dans l’espace de travail Azure Databricks, le chemin d’accès doit être absolu et commencer par /. Pour les fichiers stockés dans un référentiel distant, le chemin d’accès doit être relatif. Ce champ est obligatoire.

Source
source JobsSource

JobsSparkSubmitTask

Nom Chemin d’accès Type Description
parameters
parameters array of string

Paramètres de ligne de commande passés à spark Submit. Utilisez des variables de paramètre de tâche pour définir des paramètres contenant des informations sur les exécutions de travaux.

JobsWebhookNotifications

Nom Chemin d’accès Type Description
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of JobsWebhook

Liste facultative des ID de notification système à appeler lorsque la durée d’une exécution dépasse le seuil spécifié pour la métrique de RUN_DURATION_SECONDS dans le champ d’intégrité. Un maximum de 3 destinations peut être spécifié pour la propriété on_duration_warning_threshold_exceeded.

on_failure
on_failure array of JobsWebhook

Liste facultative des ID de notification système à appeler en cas d’échec de l’exécution. Un maximum de 3 destinations peut être spécifié pour la propriété on_failure.

on_start
on_start array of JobsWebhook

Liste facultative des ID de notification système à appeler au démarrage de l’exécution. Un maximum de 3 destinations peut être spécifié pour la propriété on_start.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of JobsWebhook

Liste facultative des ID de notification système à appeler quand des seuils de backlog de diffusion en continu sont dépassés pour n’importe quel flux. Les seuils de backlog de diffusion en continu peuvent être définis dans le champ d’intégrité à l’aide des métriques suivantes : STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS ou STREAMING_BACKLOG_FILES. Les alertes sont basées sur la moyenne de 10 minutes de ces métriques. Si le problème persiste, les notifications sont réententes toutes les 30 minutes. Un maximum de 3 destinations peut être spécifié pour la propriété on_streaming_backlog_exceeded.

on_success
on_success array of JobsWebhook

Liste facultative des ID de notification système à appeler une fois l’exécution terminée. Un maximum de 3 destinations peut être spécifié pour la propriété on_success.

JobsWebhook

Nom Chemin d’accès Type Description
pièce d'identité
id string

JobsTriggerSettings

Nom Chemin d’accès Type Description
file_arrival
file_arrival JobsFileArrivalTriggerConfiguration
pause_status
pause_status JobsPauseStatus
périodique
periodic JobsPeriodicTriggerConfiguration

JobsFileArrivalTriggerConfiguration

Nom Chemin d’accès Type Description
min_time_between_triggers_seconds
min_time_between_triggers_seconds integer

S’il est défini, le déclencheur démarre une exécution uniquement après la durée spécifiée passée depuis la dernière fois que le déclencheur a été déclenché. La valeur minimale autorisée est de 60 secondes

URL
url string

URL à surveiller pour les arrivées de fichiers. Le chemin d’accès doit pointer vers la racine ou un sous-chemin de l’emplacement externe.

wait_after_last_change_seconds
wait_after_last_change_seconds integer

S’il est défini, le déclencheur démarre une exécution uniquement après qu’aucune activité de fichier n’a eu lieu pendant la durée spécifiée. Cela permet d’attendre qu’un lot de fichiers entrants arrive avant de déclencher une exécution. La valeur minimale autorisée est de 60 secondes.

JobsPeriodicTriggerConfiguration

Nom Chemin d’accès Type Description
interval
interval integer

Intervalle auquel le déclencheur doit s’exécuter.

unité
unit JobsPeriodicTriggerConfigurationTimeUnit

JobsPeriodicTriggerConfigurationTimeUnit

JobsTriggerStateProto

Nom Chemin d’accès Type Description
file_arrival
file_arrival JobsFileArrivalTriggerState

JobsFileArrivalTriggerState

Nom Chemin d’accès Type Description
using_file_events
using_file_events boolean

Indique si le déclencheur tire parti des événements de fichier pour détecter les arrivées de fichiers.

JobsRun

Nom Chemin d’accès Type Description
attempt_number
attempt_number integer

Numéro de séquence de cette tentative d’exécution pour une exécution de travail déclenchée. La tentative initiale d’une exécution comporte une attempt_number de 0. Si la tentative d’exécution initiale échoue et que le travail a une stratégie de nouvelle tentative (max_retries > 0), les exécutions suivantes sont créées avec un original_attempt_run_id de l’ID de la tentative d’origine et une attempt_number incrémentée. Les exécutions sont retentées uniquement jusqu’à ce qu’elles réussissent, et la attempt_number maximale est identique à la valeur max_retries pour le travail.

cleanup_duration
cleanup_duration integer

Temps en millisecondes nécessaire pour mettre fin au cluster et nettoyer tous les artefacts associés. La durée d’une exécution de tâche est la somme des setup_duration, des execution_duration et des cleanup_duration. Le champ cleanup_duration est défini sur 0 pour les exécutions de tâches multitasque. La durée totale d’une exécution de travail multitask est la valeur du champ run_duration.

cluster_instance
cluster_instance JobsClusterInstance
cluster_spec
cluster_spec JobsClusterSpec
creator_user_name
creator_user_name string

Nom d’utilisateur du créateur. Ce champ ne sera pas inclus dans la réponse si l’utilisateur a déjà été supprimé.

descriptif
description string

Description de l’exécution

effective_performance_target
effective_performance_target JobsPerformanceTarget
end_time
end_time integer

Heure à laquelle cette exécution s’est terminée en millisecondes d’époque (millisecondes depuis 1/1/1970 UTC). Ce champ est défini sur 0 si le travail est toujours en cours d’exécution.

execution_duration
execution_duration integer

La durée en millisecondes nécessaire pour exécuter les commandes dans le fichier JAR ou le notebook jusqu’à ce qu’elles aient terminé, échoué, expiré, été annulée ou rencontré une erreur inattendue. La durée d’une exécution de tâche est la somme des setup_duration, des execution_duration et des cleanup_duration. Le champ execution_duration est défini sur 0 pour les exécutions de tâches multitasque. La durée totale d’une exécution de travail multitask est la valeur du champ run_duration.

git_source
git_source JobsGitSource
has_more
has_more boolean

Indique si l’exécution a plus de propriétés de tableau (tâches, job_clusters) qui ne sont pas affichées. Ils sont accessibles via le point de terminaison :method :jobs/getrun. Il s’applique uniquement aux requêtes API 2.2 :method :jobs/listruns avec expand_tasks=true.

job_clusters
job_clusters array of JobsJobCluster

Liste des spécifications de cluster de travaux qui peuvent être partagées et réutilisées par les tâches de ce travail. Les bibliothèques ne peuvent pas être déclarées dans un cluster de travaux partagés. Vous devez déclarer des bibliothèques dépendantes dans les paramètres de tâche. Si plus de 100 clusters de travaux sont disponibles, vous pouvez les paginer à l’aide de :method :jobs/getrun.

job_id
job_id integer

Identificateur canonique du travail qui contient cette exécution.

job_parameters
job_parameters array of JobsJobParameter

Paramètres au niveau du travail utilisés dans l’exécution

job_run_id
job_run_id integer

ID de l’exécution du travail auquel appartient cette exécution. Pour les travaux hérités et à tâche unique, le champ est rempli avec l’ID d’exécution du travail. Pour les exécutions de tâches, le champ est rempli avec l’ID de l’exécution du travail auquel appartient l’exécution de la tâche.

next_page_token
next_page_token string

Jeton qui peut être utilisé pour répertorier la page suivante des propriétés du tableau.

original_attempt_run_id
original_attempt_run_id integer

Si cette exécution est une nouvelle tentative d’exécution antérieure, ce champ contient la run_id de la tentative d’origine ; sinon, c’est le même que le run_id.

overriding_parameters
overriding_parameters JobsRunParameters
queue_duration
queue_duration integer

Temps en millisecondes pendant lequel l’exécution a passé dans la file d’attente.

repair_history
repair_history array of JobsRepairHistoryItem

Historique de réparation de l’exécution.

run_duration
run_duration integer

Temps en millisecondes nécessaire à l’exécution du travail et à toutes ses réparations.

run_id
run_id integer

Identificateur canonique de l’exécution. Cet ID est unique dans toutes les exécutions de tous les travaux.

run_name
run_name string

Nom facultatif de l’exécution. La longueur maximale est de 4 096 octets dans l’encodage UTF-8.

run_page_url
run_page_url string

URL de la page de détails de l’exécution.

type d'exécution
run_type JobsRunType
calendrier
schedule JobsCronSchedule
setup_duration
setup_duration integer

Temps en millisecondes nécessaire pour configurer le cluster. Pour les exécutions qui s’exécutent sur de nouveaux clusters, il s’agit de l’heure de création du cluster, car les exécutions qui s’exécutent sur des clusters existants cette fois doivent être très courtes. La durée d’une exécution de tâche est la somme des setup_duration, des execution_duration et des cleanup_duration. Le champ setup_duration est défini sur 0 pour les exécutions de tâches multitasque. La durée totale d’une exécution de travail multitask est la valeur du champ run_duration.

heure de début
start_time integer

Heure à laquelle cette exécution a commencé en millisecondes d’époque (millisecondes depuis 1/1/1970 UTC). Cela peut ne pas être le moment où la tâche de travail commence à s’exécuter, par exemple, si le travail est planifié pour s’exécuter sur un nouveau cluster, c’est l’heure à laquelle l’appel de création du cluster est émis.

status
status JobsRunStatus
tâches
tasks array of JobsRunTask

Liste des tâches effectuées par l’exécution. Chaque tâche a sa propre run_id que vous pouvez utiliser pour appeler JobsGetOutput pour récupérer les résutls d’exécution. Si plus de 100 tâches sont disponibles, vous pouvez les paginer à l’aide de :method :jobs/getrun. Utilisez le champ next_page_token à la racine de l’objet pour déterminer si d’autres résultats sont disponibles.

trigger
trigger JobsTriggerType
trigger_info
trigger_info JobsTriggerInfo

JobsClusterInstance

Nom Chemin d’accès Type Description
cluster_id
cluster_id string

Identificateur canonique du cluster utilisé par une exécution. Ce champ est toujours disponible pour les exécutions sur des clusters existants. Pour les exécutions sur de nouveaux clusters, elle devient disponible une fois le cluster créé. Cette valeur peut être utilisée pour afficher les journaux en accédant à /#setting/sparkui/$cluster_id/driver-logs. Les journaux continuent d’être disponibles une fois l’exécution terminée. La réponse n’inclut pas ce champ si l’identificateur n’est pas encore disponible.

spark_context_id
spark_context_id string

Identificateur canonique pour le contexte Spark utilisé par une exécution. Ce champ est renseigné une fois que l’exécution commence l’exécution. Cette valeur peut être utilisée pour afficher l’interface utilisateur Spark en accédant à /#setting/sparkui/$cluster_id/$spark_context_id. L’interface utilisateur Spark continue d’être disponible une fois l’exécution terminée. La réponse n’inclut pas ce champ si l’identificateur n’est pas encore disponible.

JobsClusterSpec

Nom Chemin d’accès Type Description
existing_cluster_id
existing_cluster_id string

Si existing_cluster_id, ID d’un cluster existant utilisé pour toutes les exécutions. Lors de l’exécution de travaux ou de tâches sur un cluster existant, vous devrez peut-être redémarrer manuellement le cluster s’il cesse de répondre. Nous vous suggérons d’exécuter des tâches et des tâches sur de nouveaux clusters pour une plus grande fiabilité

job_cluster_key
job_cluster_key string

Si job_cluster_key, cette tâche est exécutée en réutilisant le cluster spécifié dans job.settings.job_clusters.

libraries
libraries array of ComputeLibrary

Liste facultative des bibliothèques à installer sur le cluster. La valeur par défaut est une liste vide.

new_cluster
new_cluster ComputeClusterSpec

JobsJobParameter

Nom Chemin d’accès Type Description
par défaut
default string

Valeur par défaut facultative du paramètre

nom
name string

Nom du paramètre

value
value string

Valeur utilisée dans l’exécution

JobsRunParameters

Nom Chemin d’accès Type Description
pipeline_params
pipeline_params JobsPipelineParams

JobsRepairHistoryItem

Nom Chemin d’accès Type Description
effective_performance_target
effective_performance_target JobsPerformanceTarget
end_time
end_time integer

Heure de fin de l’exécution (réparée).

pièce d'identité
id integer

ID de la réparation. Retourné uniquement pour les éléments qui représentent une réparation dans repair_history.

heure de début
start_time integer

Heure de début de l’exécution (réparée).

status
status JobsRunStatus
task_run_ids
task_run_ids array of integer

ID d’exécution de la tâche exécutée dans le cadre de cet élément d’historique de réparation.

type
type JobsRepairHistoryItemType

JobsRunStatus

Nom Chemin d’accès Type Description
queue_details
queue_details JobsQueueDetails
état
state JobsRunLifecycleStateV2State
termination_details
termination_details JobsTerminationDetails

JobsQueueDetails

Nom Chemin d’accès Type Description
code
code JobsQueueDetailsCodeCode
Message
message string

Message descriptif avec les détails de mise en file d’attente. Ce champ n’est pas structuré et son format exact est susceptible de changer.

JobsQueueDetailsCodeCode

JobsRunLifecycleStateV2State

JobsTerminationDetails

Nom Chemin d’accès Type Description
code
code JobsTerminationCodeCode
Message
message string

Message descriptif avec les détails de l’arrêt. Ce champ n’est pas structuré et le format peut changer.

type
type JobsTerminationTypeType

JobsTerminationCodeCode

JobsTerminationTypeType

JobsRepairHistoryItemType

JobsRunType

JobsRunTask

Nom Chemin d’accès Type Description
attempt_number
attempt_number integer

Numéro de séquence de cette tentative d’exécution pour une exécution de travail déclenchée. La tentative initiale d’une exécution comporte une attempt_number de 0. Si la tentative d’exécution initiale échoue et que le travail a une stratégie de nouvelle tentative (max_retries > 0), les exécutions suivantes sont créées avec un original_attempt_run_id de l’ID de la tentative d’origine et une attempt_number incrémentée. Les exécutions sont retentées uniquement jusqu’à ce qu’elles réussissent, et la attempt_number maximale est identique à la valeur max_retries pour le travail.

clean_rooms_notebook_task
clean_rooms_notebook_task Object
cleanup_duration
cleanup_duration integer

Temps en millisecondes nécessaire pour mettre fin au cluster et nettoyer tous les artefacts associés. La durée d’une exécution de tâche est la somme des setup_duration, des execution_duration et des cleanup_duration. Le champ cleanup_duration est défini sur 0 pour les exécutions de tâches multitasque. La durée totale d’une exécution de travail multitask est la valeur du champ run_duration.

cluster_instance
cluster_instance JobsClusterInstance
condition_task
condition_task JobsRunConditionTask
dashboard_task
dashboard_task Object
dbt_task
dbt_task Object
depends_on
depends_on array of JobsTaskDependency

Tableau facultatif d’objets spécifiant le graphique de dépendance de la tâche. Toutes les tâches spécifiées dans ce champ doivent se terminer correctement avant d’exécuter cette tâche. La clé est task_key, et la valeur est le nom attribué à la tâche dépendante.

descriptif
description string

Description facultative de cette tâche.

effective_performance_target
effective_performance_target JobsPerformanceTarget
email_notifications
email_notifications JobsJobEmailNotifications
end_time
end_time integer

Heure à laquelle cette exécution s’est terminée en millisecondes d’époque (millisecondes depuis 1/1/1970 UTC). Ce champ est défini sur 0 si le travail est toujours en cours d’exécution.

environment_key
environment_key string

Clé qui fait référence à une spécification d’environnement dans un travail. Ce champ est requis pour les tâches python, de roue Python et de dbt lors de l’utilisation du calcul serverless.

execution_duration
execution_duration integer

La durée en millisecondes nécessaire pour exécuter les commandes dans le fichier JAR ou le notebook jusqu’à ce qu’elles aient terminé, échoué, expiré, été annulée ou rencontré une erreur inattendue. La durée d’une exécution de tâche est la somme des setup_duration, des execution_duration et des cleanup_duration. Le champ execution_duration est défini sur 0 pour les exécutions de tâches multitasque. La durée totale d’une exécution de travail multitask est la valeur du champ run_duration.

existing_cluster_id
existing_cluster_id string

Si existing_cluster_id, ID d’un cluster existant utilisé pour toutes les exécutions. Lors de l’exécution de travaux ou de tâches sur un cluster existant, vous devrez peut-être redémarrer manuellement le cluster s’il cesse de répondre. Nous vous suggérons d’exécuter des tâches et des tâches sur de nouveaux clusters pour une plus grande fiabilité

for_each_task
for_each_task Object
git_source
git_source JobsGitSource
job_cluster_key
job_cluster_key string

Si job_cluster_key, cette tâche est exécutée en réutilisant le cluster spécifié dans job.settings.job_clusters.

libraries
libraries array of Object

Liste facultative des bibliothèques à installer sur le cluster. La valeur par défaut est une liste vide.

new_cluster
new_cluster Object
notebook_task
notebook_task JobsNotebookTask
notification_settings
notification_settings Object
pipeline_task
pipeline_task Object
power_bi_task
power_bi_task Object
python_wheel_task
python_wheel_task Object
queue_duration
queue_duration integer

Temps en millisecondes pendant lequel l’exécution a passé dans la file d’attente.

resolved_values
resolved_values JobsResolvedValues
run_duration
run_duration integer

Temps en millisecondes nécessaire à l’exécution du travail et à toutes ses réparations.

run_id
run_id integer

ID de l’exécution de la tâche.

run_if
run_if JobsRunIf
run_job_task
run_job_task JobsRunJobTask
run_page_url
run_page_url string
setup_duration
setup_duration integer

Temps en millisecondes nécessaire pour configurer le cluster. Pour les exécutions qui s’exécutent sur de nouveaux clusters, il s’agit de l’heure de création du cluster, car les exécutions qui s’exécutent sur des clusters existants cette fois doivent être très courtes. La durée d’une exécution de tâche est la somme des setup_duration, des execution_duration et des cleanup_duration. Le champ setup_duration est défini sur 0 pour les exécutions de tâches multitasque. La durée totale d’une exécution de travail multitask est la valeur du champ run_duration.

spark_jar_task
spark_jar_task Object
spark_python_task
spark_python_task Object
spark_submit_task
spark_submit_task Object
sql_task
sql_task Object
heure de début
start_time integer

Heure à laquelle cette exécution a commencé en millisecondes d’époque (millisecondes depuis 1/1/1970 UTC). Cela peut ne pas être le moment où la tâche de travail commence à s’exécuter, par exemple, si le travail est planifié pour s’exécuter sur un nouveau cluster, c’est l’heure à laquelle l’appel de création du cluster est émis.

status
status JobsRunStatus
task_key
task_key string

Nom unique de la tâche. Ce champ est utilisé pour faire référence à cette tâche à partir d’autres tâches. Ce champ est obligatoire et doit être unique dans son travail parent. Lors de la mise à jour ou de la réinitialisation, ce champ est utilisé pour référencer les tâches à mettre à jour ou à réinitialiser.

timeout_seconds
timeout_seconds integer

Délai d’expiration facultatif appliqué à chaque exécution de cette tâche de travail. La valeur 0 signifie qu’aucun délai d’expiration n’est nécessaire.

webhook_notifications
webhook_notifications Object

JobsRunConditionTask

Nom Chemin d’accès Type Description
gauche
left string

Opérande gauche de la tâche de condition. Il peut s’agir d’une valeur de chaîne, d’un état de travail ou d’une référence de paramètre.

op
op JobsConditionTaskOp
résultat
outcome string

Résultat de l’évaluation de l’expression de condition. Renseigné si la tâche a été terminée avec succès. Peut être « true » ou « false »

Droite
right string

Opérande droit de la tâche de condition. Il peut s’agir d’une valeur de chaîne, d’un état de travail ou d’une référence de paramètre.

JobsTriggerType

JobsTriggerInfo

Nom Chemin d’accès Type Description
run_id
run_id integer

ID d’exécution de la tâche Exécuter le travail

JobsRunOutput

Nom Chemin d’accès Type Description
clean_rooms_notebook_output
clean_rooms_notebook_output Object
dashboard_output
dashboard_output Object
dbt_output
dbt_output Object
erreur
error string

Message d’erreur indiquant pourquoi une tâche a échoué ou pourquoi la sortie n’est pas disponible. Le message n’est pas structuré et son format exact est susceptible de changer.

error_trace
error_trace string

S’il y a eu une erreur lors de l’exécution, ce champ contient des traces de pile disponibles.

info
info string
logs
logs string

Sortie des tâches qui écrivent dans des flux standard (stdout/stderr) tels que spark_jar_task, spark_python_task, python_wheel_task. Elle n’est pas prise en charge pour les notebook_task, les pipeline_task ou les spark_submit_task. Azure Databricks restreint cette API pour retourner les 5 derniers Mo de ces journaux.

logs_truncated
logs_truncated boolean

Indique si les journaux sont tronqués.

metadata
metadata Object
notebook_output
notebook_output JobsNotebookOutput
run_job_output
run_job_output JobsRunJobOutput
sql_output
sql_output Object

JobsNotebookOutput

Nom Chemin d’accès Type Description
résultat
result string

Valeur transmise à dbutils.notebook.exit(). Azure Databricks restreint cette API pour retourner les 5 premiers Mo de la valeur. Pour obtenir un résultat plus important, votre travail peut stocker les résultats dans un service de stockage cloud. Ce champ est absent si dbutils.notebook.exit() n’a jamais été appelé.

tronqué
truncated boolean

Indique si le résultat a été tronqué ou non.

JobsRunJobOutput

Nom Chemin d’accès Type Description
run_id
run_id integer

ID d’exécution de l’exécution du travail déclenché

JobsResolvedValues

Nom Chemin d’accès Type Description
condition_task
condition_task JobsResolvedConditionTaskValues
dbt_task
dbt_task JobsResolvedDbtTaskValues
notebook_task
notebook_task JobsResolvedNotebookTaskValues
python_wheel_task
python_wheel_task JobsResolvedPythonWheelTaskValues
run_job_task
run_job_task JobsResolvedRunJobTaskValues
simulation_task
simulation_task JobsResolvedParamPairValues
spark_jar_task
spark_jar_task JobsResolvedStringParamsValues
spark_python_task
spark_python_task JobsResolvedStringParamsValues
spark_submit_task
spark_submit_task JobsResolvedStringParamsValues
sql_task
sql_task JobsResolvedParamPairValues

JobsResolvedConditionTaskValues

Nom Chemin d’accès Type Description
gauche
left string
Droite
right string

JobsResolvedDbtTaskValues

Nom Chemin d’accès Type Description
commands
commands array of string

JobsResolvedNotebookTaskValues

Nom Chemin d’accès Type Description
base_parameters
base_parameters object

JobsResolvedPythonWheelTaskValues

Nom Chemin d’accès Type Description
named_parameters
named_parameters object
parameters
parameters array of string

JobsResolvedRunJobTaskValues

Nom Chemin d’accès Type Description
job_parameters
job_parameters object
parameters
parameters object

JobsResolvedParamPairValues

Nom Chemin d’accès Type Description
parameters
parameters object

JobsResolvedStringParamsValues

Nom Chemin d’accès Type Description
parameters
parameters array of string