Azure Databricks
Azure Databricks offre une plateforme unifiée pour la gestion, la gouvernance et l’analytique des données évolutives, combinant des flux de travail rationalisés avec la possibilité de gérer efficacement différents types de données
Ce connecteur est disponible dans les produits et régions suivants :
| Service | classe | Régions |
|---|---|---|
| Copilot Studio | Premium | Toutes les régions Power Automate , à l’exception des éléments suivants : - Us Government (GCC) - Us Government (GCC High) - China Cloud géré par 21Vianet - Us Department of Defense (DoD) |
| Power Apps | Premium | Toutes les régions Power Apps , à l’exception des suivantes : - Us Government (GCC) - Us Government (GCC High) - China Cloud géré par 21Vianet - Us Department of Defense (DoD) |
| Power Automate | Premium | Toutes les régions Power Automate , à l’exception des éléments suivants : - Us Government (GCC) - Us Government (GCC High) - China Cloud géré par 21Vianet - Us Department of Defense (DoD) |
| Contact | |
|---|---|
| Nom | Prise en charge de Databricks |
| URL | https://help.databricks.com |
| Messagerie électronique | eng-partner-eco-help@databricks.com |
| Métadonnées du connecteur | |
|---|---|
| Éditeur | Databricks Inc. |
| Site internet | https://www.databricks.com/ |
| Politique de confidentialité | https://www.databricks.com/legal/privacynotice |
| Catégories | Data |
Se connecter à Azure Databricks à partir de Microsoft Power Platform
Cette page explique comment se connecter à Azure Databricks à partir de Microsoft Power Platform en ajoutant Azure Databricks comme connexion de données. Quand vous êtes connecté, vous pouvez utiliser vos données Azure Databricks à partir des plateformes suivantes :
- Power Apps : Créez des applications qui peuvent lire et écrire dans Azure Databricks, tout en préservant vos contrôles de gouvernance Azure Databricks.
- Power Automate : Générez des flux et ajoutez des actions qui activent l’exécution de SQL personnalisé ou d’un travail existant et récupérez les résultats.
- Copilot Studio : Créez des agents personnalisés à l’aide de vos données Azure Databricks en tant que source de connaissances.
Avant de commencer
Avant de vous connecter à Azure Databricks à partir de Power Platform, vous devez répondre aux exigences suivantes :
- Vous disposez d’un compte Microsoft Entra ID (anciennement Azure Active Directory).
- Vous disposez d’une licence Power Apps Premium.
- Vous disposez d’un compte Azure Databricks.
- Vous avez accès à un entrepôt SQL dans Azure Databricks.
Facultatif : Se connecter avec des réseaux virtuels Azure
Si votre espace de travail Azure Databricks utilise des réseaux virtuels, il existe deux façons de se connecter :
Intégrez Power Platform à des ressources à l’intérieur de votre réseau virtuel sans les exposer sur l’Internet public. Pour vous connecter au point de terminaison privé de votre espace de travail Azure Databricks, procédez comme suit après avoir configuré la connectivité privée à Azure Databricks :
Configurez la prise en charge du réseau virtuel pour Power Platform.
Si votre réseau virtuel Power Platform (principal ou secondaire) est différent de votre réseau virtuel Azure Databricks, utilisez le peering de réseaux virtuels pour connecter le réseau virtuel à Azure Databricks.
Pour plus d’informations sur les réseaux virtuels, consultez la vue d’ensemble de la prise en charge du réseau virtuel.
Activez l’accès avec un déploiement hybride, où une liaison privée frontale avec un point de terminaison public est protégée par une liste d’accès IP de l’espace de travail. Pour activer l’accès, procédez comme suit :
- Activez l’accès public au niveau de l’espace de travail. Pour plus d’informations, consultez Configurer les listes d’accès IP pour les espaces de travail.
- Ajoutez la plage d’adresses IP AzureConnectors ou une plage d’adresses IP Power Platform spécifiques en fonction de la région de votre environnement à votre liste d’accès IP de l’espace de travail.
Facultatif : Créer un principal de service Microsoft Entra
Important
Si Azure Databricks et Power Platform se trouvent dans différents locataires, vous devez utiliser des principaux de service pour l’authentification.
Avant de vous connecter, effectuez les étapes suivantes pour créer, configurer et affecter un principal de service Microsoft Entra à votre compte ou espace de travail Azure Databricks :
- Enregistrez un nouveau principal de service dans Microsoft Entra ID.
- Ajoutez des principaux de service à votre compte.
- Attribuez un principal de service à un espace de travail.
Étape 1 : Ajouter une connexion Azure Databricks à Power Platform
Note: Si vous utilisez Copilot Studio, nous vous recommandons de créer la connexion Databricks dans Power Apps ou Power Automate. Ensuite, il peut être utilisé dans Copilot Studio.
Pour ajouter une connexion Azure Databricks, procédez comme suit :
Dans Power Apps ou Power Automate, dans la barre latérale, cliquez sur Connexions.
Cliquez sur + Nouvelle connexion dans le coin supérieur gauche.
Recherchez « Azure Databricks » à l’aide de la barre de recherche en haut à droite.
Sélectionnez la vignette Azure Databricks .
Sélectionnez votre type d’authentification dans le menu déroulant.
Sélectionnez votre méthode d’authentification et entrez vos informations d’authentification.
Si votre déploiement Power Platform et votre compte Azure Databricks se trouvent dans le même locataire Microsoft Entra, vous pouvez utiliser la connexion OAuth. Entrez les informations suivantes :
- Pour le nom d’hôte du serveur, entrez le nom d’hôte d’azure Databricks SQL Warehouse.
- Pour le chemin HTTP, entrez le chemin HTTP de l’entrepôt SQL.
- Cliquez sur Créer.
- Connectez-vous avec votre ID Microsoft Entra.
La connexion principal du service peut être utilisée dans n’importe quel scénario. Avant de vous connecter, créez un principal de service Microsoft Entra. Entrez les informations suivantes :
- Pour l’ID client, entrez l’ID du principal de service.
- Pour le secret client, entrez le secret principal du service.
- Pour locataire, entrez le locataire du « service principal ».
- Pour le nom d’hôte, entrez le nom d’hôte d’azure Databricks SQL Warehouse.
- Pour le chemin HTTP, entrez le chemin HTTP de l’entrepôt SQL.
- (Facultatif) Vous pouvez renommer ou partager la connexion du principal de service avec les membres de votre équipe une fois la connexion créée.
Pour trouver les détails de connexion de votre entrepôt SQL Azure Databricks, consultez Obtenir les détails de connexion pour une ressource de calcul Azure Databricks.
Cliquez sur Créer.
Étape 2 : Utiliser la connexion Azure Databricks
Après avoir créé une connexion Azure Databricks dans Power Apps ou Power Automate, vous pouvez utiliser vos données Azure Databricks pour créer des applications Power canvas, des flux Power Automate et des agents Copilot Studio.
Utiliser vos données Azure Databricks pour créer des applications De canevas Power
Important
Vous pouvez uniquement utiliser des applications canevas si vous vous connectez directement à Azure Databricks dans l’application. Vous ne pouvez pas utiliser de tables virtuelles.
Pour ajouter vos données Azure Databricks à votre application, procédez comme suit :
- Dans la barre de navigation la plus à gauche, cliquez sur Créer.
- Cliquez sur Démarrer avec un canevas vide et sélectionnez votre taille de canevas souhaitée pour créer une application canevas.
- À partir de votre application, cliquez sur Ajouterdes connecteurs> de données>Azure Databricks. Sélectionnez la connexion Azure Databricks que vous avez créée.
- Sélectionnez un catalogue dans la barre latérale Choisir un jeu de données .
- Dans la barre latérale Choisir un jeu de données , sélectionnez toutes les tables à laquelle vous souhaitez connecter votre application canevas.
- Cliquez sur Se connecter.
Opérations de données dans Power Apps :
Le connecteur prend en charge les opérations de création, de mise à jour et de suppression, mais uniquement pour les tables qui ont une clé primaire définie. Lorsque vous effectuez des opérations de création, vous devez toujours spécifier la clé primaire.
Note: Azure Databricks prend en charge les colonnes d’identité générées. Dans ce cas, les valeurs de clé primaire sont générées automatiquement sur le serveur lors de la création de ligne et ne peuvent pas être spécifiées manuellement.
Utiliser vos données Azure Databricks pour générer des flux Power Automate
L’API d’exécution des instructions et l’API Travaux sont exposées dans Power Automate, ce qui vous permet d’écrire des instructions SQL et d’exécuter des travaux existants. Pour créer un flux Power Automate à l’aide d’Azure Databricks en tant qu’action, procédez comme suit :
- Dans la barre de navigation la plus à gauche, cliquez sur Créer.
- Créez un flux et ajoutez n’importe quel type de déclencheur.
- À partir de votre nouveau flux, cliquez + et recherchez « Databricks » pour afficher les actions disponibles.
Pour écrire SQL, sélectionnez l’une des actions suivantes :
Exécutez une instruction SQL : écrivez et exécutez une instruction SQL. Entrez les informations suivantes :
- Pour Body/warehouse_id, entrez l’ID de l’entrepôt sur lequel exécuter l’instruction SQL.
- Pour Body/statement_id, entrez l’ID de l’instruction SQL à exécuter.
- Pour plus d’informations sur les paramètres avancés, voir ici.
Vérifiez l’état et obtenez les résultats : vérifiez l’état d’une instruction SQL et collectez les résultats. Entrez les informations suivantes :
- Pour l’ID d’instruction, entrez l’ID retourné lorsque l’instruction SQL a été exécutée.
- Pour plus d’informations sur le paramètre, voir ici.
Annulez l’exécution d’une instruction : arrêter l’exécution d’une instruction SQL. Entrez les informations suivantes :
- Pour l’ID d’instruction, entrez l’ID de l’instruction SQL à interrompre.
- Pour plus d’informations sur le paramètre, voir ici.
Obtenir le résultat par index de bloc : obtenir les résultats par index de bloc, qui convient aux jeux de résultats volumineux. Entrez les informations suivantes :
- Pour l’ID d’instruction, entrez l’ID de l’instruction SQL dont vous souhaitez récupérer les résultats.
- Pour l’index de bloc, entrez l’index de bloc cible.
- Pour plus d’informations sur les paramètres, voir ici.
Pour interagir avec un travail Databricks existant, sélectionnez l’une des actions suivantes :
- Répertorier les travaux : récupère une liste de travaux. Pour plus d’informations , voir ici.
- Déclencher une nouvelle exécution de travail : exécute un travail et retourne la run_id de l’exécution déclenchée. Pour plus d’informations , voir ici.
- Obtenir une seule exécution du travail : retourne les métadonnées relatives à une exécution, notamment l’état d’exécution (par exemple, RUNNING, SUCCESS, FAILED), l’heure de début et de fin, les durées d’exécution, les informations de cluster, etc. Pour plus d’informations , voir ici.
- Annuler une exécution de travail : annule une exécution de travail ou une exécution de tâche. Vous pourrez trouver plus d’informations ici.
- Obtenez la sortie d’une seule exécution de travail : récupère la sortie et les métadonnées d’une seule exécution de tâche. Vous pourrez trouver plus d’informations ici.
Utiliser Azure Databricks comme source de connaissances dans Copilot Studio
Pour ajouter vos données Azure Databricks en tant que source de connaissances à un agent Copilot Studio, procédez comme suit :
- Dans la barre latérale, cliquez sur Agent.
- Sélectionnez un agent existant ou créez un agent en cliquant sur + Nouvel agent.
- Décrivez l’agent en plaçant un message, puis cliquez sur Créer.
- Vous pouvez également cliquer sur Ignorer pour spécifier manuellement les informations de l’agent.
- Dans l’onglet Connaissances , cliquez sur + Connaissances.
- Cliquez sur Avancé.
- Sélectionnez Azure Databricks comme source de connaissances.
- Entrez le nom du catalogue dans lequel se trouve vos données.
- Cliquez sur Se connecter.
- Sélectionnez les tables que votre agent doit utiliser comme source de connaissances, puis cliquez sur Ajouter.
Créer des tables virtuelles Dataverse avec vos données Azure Databricks
Vous pouvez également créer des tables virtuelles Dataverse avec le connecteur Azure Databricks. Les tables virtuelles, également appelées entités virtuelles, intègrent des données à partir de systèmes externes à Microsoft Dataverse. Une table virtuelle définit une table dans Dataverse sans stocker la table physique dans la base de données Dataverse. Pour en savoir plus sur les tables virtuelles, consultez Prise en main des tables virtuelles (entités).
Remarque
Bien que les tables virtuelles n’utilisent pas de capacité de stockage Dataverse, Databricks vous recommande d’utiliser des connexions directes pour de meilleures performances.
Vous devez disposer du rôle Personnalisateur système ou Administrateur système. Pour plus d’informations, consultez les rôles de sécurité pour Power Platform.
Procédez comme suit pour créer une table virtuelle Dataverse :
Dans Power Apps, dans la barre latérale, cliquez sur Tables.
Cliquez sur + Nouveau tableau dans la barre de menus, puis sélectionnez Créer une table virtuelle.
Sélectionnez une connexion Azure Databricks existante ou créez une connexion à Azure Databricks. Pour ajouter une nouvelle connexion, consultez l’étape 1 : Ajouter une connexion Azure Databricks à Power Platform.
Databricks recommande d’utiliser une connexion par principal de service pour créer une table virtuelle.
Cliquez sur Suivant.
Sélectionnez les tables à représenter en tant que table virtuelle Dataverse.
- Les tables virtuelles Dataverse nécessitent une clé primaire. Par conséquent, les vues ne peuvent pas être des tables virtuelles, mais les vues matérialisées peuvent.
Cliquez sur Suivant.
Configurez la table virtuelle en mettant à jour les détails de la table, si nécessaire.
Cliquez sur Suivant.
Confirmez les détails de la source de données, puis cliquez sur Terminer.
Utilisez la table virtuelle Dataverse dans Power Apps, Power Automate et Copilot Studio.
Pour obtenir la liste des limitations connues des tables virtuelles Dataverse, consultez limitations connues et résolution des problèmes.
Effectuer des mises à jour par lots
Si vous devez effectuer des opérations de création, de mise à jour ou de suppression en bloc en réponse aux entrées Power Apps, Databricks recommande d’implémenter un flux Power Automate. Pour ce faire, procédez comme suit :
Créez une application canevas à l’aide de votre connexion Azure Databricks dans Power Apps.
Créez un flux Power Automate à l’aide de la connexion Azure Databricks et utilisez Power Apps comme déclencheur.
Dans le déclencheur Power Automate, ajoutez les champs d’entrée que vous souhaitez passer de Power Apps à Power Automate.
Créez un objet de collection dans Power Apps pour collecter toutes vos modifications.
Ajoutez le flux Power Automate à votre application de type canvas.
Appelez le flux Power Automate à partir de votre application de canevas et itérez sur la collection à l’aide d’une commande
ForAll.ForAll(collectionName, FlowName.Run(input field 1, input field 2, input field 3, …)
Écritures simultanées
La concurrence au niveau des lignes réduit les conflits entre les opérations d’écriture simultanées en détectant les modifications au niveau des lignes et en résolvant automatiquement les conflits qui se produisent lorsque des écritures simultanées mettent à jour ou suppriment des lignes différentes dans le même fichier de données.
La concurrence au niveau des lignes est incluse dans Databricks Runtime 14.2 ou version ultérieure. La concurrence au niveau des lignes est prise en charge par défaut pour les types de tables suivants :
- Tables avec vecteurs de suppression activés et sans partitionnement
- Tables avec liquid clustering, sauf si les vecteurs de suppression sont désactivés
Pour activer les vecteurs de suppression, exécutez la commande SQL suivante :
ALTER TABLE table_name SET TBLPROPERTIES ('delta.enableDeletionVectors' = true);
Pour plus d’informations sur les conflits d’écriture simultanés dans Azure Databricks, consultez Les niveaux d’isolation et les conflits d’écriture sur Azure Databricks.
Ajouter Azure Databricks à une stratégie de données
En ajoutant Azure Databricks à une stratégie de données métiers, Azure Databricks ne peut pas partager de données avec des connecteurs dans d’autres groupes. Cela protège vos données et empêche leur partage avec ceux qui ne doivent pas y avoir accès. Pour plus d’informations, consultez Gérer les stratégies de données.
Pour ajouter le connecteur Azure Databricks à une stratégie de données Power Platform :
- Dans n’importe quelle application Power Platform, cliquez sur l’engrenage des paramètres dans le coin supérieur droit, puis sélectionnez Centre d’administration.
- Dans la barre latérale, cliquez sur Stratégies>de données.
- Si vous utilisez le nouveau centre d’administration, cliquez sur Données de sécurité> etPolitique de données>.
- Cliquez sur + Nouvelle stratégie ou sélectionnez une stratégie existante.
- Si vous créez une nouvelle politique, entrez un nom.
- Sélectionnez un environnement à ajouter à votre stratégie, puis cliquez sur + Ajouter à la stratégie ci-dessus.
- Cliquez sur Suivant.
- Recherchez et sélectionnez le connecteur Azure Databricks .
- Cliquez sur Transférer vers l’entreprise, puis cliquez sur Suivant.
- Passez en revue votre stratégie, puis cliquez sur Créer une stratégie.
Limites
- Le connecteur Power Platform ne prend pas en charge les clouds gouvernementaux.
Limitations de Power App
Les formules PowerFx suivantes calculent les valeurs à l’aide uniquement des données récupérées localement :
| Catégorie | Formula |
|---|---|
| Table, fonction | - GroupBy -Distinct |
| Aggregation | - CountRows - StdevP - StdevS |
Création d’une connexion
Le connecteur prend en charge les types d’authentification suivants :
| Connexion OAuth | Connexion OAuth | Toutes les régions | Non partageable |
| Connexion du principal de service | Connexion du principal de service | Toutes les régions | Partageable |
| Valeur par défaut [DÉCONSEILLÉE] | Cette option concerne uniquement les connexions plus anciennes sans type d’authentification explicite et est fournie uniquement pour la compatibilité descendante. | Toutes les régions | Non partageable |
Connexion OAuth
ID d’authentification : oauth2-auth
Applicable : Toutes les régions
Connexion OAuth
Cette connexion n’est pas partageable. Si l’application power est partagée avec un autre utilisateur, un autre utilisateur est invité à créer une connexion explicitement.
| Nom | Type | Descriptif | Obligatoire |
|---|---|---|---|
| Nom d’hôte du serveur (exemple : adb-3980263885549757139.2.azuredatabricks.net) | ficelle | Nom du serveur de l’espace de travail Databricks | Vrai |
| Chemin HTTP (exemple : /sql/1.0/warehouses/a9c4e781bd29f315) | ficelle | Chemin HTTP de Databricks SQL Warehouse | Vrai |
Connexion du principal de service
ID d’authentification : oAuthClientCredentials
Applicable : Toutes les régions
Connexion du principal de service
Il s’agit d’une connexion partageable. Si l’application d’alimentation est partagée avec un autre utilisateur, la connexion est également partagée. Pour plus d’informations, consultez la vue d’ensemble des connecteurs pour les applications de canevas - Power Apps | Microsoft Docs
| Nom | Type | Descriptif | Obligatoire |
|---|---|---|---|
| ID de client | ficelle | Vrai | |
| Clé secrète client | securestring | Vrai | |
| Locataire | ficelle | Vrai | |
| Nom d’hôte du serveur (exemple : adb-3980263885549757139.2.azuredatabricks.net) | ficelle | Nom du serveur de l’espace de travail Databricks | Vrai |
| Chemin HTTP (exemple : /sql/1.0/warehouses/a9c4e781bd29f315) | ficelle | Chemin HTTP de Databricks SQL Warehouse | Vrai |
Valeur par défaut [DÉCONSEILLÉE]
Applicable : Toutes les régions
Cette option concerne uniquement les connexions plus anciennes sans type d’authentification explicite et est fournie uniquement pour la compatibilité descendante.
Cette connexion n’est pas partageable. Si l’application power est partagée avec un autre utilisateur, un autre utilisateur est invité à créer une connexion explicitement.
Limitations
| Nom | Appels | Période de renouvellement |
|---|---|---|
| Appels d’API par connexion | 100 | 60 secondes |
Actions
| Annuler l’exécution de l’instruction |
Demande qu’une instruction en cours d’exécution soit annulée. Les appelants doivent interroger l’état pour voir l’état du terminal. |
| Annuler une exécution |
Annule une exécution de travail ou une exécution de tâche. L’exécution est annulée de façon asynchrone. Elle peut donc toujours s’exécuter une fois cette requête terminée. |
| Azure Databricks Genie |
Interrogez les espaces Genie pour obtenir des insights à partir de vos données. |
| Déclencher une nouvelle exécution de travail |
Exécutez un travail et retournez la run_id de l’exécution déclenchée. |
| Exécuter une instruction SQL |
Exécutez une instruction SQL et attendez éventuellement ses résultats pendant une heure spécifiée. |
| Liste des emplois |
Récupère une liste de travaux. |
| Obtenir la sortie d’une seule exécution |
Récupérez la sortie et les métadonnées d’une seule exécution de tâche. Lorsqu’une tâche de notebook retourne une valeur via l’appel dbutils.notebook.exit(), vous pouvez utiliser ce point de terminaison pour récupérer cette valeur. Azure Databricks restreint cette API à retourner les 5 premiers Mo de la sortie. Pour retourner un résultat plus volumineux, vous pouvez stocker les résultats d’un travail dans un service de stockage cloud. Ce point de terminaison valide le paramètre run_id et retourne un code d’état HTTP 400 si le paramètre run_id n’est pas valide. Les exécutions sont automatiquement supprimées après 60 jours. Si vous souhaitez les référencer au-delà de 60 jours, vous devez enregistrer les anciens résultats d’exécution avant leur expiration. |
| Obtenir le résultat par index de segment |
Une fois l’exécution de l’instruction réussie, cette requête peut être utilisée pour extraire n’importe quel bloc par index. |
| Obtenir une seule exécution de travail |
Récupère les métadonnées d’une exécution. Les tableaux volumineux dans les résultats sont paginés lorsqu’ils dépassent 100 éléments. Une demande d’exécution unique retourne toutes les propriétés de cette exécution et les 100 premiers éléments des propriétés de tableau (tâches, job_clusters, job_parameters et repair_history). Utilisez le champ next_page_token pour rechercher d’autres résultats et transmettre sa valeur en tant que page_token dans les requêtes suivantes. Si des propriétés de tableau ont plus de 100 éléments, des résultats supplémentaires sont retournés sur les demandes suivantes. Les tableaux sans résultats supplémentaires seront vides sur les pages ultérieures. |
| Vérifier l’état et obtenir les résultats |
Obtenir l’état, le manifeste et les résultats de l’instruction |
Annuler l’exécution de l’instruction
Demande qu’une instruction en cours d’exécution soit annulée. Les appelants doivent interroger l’état pour voir l’état du terminal.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
ID d’instruction
|
statement_id | True | string |
ID d’instruction |
Annuler une exécution
Annule une exécution de travail ou une exécution de tâche. L’exécution est annulée de façon asynchrone. Elle peut donc toujours s’exécuter une fois cette requête terminée.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
run_id
|
run_id | True | integer |
Ce champ est obligatoire. |
Azure Databricks Genie
Interrogez les espaces Genie pour obtenir des insights à partir de vos données.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
ID de l’espace Génie
|
genie_space_id | True | string |
ID de l’espace Génie |
Déclencher une nouvelle exécution de travail
Exécutez un travail et retournez la run_id de l’exécution déclenchée.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
idempotency_token
|
idempotency_token | string |
Jeton facultatif pour garantir l’idempotency des demandes d’exécution de travail. Si une exécution avec le jeton fourni existe déjà, la demande ne crée pas d’exécution, mais retourne l’ID de l’exécution existante à la place. Si une exécution avec le jeton fourni est supprimée, une erreur est retournée. Si vous spécifiez le jeton d’idempotency, en cas d’échec, vous pouvez réessayer jusqu’à ce que la demande réussisse. Azure Databricks garantit qu’une exécution exactement est lancée avec ce jeton d’idempotency. Ce jeton doit comporter au maximum 64 caractères. Pour plus d’informations, consultez Comment garantir l’idempotency pour les travaux. |
|
|
job_id
|
job_id | True | integer |
ID du travail à exécuter |
|
job_parameters
|
job_parameters | object |
Paramètres au niveau du travail utilisés dans l’exécution. par exemple « param » : « overriding_val » |
|
|
seulement
|
only | array of string |
Liste des clés de tâche à exécuter à l’intérieur du travail. Si ce champ n’est pas fourni, toutes les tâches du travail sont exécutées. |
|
|
performance_target
|
performance_target | string | ||
|
full_refresh
|
full_refresh | boolean |
Si la valeur est true, déclenche une actualisation complète sur la table dynamique delta. |
|
|
enabled
|
enabled | True | boolean |
Si la valeur est true, activez la mise en file d’attente du travail. Ce champ est obligatoire. |
Retours
- Corps
- JobsRunNowResponse
Exécuter une instruction SQL
Exécutez une instruction SQL et attendez éventuellement ses résultats pendant une heure spécifiée.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
warehouse_id
|
warehouse_id | True | string |
ID de l’entrepôt cible |
|
instruction
|
statement | True | string |
Instruction SQL à exécuter. L’instruction peut éventuellement être paramétrée, voir les paramètres |
|
nom
|
name | True | string |
Nom du marqueur de paramètre |
|
type
|
type | string |
Type de données de paramètre |
|
|
value
|
value | string |
Valeur du paramètre |
|
|
catalogue
|
catalog | string |
Catalogue par défaut pour l’exécution |
|
|
schéma
|
schema | string |
Schéma par défaut pour l’exécution |
|
|
disposition
|
disposition | string |
Mode d’extraction de résultats |
|
|
format
|
format | string |
Format du jeu de résultats |
|
|
on_wait_timeout
|
on_wait_timeout | string |
Action sur le délai d’expiration |
|
|
wait_timeout
|
wait_timeout | string |
Délai d’attente des résultats |
|
|
byte_limit
|
byte_limit | integer |
Limite d’octets de résultat |
|
|
row_limit
|
row_limit | integer |
Limite de ligne de résultat |
Retours
Réponse d’exécution d’instruction
- Corps
- SqlStatementResponse
Liste des emplois
Récupère une liste de travaux.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
Limit
|
limit | integer |
Nombre de travaux à retourner. Cette valeur doit être supérieure à 0 et inférieure ou égale à 100. La valeur par défaut est 20. |
|
|
Développer les tâches
|
expand_tasks | boolean |
Indique s’il faut inclure les détails des tâches et du cluster dans la réponse. Notez que seuls les 100 premiers éléments seront affichés. Utilisez :method :jobs/get pour paginer toutes les tâches et clusters. |
|
|
Nom du travail
|
name | string |
Filtre sur la liste en fonction du nom de travail exact (sans respect de la casse). |
|
|
Jeton de page
|
page_token | string |
Utilisez next_page_token ou prev_page_token retournés par la demande précédente pour répertorier respectivement la page suivante ou précédente des travaux. |
Retours
- Corps
- JobsListJobsResponse
Obtenir la sortie d’une seule exécution
Récupérez la sortie et les métadonnées d’une seule exécution de tâche. Lorsqu’une tâche de notebook retourne une valeur via l’appel dbutils.notebook.exit(), vous pouvez utiliser ce point de terminaison pour récupérer cette valeur. Azure Databricks restreint cette API à retourner les 5 premiers Mo de la sortie. Pour retourner un résultat plus volumineux, vous pouvez stocker les résultats d’un travail dans un service de stockage cloud. Ce point de terminaison valide le paramètre run_id et retourne un code d’état HTTP 400 si le paramètre run_id n’est pas valide. Les exécutions sont automatiquement supprimées après 60 jours. Si vous souhaitez les référencer au-delà de 60 jours, vous devez enregistrer les anciens résultats d’exécution avant leur expiration.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
ID d’exécution
|
run_id | True | integer |
Identificateur canonique de l’exécution. |
Retours
- Corps
- JobsRunOutput
Obtenir le résultat par index de segment
Une fois l’exécution de l’instruction réussie, cette requête peut être utilisée pour extraire n’importe quel bloc par index.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
ID d’instruction
|
statement_id | True | string |
ID d’instruction |
|
Index de bloc
|
chunk_index | True | string |
Index de bloc |
Retours
- Corps
- SqlResultData
Obtenir une seule exécution de travail
Récupère les métadonnées d’une exécution. Les tableaux volumineux dans les résultats sont paginés lorsqu’ils dépassent 100 éléments. Une demande d’exécution unique retourne toutes les propriétés de cette exécution et les 100 premiers éléments des propriétés de tableau (tâches, job_clusters, job_parameters et repair_history). Utilisez le champ next_page_token pour rechercher d’autres résultats et transmettre sa valeur en tant que page_token dans les requêtes suivantes. Si des propriétés de tableau ont plus de 100 éléments, des résultats supplémentaires sont retournés sur les demandes suivantes. Les tableaux sans résultats supplémentaires seront vides sur les pages ultérieures.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
ID d’exécution
|
run_id | True | integer |
Identificateur canonique de l’exécution pour laquelle récupérer les métadonnées. Ce champ est obligatoire. |
|
Inclure l’historique
|
include_history | boolean |
Indique s’il faut inclure l’historique des réparations dans la réponse. |
|
|
Inclure des valeurs résolues
|
include_resolved_values | boolean |
Indique s’il faut inclure des valeurs de paramètre résolues dans la réponse. |
|
|
Jeton de page
|
page_token | string |
Utilisez next_page_token retourné par la réponse GetRun précédente pour demander la page suivante des propriétés du tableau de l’exécution. |
Retours
- Corps
- JobsRun
Vérifier l’état et obtenir les résultats
Obtenir l’état, le manifeste et les résultats de l’instruction
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
ID d’instruction
|
statement_id | True | string |
ID d’instruction |
Retours
Réponse d’exécution d’instruction
- Corps
- SqlStatementResponse
Définitions
Objet
SqlBaseChunkInfo
Métadonnées d’un bloc de jeu de résultats
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
byte_count
|
byte_count | integer |
Nombre d’octets dans le segment de résultat |
|
chunk_index
|
chunk_index | integer |
Position dans la séquence de blocs de jeu de résultats |
|
row_count
|
row_count | integer |
Nombre de lignes dans le bloc de résultats |
|
row_offset
|
row_offset | integer |
Début du décalage de ligne dans le jeu de résultats |
SqlColumnInfo
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
nom
|
name | string |
Nom de colonne |
|
position
|
position | integer |
Position de colonne (basée sur 0) |
|
type_interval_type
|
type_interval_type | string |
Format de type d’intervalle |
|
TYPE_NAME
|
type_name | SqlColumnInfoTypeName |
Nom du type de données de base. Cela n’inclut pas de détails pour les types complexes tels que STRUCT, MAP ou ARRAY. |
|
type_precision
|
type_precision | integer |
Nombre de chiffres pour le type DECIMAL |
|
type_scale
|
type_scale | integer |
Nombre de décimales pour le type DECIMAL |
|
type_text
|
type_text | string |
Spécification complète du type SQL |
SqlColumnInfoTypeName
Nom du type de données de base. Cela n’inclut pas de détails pour les types complexes tels que STRUCT, MAP ou ARRAY.
Nom du type de données de base. Cela n’inclut pas de détails pour les types complexes tels que STRUCT, MAP ou ARRAY.
SqlStatementResponse
Réponse d’exécution d’instruction
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
manifeste
|
manifest | SqlResultManifest |
Schéma et métadonnées du jeu de résultats |
|
résultat
|
result | SqlResultData | |
|
statement_id
|
statement_id | string |
ID d’instruction |
|
status
|
status | SqlStatementStatus |
État de l’exécution des instructions |
SqlResultManifest
Schéma et métadonnées du jeu de résultats
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
Morceaux
|
chunks | array of SqlBaseChunkInfo |
Métadonnées de bloc de résultats |
|
format
|
format | string | |
|
schéma
|
schema | SqlResultSchema |
Définitions de colonnes du jeu de résultats |
|
total_byte_count
|
total_byte_count | integer |
Nombre total d’octets dans le jeu de résultats |
|
total_chunk_count
|
total_chunk_count | integer |
Nombre total de blocs |
|
total_row_count
|
total_row_count | integer |
Nombre total de lignes |
|
tronqué
|
truncated | boolean |
État de troncation des résultats |
SqlStatementStatus
État de l’exécution des instructions
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
erreur
|
error | SqlServiceError | |
|
état
|
state | SqlStatementState |
État d’exécution de l’instruction |
SqlStatementStatementState
SqlServiceError
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
error_code
|
error_code | string | |
|
Message
|
message | string |
Message d'erreur |
SqlResultSchema
Définitions de colonnes du jeu de résultats
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
column_count
|
column_count | integer | |
|
columns
|
columns | array of SqlColumnInfo |
SqlResultData
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
byte_count
|
byte_count | integer |
Octets dans le segment de résultat |
|
chunk_index
|
chunk_index | integer |
Position du bloc |
|
data_array
|
data_array | SqlJsonArray |
Tableau de tableaux avec des valeurs de chaîne |
|
external_links
|
external_links | array of SqlExternalLink | |
|
next_chunk_index
|
next_chunk_index | integer |
Index de bloc suivant |
|
next_chunk_internal_link
|
next_chunk_internal_link | string |
Lien de bloc suivant |
|
row_count
|
row_count | integer |
Lignes en bloc |
|
row_offset
|
row_offset | integer |
Décalage de ligne de départ |
SqlJsonArray
Tableau de tableaux avec des valeurs de chaîne
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
Objets
|
array of |
SqlExternalLink
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
byte_count
|
byte_count | integer |
Octets en bloc |
|
chunk_index
|
chunk_index | integer |
Position du bloc |
|
date d'expiration
|
expiration | date-time |
Heure d’expiration du lien |
|
external_link
|
external_link | string | |
|
http_headers
|
http_headers | object |
En-têtes HTTP requis |
|
next_chunk_index
|
next_chunk_index | integer |
Index de bloc suivant |
|
next_chunk_internal_link
|
next_chunk_internal_link | string |
Lien de bloc suivant |
|
row_count
|
row_count | integer |
Lignes en bloc |
|
row_offset
|
row_offset | integer |
Décalage de ligne de départ |
JobsRunNowResponse
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
run_id
|
run_id | integer |
ID global unique de l’exécution nouvellement déclenchée. |
JobsPerformanceTarget
JobsPipelineParams
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
full_refresh
|
full_refresh | boolean |
Si la valeur est true, déclenche une actualisation complète sur la table dynamique delta. |
JobsQueueSettings
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
enabled
|
enabled | boolean |
Si la valeur est true, activez la mise en file d’attente du travail. Ce champ est obligatoire. |
JobsListJobsResponse
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
jobs
|
jobs | array of JobsBaseJob |
Liste des travaux. Inclus uniquement dans la réponse s’il existe des travaux à répertorier. |
|
next_page_token
|
next_page_token | string |
Jeton qui peut être utilisé pour répertorier la page suivante des travaux (le cas échéant). |
|
prev_page_token
|
prev_page_token | string |
Jeton qui peut être utilisé pour répertorier la page précédente des travaux (le cas échéant). |
JobsBaseJob
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
created_time
|
created_time | integer |
Heure à laquelle ce travail a été créé en millisecondes d’époque (millisecondes depuis 1/1/1970 UTC). |
|
creator_user_name
|
creator_user_name | string |
Nom d’utilisateur du créateur. Ce champ ne sera pas inclus dans la réponse si l’utilisateur a déjà été supprimé. |
|
effective_budget_policy_id
|
effective_budget_policy_id | uuid |
ID de la stratégie budgétaire utilisée par ce travail à des fins d’attribution des coûts. Cela peut être défini (dans l’ordre de priorité) : 1. Administrateurs de budget via le compte ou la console d’espace de travail 2. Interface utilisateur des travaux dans la page détails du travail et API Travaux à l’aide de budget_policy_id 3. Valeur par défaut déduite en fonction des stratégies budgétaires accessibles de l’identité run_as lors de la création ou de la modification du travail. |
|
has_more
|
has_more | boolean |
Indique si le travail a plus de propriétés de tableau (tâches, job_clusters) qui ne sont pas affichées. Ils sont accessibles via :method :jobs/get endpoint. Il s’applique uniquement aux requêtes API 2.2 :method :jobs/list avec expand_tasks=true. |
|
job_id
|
job_id | integer |
Identificateur canonique pour ce travail. |
|
settings
|
settings | JobsJobSettings | |
|
trigger_state
|
trigger_state | JobsTriggerStateProto |
JobsJobSettings
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
budget_policy_id
|
budget_policy_id | uuid |
ID de la stratégie budgétaire spécifiée par l’utilisateur à utiliser pour ce travail. Si elle n’est pas spécifiée, une stratégie de budget par défaut peut être appliquée lors de la création ou de la modification du travail. Consultez effective_budget_policy_id pour connaître la stratégie budgétaire utilisée par cette charge de travail. |
|
continu
|
continuous | JobsContinuous | |
|
déploiement
|
deployment | JobsJobDeployment | |
|
descriptif
|
description | string |
Description facultative du travail. La longueur maximale est de 27700 caractères dans l’encodage UTF-8. |
|
edit_mode
|
edit_mode | JobsJobEditMode | |
|
email_notifications
|
email_notifications | JobsJobEmailNotifications | |
|
environments
|
environments | array of JobsJobEnvironment |
Liste des spécifications de l’environnement d’exécution des tâches qui peuvent être référencées par les tâches serverless de ce travail. Un environnement doit être présent pour les tâches sans serveur. Pour les tâches de notebook sans serveur, l'environnement est accessible depuis le panneau d'environnement du notebook. Pour d’autres tâches serverless, l’environnement de tâche doit être spécifié à l’aide de environment_key dans les paramètres de tâche. |
|
git_source
|
git_source | JobsGitSource | |
|
Santé
|
health | JobsJobsHealthRules | |
|
job_clusters
|
job_clusters | array of JobsJobCluster |
Liste des spécifications de cluster de travaux qui peuvent être partagées et réutilisées par les tâches de ce travail. Les bibliothèques ne peuvent pas être déclarées dans un cluster de travaux partagés. Vous devez déclarer des bibliothèques dépendantes dans les paramètres de tâche. |
|
max_concurrent_runs
|
max_concurrent_runs | integer |
Nombre maximal autorisé facultatif d’exécutions simultanées du travail. Définissez cette valeur si vous souhaitez pouvoir exécuter plusieurs exécutions du même travail simultanément. Cela est utile par exemple si vous déclenchez votre travail selon une planification fréquente et que vous souhaitez autoriser les exécutions consécutives à se chevaucher, ou si vous souhaitez déclencher plusieurs exécutions qui diffèrent par leurs paramètres d’entrée. Ce paramètre affecte uniquement les nouvelles exécutions. Par exemple, supposons que la concurrence du travail soit 4 et qu’il existe 4 exécutions actives simultanées. Ensuite, la définition de la concurrence sur 3 ne tue pas les exécutions actives. Toutefois, à partir de là, les nouvelles exécutions sont ignorées, sauf s’il y a moins de 3 exécutions actives. Cette valeur ne peut pas dépasser 1 000. Si vous définissez cette valeur sur 0, toutes les nouvelles exécutions sont ignorées. |
|
nom
|
name | string |
Nom facultatif pour le poste. La longueur maximale est de 4 096 octets dans l’encodage UTF-8. |
|
notification_settings
|
notification_settings | JobsJobNotificationSettings | |
|
parameters
|
parameters | array of JobsJobParameterDefinition |
Définitions de paramètres au niveau du travail |
|
performance_target
|
performance_target | JobsPerformanceTarget | |
|
queue
|
queue | JobsQueueSettings | |
|
run_as
|
run_as | JobsJobRunAs | |
|
calendrier
|
schedule | JobsCronSchedule | |
|
tags
|
tags | object |
Carte des balises associées au travail. Ceux-ci sont transférés au cluster en tant que balises de cluster pour les clusters de travaux et sont soumis aux mêmes limitations que les balises de cluster. Un maximum de 25 balises peuvent être ajoutées au poste. |
|
tâches
|
tasks | array of JobsTask |
Liste des spécifications de tâche à exécuter par ce travail. Il prend en charge jusqu’à 1 000 éléments dans les points de terminaison d’écriture ( :method :jobs/create, :method :jobs/reset, :method :jobs/update, :method :jobs/submit). Les points de terminaison en lecture retournent uniquement 100 tâches. Si plus de 100 tâches sont disponibles, vous pouvez les paginer à l’aide de :method :jobs/get. Utilisez le champ next_page_token à la racine de l’objet pour déterminer si d’autres résultats sont disponibles. |
|
timeout_seconds
|
timeout_seconds | integer |
Délai d’attente facultatif appliqué à chaque exécution de ce travail. La valeur 0 signifie qu’aucun délai d’expiration n’est nécessaire. |
|
trigger
|
trigger | JobsTriggerSettings | |
|
webhook_notifications
|
webhook_notifications | JobsWebhookNotifications |
JobsContinuous
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
pause_status
|
pause_status | JobsPauseStatus |
JobsPauseStatus
JobsJobDeployment
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
gentil
|
kind | JobsJobDeploymentKind | |
|
metadata_file_path
|
metadata_file_path | string |
Chemin d’accès du fichier qui contient les métadonnées de déploiement. |
JobsJobDeploymentKind
JobsJobEditMode
JobsJobEmailNotifications
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
on_duration_warning_threshold_exceeded
|
on_duration_warning_threshold_exceeded | array of string |
Une liste d’adresses e-mail à notifier lorsque la durée d’une exécution dépasse le seuil spécifié pour la métrique de RUN_DURATION_SECONDS dans le champ d’intégrité. Si aucune règle pour la métrique RUN_DURATION_SECONDS n’est spécifiée dans le champ d’intégrité du travail, les notifications ne sont pas envoyées. |
|
on_failure
|
on_failure | array of string |
Liste des adresses e-mail à avertir lorsqu’une exécution échoue. Une exécution est considérée comme ayant échoué si elle se termine par un INTERNAL_ERROR life_cycle_state ou un échec, ou TIMED_OUT result_state. S’il n’est pas spécifié lors de la création, de la réinitialisation ou de la mise à jour de la liste est vide et que les notifications ne sont pas envoyées. |
|
on_start
|
on_start | array of string |
Liste des adresses e-mail à avertir lorsqu’une exécution commence. Si elle n’est pas spécifiée lors de la création, de la réinitialisation ou de la mise à jour du travail, la liste est vide et les notifications ne sont pas envoyées. |
|
on_streaming_backlog_exceeded
|
on_streaming_backlog_exceeded | array of string |
Liste des adresses e-mail à notifier quand des seuils de backlog de diffusion en continu sont dépassés pour n’importe quel flux. Les seuils de backlog de diffusion en continu peuvent être définis dans le champ d’intégrité à l’aide des métriques suivantes : STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS ou STREAMING_BACKLOG_FILES. Les alertes sont basées sur la moyenne de 10 minutes de ces métriques. Si le problème persiste, les notifications sont réententes toutes les 30 minutes. |
|
on_success
|
on_success | array of string |
Liste des adresses e-mail à avertir lorsqu’une exécution se termine correctement. Une exécution est considérée comme ayant réussi s’il se termine par un life_cycle_state TERMINATED et un result_state SUCCESS. Si elle n’est pas spécifiée lors de la création, de la réinitialisation ou de la mise à jour du travail, la liste est vide et les notifications ne sont pas envoyées. |
JobsJobEnvironment
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
environment_key
|
environment_key | string |
Clé d’un environnement. Il doit être unique au sein d’un travail. |
|
Spec
|
spec | ComputeEnvironment |
ComputeEnvironment
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
dépendances
|
dependencies | array of string |
Liste des dépendances pip, comme pris en charge par la version de pip dans cet environnement. Chaque dépendance est une ligne de fichier de configuration requise pip valide par https://pip.pypa.io/en/stable/reference/requirements-file-format/. Les dépendances autorisées incluent un spécificateur de conditions requises, une URL d’archivage, un chemin d’accès de projet local (par exemple, WSFS ou UC Volumes dans Azure Databricks) ou une URL de projet VCS. |
|
environment_version
|
environment_version | string |
Obligatoire. Version de l’environnement utilisée par l’environnement. Chaque version est fournie avec une version de Python spécifique et un ensemble de packages Python. La version est une chaîne composée d’un entier. Voir https://learn.microsoft.com/azure/databricks/release-notes/serverless/#serverless-environment-versions. |
JobsGitSource
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
git_branch
|
git_branch | string |
Nom de la branche à extraire et utiliser par ce travail. Ce champ ne peut pas être spécifié conjointement avec git_tag ou git_commit. |
|
git_commit
|
git_commit | string |
Validez pour être extrait et utilisé par ce travail. Ce champ ne peut pas être spécifié conjointement avec git_branch ou git_tag. |
|
git_provider
|
git_provider | JobsGitProvider | |
|
git_snapshot
|
git_snapshot | JobsGitSnapshot | |
|
git_tag
|
git_tag | string |
Nom de la balise à extraire et utiliser par ce travail. Ce champ ne peut pas être spécifié conjointement avec git_branch ou git_commit. |
|
git_url
|
git_url | string |
URL du référentiel à cloner par ce travail. |
JobsGitProvider
JobsGitSnapshot
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
used_commit
|
used_commit | string |
Validation utilisée pour exécuter l’exécution. Si git_branch a été spécifié, cela pointe vers le HEAD de la branche au moment de l’exécution ; si git_tag a été spécifié, cela pointe vers la validation de la balise. |
JobsJobsHealthRules
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
rules
|
rules | array of JobsJobsHealthRule |
JobsJobsHealthRule
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
metric
|
metric | JobsJobsHealthMetric | |
|
op
|
op | JobsJobsHealthOperator | |
|
value
|
value | integer |
Spécifie la valeur de seuil que la métrique d’intégrité doit respecter pour satisfaire la règle d’intégrité. |
JobsJobsHealthMetric
JobsJobsHealthOperator
JobsJobCluster
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
job_cluster_key
|
job_cluster_key | string |
Nom unique du cluster de travaux. Ce champ est obligatoire et doit être unique dans le travail. JobTaskSettings peut faire référence à ce champ pour déterminer le cluster à lancer pour l’exécution de la tâche. |
|
new_cluster
|
new_cluster | ComputeClusterSpec |
ComputeClusterSpec
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
apply_policy_default_values
|
apply_policy_default_values | boolean |
Lorsque la valeur est true, les valeurs fixes et par défaut de la stratégie sont utilisées pour les champs omis. Lorsque la valeur est false, seules les valeurs fixes de la stratégie sont appliquées. |
|
autoscale
|
autoscale | ComputeAutoScale | |
|
autotermination_minutes
|
autotermination_minutes | integer |
Met automatiquement fin au cluster une fois qu’il est inactif pendant cette période en minutes. S’il n’est pas défini, ce cluster ne sera pas automatiquement arrêté. S’il est spécifié, le seuil doit être compris entre 10 et 1 000 minutes. Les utilisateurs peuvent également définir cette valeur sur 0 pour désactiver explicitement l’arrêt automatique. |
|
azure_attributes
|
azure_attributes | ComputeAzureAttributes | |
|
cluster_log_conf
|
cluster_log_conf | ComputeClusterLogConf | |
|
nom du cluster
|
cluster_name | string |
Nom du cluster demandé par l’utilisateur. Cela n’a pas besoin d’être unique. S’il n’est pas spécifié lors de la création, le nom du cluster est une chaîne vide. Pour les clusters de travaux, le nom du cluster est automatiquement défini en fonction du travail et des ID d’exécution du travail. |
|
custom_tags
|
custom_tags | object |
Étiquettes supplémentaires pour les ressources du cluster. Azure Databricks balise toutes les ressources de cluster (par exemple, les instances AWS et les volumes EBS) avec ces balises en plus de default_tags. Remarques : - Actuellement, Azure Databricks autorise au maximum 45 balises personnalisées : les clusters peuvent uniquement réutiliser les ressources cloud si les balises des ressources sont un sous-ensemble des balises de cluster |
|
data_security_mode
|
data_security_mode | ComputeDataSecurityMode | |
|
docker_image
|
docker_image | ComputeDockerImage | |
|
driver_instance_pool_id
|
driver_instance_pool_id | string |
ID facultatif du pool d’instances pour le pilote auquel le cluster appartient. Le cluster de pool utilise le pool d’instances avec l’ID (instance_pool_id) si le pool de pilotes n’est pas affecté. |
|
driver_node_type_id
|
driver_node_type_id | string |
Type de nœud du pilote Spark. Notez que ce champ est facultatif ; si aucun paramètre n’est défini, le type de nœud du pilote est défini comme la même valeur que node_type_id définie ci-dessus. Ce champ, ainsi que node_type_id, ne doit pas être défini si virtual_cluster_size est défini. Si les deux driver_node_type_id, node_type_id et virtual_cluster_size sont spécifiés, driver_node_type_id et node_type_id sont prioritaires. |
|
enable_elastic_disk
|
enable_elastic_disk | boolean |
Mise à l’échelle automatique du stockage local : lorsqu’il est activé, ce cluster acquiert dynamiquement un espace disque supplémentaire lorsque ses processeurs Spark sont à court d'espace disque. Cette fonctionnalité nécessite des autorisations AWS spécifiques pour fonctionner correctement. Reportez-vous au Guide de l’utilisateur pour plus d’informations. |
|
enable_local_disk_encryption
|
enable_local_disk_encryption | boolean |
Indique s’il faut activer LUKS sur les disques locaux des machines virtuelles de cluster |
|
init_scripts
|
init_scripts | array of ComputeInitScriptInfo |
Configuration pour le stockage de scripts init. Vous pouvez spécifier n’importe quel nombre de destinations. Les scripts sont exécutés séquentiellement dans l’ordre fourni. Si cluster_log_conf est spécifié, les journaux de script init sont envoyés à <destination>/<cluster-ID>/init_scripts. |
|
instance_pool_id
|
instance_pool_id | string |
ID facultatif du pool d’instances auquel appartient le cluster. |
|
is_single_node
|
is_single_node | boolean |
Ce champ ne peut être utilisé que lorsque le type = CLASSIC_PREVIEW. Quand la valeur est true, Azure Databricks définit automatiquement des custom_tags, des spark_conf et des num_workers liés à un nœud unique |
|
gentil
|
kind | ComputeKind | |
|
node_type_id
|
node_type_id | string |
Ce champ code, via une seule valeur, les ressources disponibles pour chacun des nœuds Spark de ce cluster. Par exemple, les nœuds Spark peuvent être configurés et optimisés pour des charges de travail gourmandes en mémoire ou en calcul. Une liste des types de nœuds disponibles peut être récupérée à l’aide de l’appel d’API :method :clusters/listNodeTypes. |
|
num_workers
|
num_workers | integer |
Nombre de nœuds de travail que ce cluster doit avoir. Un cluster a un pilote Spark et num_workers Exécuteurs pour un total de num_workers + 1 nœuds Spark. Remarque : lors de la lecture des propriétés d’un cluster, ce champ reflète le nombre souhaité de workers plutôt que le nombre actuel réel de workers. Par exemple, si un cluster est redimensionné de 5 à 10 workers, ce champ sera immédiatement mis à jour pour refléter la taille cible de 10 workers, tandis que les workers répertoriés dans spark_info augmenteront progressivement de 5 à 10 à mesure que les nouveaux nœuds sont approvisionnés. |
|
policy_id
|
policy_id | string |
ID de la stratégie de cluster utilisée pour créer le cluster le cas échéant. |
|
runtime_engine
|
runtime_engine | ComputeRuntimeEngine | |
|
single_user_name
|
single_user_name | string |
Nom d’utilisateur unique si data_security_mode est SINGLE_USER |
|
spark_conf
|
spark_conf | object |
Objet contenant un ensemble de paires de clé-valeur de configuration Spark facultatives spécifiées par l’utilisateur. Les utilisateurs peuvent également transmettre une chaîne d’options JVM supplémentaires au pilote et aux exécuteurs via spark.driver.extraJavaOptions et spark.executor.extraJavaOptions respectivement. |
|
spark_env_vars
|
spark_env_vars | object |
Objet contenant un ensemble de paires clé-valeur de variable d’environnement facultatives spécifiées par l’utilisateur. Notez que la paire clé-valeur du formulaire (X,Y) sera exportée telle quelle (c’est-à-dire exporter X='Y') lors du lancement du pilote et des workers. Pour spécifier un ensemble supplémentaire de SPARK_DAEMON_JAVA_OPTS, nous vous recommandons de les ajouter à $SPARK_DAEMON_JAVA_OPTS, comme illustré dans l’exemple ci-dessous. Cela garantit que toutes les variables environnementales gérées par databricks par défaut sont également incluses. Exemples de variables d’environnement Spark : {"SPARK_WORKER_MEMORY » : « 28000m », « SPARK_LOCAL_DIRS » : « /local_disk0"} ou {"SPARK_DAEMON_JAVA_OPTS » : « $SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"} |
|
spark_version
|
spark_version | string |
Version Spark du cluster, par exemple 3.3.x-scala2.11. Une liste des versions spark disponibles peut être récupérée à l’aide de l’appel d’API :method :clusters/sparkVersions. |
|
ssh_public_keys
|
ssh_public_keys | array of string |
Contenu de clé publique SSH qui sera ajouté à chaque nœud Spark de ce cluster. Les clés privées correspondantes peuvent être utilisées pour se connecter avec le nom d’utilisateur ubuntu sur le port 2200. Jusqu’à 10 clés peuvent être spécifiées. |
|
use_ml_runtime
|
use_ml_runtime | boolean |
Ce champ ne peut être utilisé que lorsque le type = CLASSIC_PREVIEW. effective_spark_version est déterminée par spark_version (version DBR), ce champ use_ml_runtime et indique si node_type_id est un nœud gpu ou non. |
|
workload_type
|
workload_type | ComputeWorkloadType |
ComputeAutoScale
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
max_workers
|
max_workers | integer |
Nombre maximal de workers auxquels le cluster peut effectuer un scale-up lorsqu’il est surchargé. Notez que max_workers doit être strictement supérieur à min_workers. |
|
min_workers
|
min_workers | integer |
Nombre minimal de workers auxquels le cluster peut effectuer un scale-down lorsqu’il est sous-utilisé. Il s’agit également du nombre initial de workers que le cluster aura après la création. |
ComputeAzureAttributes
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
disponibilité
|
availability | ComputeAzureAvailability | |
|
first_on_demand
|
first_on_demand | integer |
Les premiers nœuds first_on_demand du cluster seront placés sur des instances à la demande. Cette valeur doit être supérieure à 0 pour vous assurer que le nœud du pilote de cluster est placé sur une instance à la demande. Si cette valeur est supérieure ou égale à la taille actuelle du cluster, tous les nœuds sont placés sur des instances à la demande. Si cette valeur est inférieure à la taille actuelle du cluster, first_on_demand nœuds seront placés sur des instances à la demande et le reste sera placé sur les instances de disponibilité. Notez que cette valeur n’affecte pas la taille du cluster et ne peut pas être mutée au cours de la durée de vie d’un cluster. |
|
log_analytics_info
|
log_analytics_info | ComputeLogAnalyticsInfo | |
|
spot_bid_max_price
|
spot_bid_max_price | double |
Prix maximal de l’offre à utiliser pour les instances Spot Azure. Le prix maximal de l’offre ne peut pas être supérieur au prix à la demande de l’instance. Si elle n’est pas spécifiée, la valeur par défaut est -1, qui spécifie que l’instance ne peut pas être supprimée en fonction du prix, et uniquement sur la base de la disponibilité. En outre, la valeur doit > être 0 ou -1. |
ComputeAzureAvailability
ComputeLogAnalyticsInfo
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
log_analytics_primary_key
|
log_analytics_primary_key | string | |
|
log_analytics_workspace_id
|
log_analytics_workspace_id | string |
ComputeClusterLogConf
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
dbfs
|
dbfs | ComputeDbfsStorageInfo | |
|
volumes
|
volumes | ComputeVolumesStorageInfo |
ComputeDbfsStorageInfo
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
destination
|
destination | string |
destination dbfs, par exemple dbfs :/my/path |
ComputeVolumesStorageInfo
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
destination
|
destination | string |
Destination des volumes UC, par exemple ,Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh ou dbfs :/Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh |
ComputeDataSecurityMode
ComputeDockerImage
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
basic_auth
|
basic_auth | ComputeDockerBasicAuth | |
|
URL
|
url | string |
URL de l’image Docker. |
ComputeDockerBasicAuth
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
mot de passe
|
password | string |
Mot de passe de l’utilisateur |
|
nom d'utilisateur
|
username | string |
Nom de l’utilisateur |
ComputeInitScriptInfo
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
abfss
|
abfss | ComputeAdlsgen2Info | |
|
file
|
file | ComputeLocalFileInfo | |
|
gcs
|
gcs | ComputeGcsStorageInfo | |
|
volumes
|
volumes | ComputeVolumesStorageInfo | |
|
workspace
|
workspace | ComputeWorkspaceStorageInfo |
ComputeAdlsgen2Info
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
destination
|
destination | string |
destination abfss, par exemple abfss://< container-name>@<storage-account-name.dfs.core.windows.net/>< directory-name>. |
ComputeLocalFileInfo
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
destination
|
destination | string |
destination de fichier local, par exemple file :/my/local/file.sh |
ComputeGcsStorageInfo
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
destination
|
destination | string |
Destination/URI GCS, par exemple gs://my-bucket/some-prefix |
ComputeWorkspaceStorageInfo
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
destination
|
destination | string |
destination wsfs, par exemple workspace :/cluster-init-scripts/setup-datadog.sh |
ComputeKind
ComputeRuntimeEngine
ComputeWorkloadType
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
clients
|
clients | ComputeClientsTypes |
ComputeClientsTypes
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
jobs
|
jobs | boolean |
Avec les travaux définis, le cluster peut être utilisé pour les travaux |
|
Cahiers
|
notebooks | boolean |
Avec les blocs-notes définis, ce cluster peut être utilisé pour les notebooks |
JobsJobNotificationSettings
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
no_alert_for_canceled_runs
|
no_alert_for_canceled_runs | boolean |
Si la valeur est true, n’envoyez pas de notifications aux destinataires spécifiés dans on_failure si l’exécution est annulée. |
|
no_alert_for_skipped_runs
|
no_alert_for_skipped_runs | boolean |
Si la valeur est true, n’envoyez pas de notifications aux destinataires spécifiés dans on_failure si l’exécution est ignorée. |
JobsJobParameterDefinition
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
par défaut
|
default | string |
Valeur par défaut du paramètre. |
|
nom
|
name | string |
Nom du paramètre défini. Peut contenir uniquement des caractères alphanumériques, _, -et . |
JobsJobRunAs
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
service_principal_name
|
service_principal_name | string |
ID d’application d’un principal de service actif. La définition de ce champ nécessite le rôle servicePrincipal/utilisateur. |
|
nom_utilisateur
|
user_name | string |
E-mail d’un utilisateur d’espace de travail actif. Les utilisateurs non administrateurs ne peuvent définir ce champ que sur leur propre e-mail. |
JobsCronSchedule
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
pause_status
|
pause_status | JobsPauseStatus | |
|
quartz_cron_expression
|
quartz_cron_expression | string |
Expression Cron utilisant la syntaxe Quartz qui décrit la planification d’un travail. Pour plus d’informations, consultez le déclencheur Cron . Ce champ est obligatoire. |
|
timezone_id
|
timezone_id | string |
ID de fuseau horaire Java. La planification d’un travail est résolue par rapport à ce fuseau horaire. Pour plus d’informations, consultez Java TimeZone . Ce champ est obligatoire. |
JobsTask
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
clean_rooms_notebook_task
|
clean_rooms_notebook_task | Object | |
|
condition_task
|
condition_task | JobsConditionTask | |
|
dashboard_task
|
dashboard_task | JobsDashboardTask | |
|
dbt_task
|
dbt_task | Object | |
|
depends_on
|
depends_on | array of JobsTaskDependency |
Tableau facultatif d’objets spécifiant le graphique de dépendance de la tâche. Toutes les tâches spécifiées dans ce champ doivent être effectuées avant d’exécuter cette tâche. La tâche s’exécute uniquement si la condition run_if a la valeur true. La clé est task_key, et la valeur est le nom attribué à la tâche dépendante. |
|
descriptif
|
description | string |
Description facultative de cette tâche. |
|
disable_auto_optimization
|
disable_auto_optimization | boolean |
Option permettant de désactiver l’optimisation automatique dans serverless |
|
email_notifications
|
email_notifications | JobsTaskEmailNotifications | |
|
environment_key
|
environment_key | string |
Clé qui fait référence à une spécification d’environnement dans un travail. Ce champ est requis pour les tâches python, de roue Python et de dbt lors de l’utilisation du calcul serverless. |
|
existing_cluster_id
|
existing_cluster_id | string |
Si existing_cluster_id, ID d’un cluster existant utilisé pour toutes les exécutions. Lors de l’exécution de travaux ou de tâches sur un cluster existant, vous devrez peut-être redémarrer manuellement le cluster s’il cesse de répondre. Nous vous suggérons d’exécuter des tâches et des tâches sur de nouveaux clusters pour une plus grande fiabilité |
|
for_each_task
|
for_each_task | JobsForEachTask | |
|
Santé
|
health | JobsJobsHealthRules | |
|
job_cluster_key
|
job_cluster_key | string |
Si job_cluster_key, cette tâche est exécutée en réutilisant le cluster spécifié dans job.settings.job_clusters. |
|
libraries
|
libraries | array of ComputeLibrary |
Liste facultative des bibliothèques à installer sur le cluster. La valeur par défaut est une liste vide. |
|
max_retries
|
max_retries | integer |
Nombre maximal facultatif de nouvelles tentatives d’exécution infructueuse. Une exécution est considérée comme ayant échoué si elle est terminée avec le result_state FAILED ou INTERNAL_ERROR life_cycle_state. La valeur -1 signifie réessayer indéfiniment et la valeur 0 signifie ne jamais réessayer. |
|
min_retry_interval_millis
|
min_retry_interval_millis | integer |
Intervalle minimal facultatif en millisecondes entre le début de l’exécution ayant échoué et l’exécution de nouvelle tentative suivante. Le comportement par défaut est que les exécutions infructueuses sont immédiatement retentées. |
|
new_cluster
|
new_cluster | ComputeClusterSpec | |
|
notebook_task
|
notebook_task | JobsNotebookTask | |
|
notification_settings
|
notification_settings | JobsTaskNotificationSettings | |
|
pipeline_task
|
pipeline_task | JobsPipelineTask | |
|
power_bi_task
|
power_bi_task | Object | |
|
python_wheel_task
|
python_wheel_task | JobsPythonWheelTask | |
|
retry_on_timeout
|
retry_on_timeout | boolean |
Stratégie facultative pour spécifier s’il faut réessayer un travail lorsqu’il expire. Le comportement par défaut consiste à ne pas réessayer lors du délai d’expiration. |
|
run_if
|
run_if | JobsRunIf | |
|
run_job_task
|
run_job_task | JobsRunJobTask | |
|
spark_jar_task
|
spark_jar_task | JobsSparkJarTask | |
|
spark_python_task
|
spark_python_task | JobsSparkPythonTask | |
|
spark_submit_task
|
spark_submit_task | JobsSparkSubmitTask | |
|
sql_task
|
sql_task | Object | |
|
task_key
|
task_key | string |
Nom unique de la tâche. Ce champ est utilisé pour faire référence à cette tâche à partir d’autres tâches. Ce champ est obligatoire et doit être unique dans son travail parent. Lors de la mise à jour ou de la réinitialisation, ce champ est utilisé pour référencer les tâches à mettre à jour ou à réinitialiser. |
|
timeout_seconds
|
timeout_seconds | integer |
Délai d’expiration facultatif appliqué à chaque exécution de cette tâche de travail. La valeur 0 signifie qu’aucun délai d’expiration n’est nécessaire. |
|
webhook_notifications
|
webhook_notifications | JobsWebhookNotifications |
JobsConditionTask
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
gauche
|
left | string |
Opérande gauche de la tâche de condition. Il peut s’agir d’une valeur de chaîne, d’un état de travail ou d’une référence de paramètre. |
|
op
|
op | JobsConditionTaskOp | |
|
Droite
|
right | string |
Opérande droit de la tâche de condition. Il peut s’agir d’une valeur de chaîne, d’un état de travail ou d’une référence de paramètre. |
JobsConditionTaskOp
JobsDashboardTask
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
dashboard_id
|
dashboard_id | string |
Identificateur du tableau de bord à actualiser. |
|
subscription
|
subscription | JobsSubscription | |
|
warehouse_id
|
warehouse_id | string |
Facultatif : ID d’entrepôt à exécuter le tableau de bord avec pour la planification. S’il n’est pas spécifié, l’entrepôt par défaut du tableau de bord est utilisé. |
JobsSubscription
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
custom_subject
|
custom_subject | string |
Facultatif : permet aux utilisateurs de spécifier une ligne d’objet personnalisée sur l’e-mail envoyé aux abonnés. |
|
Pause
|
paused | boolean |
Lorsque la valeur est true, l’abonnement n’envoie pas d’e-mails. |
|
Abonnés
|
subscribers | array of JobsSubscriptionSubscriber |
Liste des abonnés à laquelle envoyer l’instantané du tableau de bord. |
JobsSubscriptionSubscriber
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
destination_id
|
destination_id | string |
Un instantané du tableau de bord est envoyé à la destination lorsque le champ destination_id est présent. |
|
nom_utilisateur
|
user_name | string |
Un instantané du tableau de bord est envoyé à l’e-mail de l’utilisateur lorsque le champ user_name est présent. |
JobsSource
JobsTaskDependency
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
résultat
|
outcome | string |
Ne peut être spécifié que sur les dépendances de tâche de condition. Résultat de la tâche dépendante qui doit être remplie pour que cette tâche s’exécute. |
|
task_key
|
task_key | string |
Le nom de la tâche sur laquelle dépend cette tâche. |
JobsTaskEmailNotifications
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
on_duration_warning_threshold_exceeded
|
on_duration_warning_threshold_exceeded | array of string |
Une liste d’adresses e-mail à notifier lorsque la durée d’une exécution dépasse le seuil spécifié pour la métrique de RUN_DURATION_SECONDS dans le champ d’intégrité. Si aucune règle pour la métrique RUN_DURATION_SECONDS n’est spécifiée dans le champ d’intégrité du travail, les notifications ne sont pas envoyées. |
|
on_failure
|
on_failure | array of string |
Liste des adresses e-mail à avertir lorsqu’une exécution échoue. Une exécution est considérée comme ayant échoué si elle se termine par un INTERNAL_ERROR life_cycle_state ou un échec, ou TIMED_OUT result_state. S’il n’est pas spécifié lors de la création, de la réinitialisation ou de la mise à jour de la liste est vide et que les notifications ne sont pas envoyées. |
|
on_start
|
on_start | array of string |
Liste des adresses e-mail à avertir lorsqu’une exécution commence. Si elle n’est pas spécifiée lors de la création, de la réinitialisation ou de la mise à jour du travail, la liste est vide et les notifications ne sont pas envoyées. |
|
on_streaming_backlog_exceeded
|
on_streaming_backlog_exceeded | array of string |
Liste des adresses e-mail à notifier quand des seuils de backlog de diffusion en continu sont dépassés pour n’importe quel flux. Les seuils de backlog de diffusion en continu peuvent être définis dans le champ d’intégrité à l’aide des métriques suivantes : STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS ou STREAMING_BACKLOG_FILES. Les alertes sont basées sur la moyenne de 10 minutes de ces métriques. Si le problème persiste, les notifications sont réententes toutes les 30 minutes. |
|
on_success
|
on_success | array of string |
Liste des adresses e-mail à avertir lorsqu’une exécution se termine correctement. Une exécution est considérée comme ayant réussi s’il se termine par un life_cycle_state TERMINATED et un result_state SUCCESS. Si elle n’est pas spécifiée lors de la création, de la réinitialisation ou de la mise à jour du travail, la liste est vide et les notifications ne sont pas envoyées. |
ComputeLibrary
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
cran
|
cran | ComputeRCranLibrary | |
|
jarre
|
jar | string |
URI de la bibliothèque JAR à installer. Les URI pris en charge incluent les chemins d’espace de travail, les chemins des volumes catalogue Unity et les URI ADLS. Par exemple : { « jar » : « /Workspace/path/to/library.jar » }, { « jar » : « /Volumes/path/to/library.jar » } ou { « jar » : « abfss://my-bucket/library.jar » }. Si ADLS est utilisé, vérifiez que le cluster dispose d’un accès en lecture sur la bibliothèque. Vous devrez peut-être lancer le cluster avec un principal de service Microsoft Entra ID pour accéder à l’URI ADLS. |
|
Maven
|
maven | ComputeMavenLibrary | |
|
pypi
|
pypi | ComputePythonPyPiLibrary | |
|
conditions requises
|
requirements | string |
URI du fichier requirements.txt à installer. Seuls les chemins d’accès de l’espace de travail et les chemins des volumes catalogue Unity sont pris en charge. Par exemple : { « requirements » : « /Workspace/path/to/requirements.txt" } ou { « requirements » : « /Volumes/path/to/requirements.txt" } |
|
whl
|
whl | string |
URI de la bibliothèque de roues à installer. Les URI pris en charge incluent les chemins d’espace de travail, les chemins des volumes catalogue Unity et les URI ADLS. Par exemple : { « whl » : « /Workspace/path/to/library.whl » }, { « whl » : « /Volumes/path/to/library.whl » } ou { « whl » : « abfss://my-bucket/library.whl » }. Si ADLS est utilisé, vérifiez que le cluster dispose d’un accès en lecture sur la bibliothèque. Vous devrez peut-être lancer le cluster avec un principal de service Microsoft Entra ID pour accéder à l’URI ADLS. |
JobsForEachTask
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
accès concurrentiel
|
concurrency | integer |
Nombre maximal maximal facultatif d’exécutions simultanées de la tâche. Définissez cette valeur si vous souhaitez pouvoir exécuter plusieurs exécutions de la tâche simultanément. |
|
entrées
|
inputs | string |
Tableau sur lequel effectuer une itération de tâche. Il peut s’agir d’une chaîne JSON ou d’une référence à un paramètre de tableau. |
|
tâche
|
task | Object |
ComputeRCranLibrary
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
paquet
|
package | string |
Nom du package CRAN à installer. |
|
Repo
|
repo | string |
Référentiel où se trouve le package. S’il n’est pas spécifié, le dépôt CRAN par défaut est utilisé. |
ComputeMavenLibrary
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
coordonnées
|
coordinates | string |
Coordonnées maven de style Gradle. Par exemple : « org.jsoup :jsoup :1.7.2 ». |
|
Exclusions
|
exclusions | array of string |
Liste des dépendances à exclure. Par exemple : ["slf4j :slf4j », « * :hadoop-client"]. Exclusions de dépendance Maven : https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html. |
|
Repo
|
repo | string |
Référentiel Maven à partir duquel installer le package Maven. S’il est omis, le référentiel central Maven et les packages Spark sont recherchés. |
ComputePythonPyPiLibrary
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
paquet
|
package | string |
Nom du package pypi à installer. Une spécification de version exacte facultative est également prise en charge. Exemples : « simplejson » et « simplejson==3.8.0 ». |
|
Repo
|
repo | string |
Référentiel où se trouve le package. S’il n’est pas spécifié, l’index pip par défaut est utilisé. |
JobsNotebookTask
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
base_parameters
|
base_parameters | object |
Paramètres de base à utiliser pour chaque exécution de ce travail. Si l’exécution est lancée par un appel à :method :jobs/run Now avec les paramètres spécifiés, les deux mappages de paramètres sont fusionnés. Si la même clé est spécifiée dans base_parameters et dans l’exécution, la valeur de run-now est utilisée. Utilisez des variables de paramètre de tâche pour définir des paramètres contenant des informations sur les exécutions de travaux. Si le notebook accepte un paramètre qui n’est pas spécifié dans le base_parameters du travail ou les paramètres de remplacement d’exécution, la valeur par défaut du bloc-notes est utilisée. Récupérez ces paramètres dans un notebook à l’aide de dbutils.widgets.get. La représentation JSON de ce champ ne peut pas dépasser 1 Mo. |
|
notebook_path
|
notebook_path | string |
Chemin d’accès du notebook à exécuter dans l’espace de travail Azure Databricks ou le référentiel distant. Pour les notebooks stockés dans l’espace de travail Azure Databricks, le chemin d’accès doit être absolu et commencer par une barre oblique. Pour les notebooks stockés dans un référentiel distant, le chemin d’accès doit être relatif. Ce champ est obligatoire. |
|
Source
|
source | JobsSource | |
|
warehouse_id
|
warehouse_id | string |
Warehouse_id facultatif pour exécuter le notebook sur un entrepôt SQL. Les entrepôts SQL classiques ne sont pas pris en charge. Utilisez des entrepôts SQL serverless ou pro. Notez que les entrepôts SQL prennent uniquement en charge les cellules SQL ; si le notebook contient des cellules non-SQL, l’exécution échoue. |
JobsTaskNotificationSettings
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
alert_on_last_attempt
|
alert_on_last_attempt | boolean |
Si la valeur est true, n’envoyez pas de notifications aux destinataires spécifiés dans on_start pour les exécutions retentées et n’envoyez pas de notifications aux destinataires spécifiés dans on_failure jusqu’à la dernière nouvelle tentative de l’exécution. |
|
no_alert_for_canceled_runs
|
no_alert_for_canceled_runs | boolean |
Si la valeur est true, n’envoyez pas de notifications aux destinataires spécifiés dans on_failure si l’exécution est annulée. |
|
no_alert_for_skipped_runs
|
no_alert_for_skipped_runs | boolean |
Si la valeur est true, n’envoyez pas de notifications aux destinataires spécifiés dans on_failure si l’exécution est ignorée. |
JobsPipelineTask
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
full_refresh
|
full_refresh | boolean |
Si la valeur est true, déclenche une actualisation complète sur la table dynamique delta. |
|
pipeline_id
|
pipeline_id | string |
Nom complet de la tâche de pipeline à exécuter. |
JobsPythonWheelTask
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
entry_point
|
entry_point | string |
Point d’entrée nommé à utiliser, s’il n’existe pas dans les métadonnées du package qu’il exécute directement à partir du package à l’aide de $packageName.$entryPoint() |
|
named_parameters
|
named_parameters | object |
Paramètres de ligne de commande passés à la tâche de roue Python sous la forme de [ »--name=task », « --data=dbfs :/path/to/data.json« ]. Laissez-le vide si les paramètres ne sont pas null. |
|
package_name
|
package_name | string |
Nom du package à exécuter |
|
parameters
|
parameters | array of string |
Paramètres de ligne de commande passés à la tâche de roue Python. Laissez-le vide si named_parameters n’est pas null. |
JobsRunIf
JobsRunJobTask
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
job_id
|
job_id | integer |
ID du travail à déclencher. |
|
job_parameters
|
job_parameters | object |
Paramètres au niveau du travail utilisés pour déclencher le travail. |
|
pipeline_params
|
pipeline_params | JobsPipelineParams |
JobsSparkJarTask
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
main_class_name
|
main_class_name | string |
Nom complet de la classe contenant la méthode principale à exécuter. Cette classe doit être contenue dans un fichier JAR fourni en tant que bibliothèque. Le code doit utiliser SparkContext.getOrCreate pour obtenir un contexte Spark ; sinon, les exécutions du travail échouent. |
|
parameters
|
parameters | array of string |
Paramètres passés à la méthode principale. Utilisez des variables de paramètre de tâche pour définir des paramètres contenant des informations sur les exécutions de travaux. |
JobsSparkPythonTask
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
parameters
|
parameters | array of string |
Paramètres de ligne de commande passés au fichier Python. Utilisez des variables de paramètre de tâche pour définir des paramètres contenant des informations sur les exécutions de travaux. |
|
python_file
|
python_file | string |
Fichier Python à exécuter. Les URI de fichier cloud (tels que dbfs :/, s3 :/, adls :/, gcs :/) et les chemins d’accès de l’espace de travail sont pris en charge. Pour les fichiers Python stockés dans l’espace de travail Azure Databricks, le chemin d’accès doit être absolu et commencer par /. Pour les fichiers stockés dans un référentiel distant, le chemin d’accès doit être relatif. Ce champ est obligatoire. |
|
Source
|
source | JobsSource |
JobsSparkSubmitTask
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
parameters
|
parameters | array of string |
Paramètres de ligne de commande passés à spark Submit. Utilisez des variables de paramètre de tâche pour définir des paramètres contenant des informations sur les exécutions de travaux. |
JobsWebhookNotifications
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
on_duration_warning_threshold_exceeded
|
on_duration_warning_threshold_exceeded | array of JobsWebhook |
Liste facultative des ID de notification système à appeler lorsque la durée d’une exécution dépasse le seuil spécifié pour la métrique de RUN_DURATION_SECONDS dans le champ d’intégrité. Un maximum de 3 destinations peut être spécifié pour la propriété on_duration_warning_threshold_exceeded. |
|
on_failure
|
on_failure | array of JobsWebhook |
Liste facultative des ID de notification système à appeler en cas d’échec de l’exécution. Un maximum de 3 destinations peut être spécifié pour la propriété on_failure. |
|
on_start
|
on_start | array of JobsWebhook |
Liste facultative des ID de notification système à appeler au démarrage de l’exécution. Un maximum de 3 destinations peut être spécifié pour la propriété on_start. |
|
on_streaming_backlog_exceeded
|
on_streaming_backlog_exceeded | array of JobsWebhook |
Liste facultative des ID de notification système à appeler quand des seuils de backlog de diffusion en continu sont dépassés pour n’importe quel flux. Les seuils de backlog de diffusion en continu peuvent être définis dans le champ d’intégrité à l’aide des métriques suivantes : STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS ou STREAMING_BACKLOG_FILES. Les alertes sont basées sur la moyenne de 10 minutes de ces métriques. Si le problème persiste, les notifications sont réententes toutes les 30 minutes. Un maximum de 3 destinations peut être spécifié pour la propriété on_streaming_backlog_exceeded. |
|
on_success
|
on_success | array of JobsWebhook |
Liste facultative des ID de notification système à appeler une fois l’exécution terminée. Un maximum de 3 destinations peut être spécifié pour la propriété on_success. |
JobsWebhook
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
pièce d'identité
|
id | string |
JobsTriggerSettings
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
file_arrival
|
file_arrival | JobsFileArrivalTriggerConfiguration | |
|
pause_status
|
pause_status | JobsPauseStatus | |
|
périodique
|
periodic | JobsPeriodicTriggerConfiguration |
JobsFileArrivalTriggerConfiguration
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
min_time_between_triggers_seconds
|
min_time_between_triggers_seconds | integer |
S’il est défini, le déclencheur démarre une exécution uniquement après la durée spécifiée passée depuis la dernière fois que le déclencheur a été déclenché. La valeur minimale autorisée est de 60 secondes |
|
URL
|
url | string |
URL à surveiller pour les arrivées de fichiers. Le chemin d’accès doit pointer vers la racine ou un sous-chemin de l’emplacement externe. |
|
wait_after_last_change_seconds
|
wait_after_last_change_seconds | integer |
S’il est défini, le déclencheur démarre une exécution uniquement après qu’aucune activité de fichier n’a eu lieu pendant la durée spécifiée. Cela permet d’attendre qu’un lot de fichiers entrants arrive avant de déclencher une exécution. La valeur minimale autorisée est de 60 secondes. |
JobsPeriodicTriggerConfiguration
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
interval
|
interval | integer |
Intervalle auquel le déclencheur doit s’exécuter. |
|
unité
|
unit | JobsPeriodicTriggerConfigurationTimeUnit |
JobsPeriodicTriggerConfigurationTimeUnit
JobsTriggerStateProto
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
file_arrival
|
file_arrival | JobsFileArrivalTriggerState |
JobsFileArrivalTriggerState
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
using_file_events
|
using_file_events | boolean |
Indique si le déclencheur tire parti des événements de fichier pour détecter les arrivées de fichiers. |
JobsRun
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
attempt_number
|
attempt_number | integer |
Numéro de séquence de cette tentative d’exécution pour une exécution de travail déclenchée. La tentative initiale d’une exécution comporte une attempt_number de 0. Si la tentative d’exécution initiale échoue et que le travail a une stratégie de nouvelle tentative (max_retries > 0), les exécutions suivantes sont créées avec un original_attempt_run_id de l’ID de la tentative d’origine et une attempt_number incrémentée. Les exécutions sont retentées uniquement jusqu’à ce qu’elles réussissent, et la attempt_number maximale est identique à la valeur max_retries pour le travail. |
|
cleanup_duration
|
cleanup_duration | integer |
Temps en millisecondes nécessaire pour mettre fin au cluster et nettoyer tous les artefacts associés. La durée d’une exécution de tâche est la somme des setup_duration, des execution_duration et des cleanup_duration. Le champ cleanup_duration est défini sur 0 pour les exécutions de tâches multitasque. La durée totale d’une exécution de travail multitask est la valeur du champ run_duration. |
|
cluster_instance
|
cluster_instance | JobsClusterInstance | |
|
cluster_spec
|
cluster_spec | JobsClusterSpec | |
|
creator_user_name
|
creator_user_name | string |
Nom d’utilisateur du créateur. Ce champ ne sera pas inclus dans la réponse si l’utilisateur a déjà été supprimé. |
|
descriptif
|
description | string |
Description de l’exécution |
|
effective_performance_target
|
effective_performance_target | JobsPerformanceTarget | |
|
end_time
|
end_time | integer |
Heure à laquelle cette exécution s’est terminée en millisecondes d’époque (millisecondes depuis 1/1/1970 UTC). Ce champ est défini sur 0 si le travail est toujours en cours d’exécution. |
|
execution_duration
|
execution_duration | integer |
La durée en millisecondes nécessaire pour exécuter les commandes dans le fichier JAR ou le notebook jusqu’à ce qu’elles aient terminé, échoué, expiré, été annulée ou rencontré une erreur inattendue. La durée d’une exécution de tâche est la somme des setup_duration, des execution_duration et des cleanup_duration. Le champ execution_duration est défini sur 0 pour les exécutions de tâches multitasque. La durée totale d’une exécution de travail multitask est la valeur du champ run_duration. |
|
git_source
|
git_source | JobsGitSource | |
|
has_more
|
has_more | boolean |
Indique si l’exécution a plus de propriétés de tableau (tâches, job_clusters) qui ne sont pas affichées. Ils sont accessibles via le point de terminaison :method :jobs/getrun. Il s’applique uniquement aux requêtes API 2.2 :method :jobs/listruns avec expand_tasks=true. |
|
job_clusters
|
job_clusters | array of JobsJobCluster |
Liste des spécifications de cluster de travaux qui peuvent être partagées et réutilisées par les tâches de ce travail. Les bibliothèques ne peuvent pas être déclarées dans un cluster de travaux partagés. Vous devez déclarer des bibliothèques dépendantes dans les paramètres de tâche. Si plus de 100 clusters de travaux sont disponibles, vous pouvez les paginer à l’aide de :method :jobs/getrun. |
|
job_id
|
job_id | integer |
Identificateur canonique du travail qui contient cette exécution. |
|
job_parameters
|
job_parameters | array of JobsJobParameter |
Paramètres au niveau du travail utilisés dans l’exécution |
|
job_run_id
|
job_run_id | integer |
ID de l’exécution du travail auquel appartient cette exécution. Pour les travaux hérités et à tâche unique, le champ est rempli avec l’ID d’exécution du travail. Pour les exécutions de tâches, le champ est rempli avec l’ID de l’exécution du travail auquel appartient l’exécution de la tâche. |
|
next_page_token
|
next_page_token | string |
Jeton qui peut être utilisé pour répertorier la page suivante des propriétés du tableau. |
|
original_attempt_run_id
|
original_attempt_run_id | integer |
Si cette exécution est une nouvelle tentative d’exécution antérieure, ce champ contient la run_id de la tentative d’origine ; sinon, c’est le même que le run_id. |
|
overriding_parameters
|
overriding_parameters | JobsRunParameters | |
|
queue_duration
|
queue_duration | integer |
Temps en millisecondes pendant lequel l’exécution a passé dans la file d’attente. |
|
repair_history
|
repair_history | array of JobsRepairHistoryItem |
Historique de réparation de l’exécution. |
|
run_duration
|
run_duration | integer |
Temps en millisecondes nécessaire à l’exécution du travail et à toutes ses réparations. |
|
run_id
|
run_id | integer |
Identificateur canonique de l’exécution. Cet ID est unique dans toutes les exécutions de tous les travaux. |
|
run_name
|
run_name | string |
Nom facultatif de l’exécution. La longueur maximale est de 4 096 octets dans l’encodage UTF-8. |
|
run_page_url
|
run_page_url | string |
URL de la page de détails de l’exécution. |
|
type d'exécution
|
run_type | JobsRunType | |
|
calendrier
|
schedule | JobsCronSchedule | |
|
setup_duration
|
setup_duration | integer |
Temps en millisecondes nécessaire pour configurer le cluster. Pour les exécutions qui s’exécutent sur de nouveaux clusters, il s’agit de l’heure de création du cluster, car les exécutions qui s’exécutent sur des clusters existants cette fois doivent être très courtes. La durée d’une exécution de tâche est la somme des setup_duration, des execution_duration et des cleanup_duration. Le champ setup_duration est défini sur 0 pour les exécutions de tâches multitasque. La durée totale d’une exécution de travail multitask est la valeur du champ run_duration. |
|
heure de début
|
start_time | integer |
Heure à laquelle cette exécution a commencé en millisecondes d’époque (millisecondes depuis 1/1/1970 UTC). Cela peut ne pas être le moment où la tâche de travail commence à s’exécuter, par exemple, si le travail est planifié pour s’exécuter sur un nouveau cluster, c’est l’heure à laquelle l’appel de création du cluster est émis. |
|
status
|
status | JobsRunStatus | |
|
tâches
|
tasks | array of JobsRunTask |
Liste des tâches effectuées par l’exécution. Chaque tâche a sa propre run_id que vous pouvez utiliser pour appeler JobsGetOutput pour récupérer les résutls d’exécution. Si plus de 100 tâches sont disponibles, vous pouvez les paginer à l’aide de :method :jobs/getrun. Utilisez le champ next_page_token à la racine de l’objet pour déterminer si d’autres résultats sont disponibles. |
|
trigger
|
trigger | JobsTriggerType | |
|
trigger_info
|
trigger_info | JobsTriggerInfo |
JobsClusterInstance
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
cluster_id
|
cluster_id | string |
Identificateur canonique du cluster utilisé par une exécution. Ce champ est toujours disponible pour les exécutions sur des clusters existants. Pour les exécutions sur de nouveaux clusters, elle devient disponible une fois le cluster créé. Cette valeur peut être utilisée pour afficher les journaux en accédant à /#setting/sparkui/$cluster_id/driver-logs. Les journaux continuent d’être disponibles une fois l’exécution terminée. La réponse n’inclut pas ce champ si l’identificateur n’est pas encore disponible. |
|
spark_context_id
|
spark_context_id | string |
Identificateur canonique pour le contexte Spark utilisé par une exécution. Ce champ est renseigné une fois que l’exécution commence l’exécution. Cette valeur peut être utilisée pour afficher l’interface utilisateur Spark en accédant à /#setting/sparkui/$cluster_id/$spark_context_id. L’interface utilisateur Spark continue d’être disponible une fois l’exécution terminée. La réponse n’inclut pas ce champ si l’identificateur n’est pas encore disponible. |
JobsClusterSpec
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
existing_cluster_id
|
existing_cluster_id | string |
Si existing_cluster_id, ID d’un cluster existant utilisé pour toutes les exécutions. Lors de l’exécution de travaux ou de tâches sur un cluster existant, vous devrez peut-être redémarrer manuellement le cluster s’il cesse de répondre. Nous vous suggérons d’exécuter des tâches et des tâches sur de nouveaux clusters pour une plus grande fiabilité |
|
job_cluster_key
|
job_cluster_key | string |
Si job_cluster_key, cette tâche est exécutée en réutilisant le cluster spécifié dans job.settings.job_clusters. |
|
libraries
|
libraries | array of ComputeLibrary |
Liste facultative des bibliothèques à installer sur le cluster. La valeur par défaut est une liste vide. |
|
new_cluster
|
new_cluster | ComputeClusterSpec |
JobsJobParameter
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
par défaut
|
default | string |
Valeur par défaut facultative du paramètre |
|
nom
|
name | string |
Nom du paramètre |
|
value
|
value | string |
Valeur utilisée dans l’exécution |
JobsRunParameters
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
pipeline_params
|
pipeline_params | JobsPipelineParams |
JobsRepairHistoryItem
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
effective_performance_target
|
effective_performance_target | JobsPerformanceTarget | |
|
end_time
|
end_time | integer |
Heure de fin de l’exécution (réparée). |
|
pièce d'identité
|
id | integer |
ID de la réparation. Retourné uniquement pour les éléments qui représentent une réparation dans repair_history. |
|
heure de début
|
start_time | integer |
Heure de début de l’exécution (réparée). |
|
status
|
status | JobsRunStatus | |
|
task_run_ids
|
task_run_ids | array of integer |
ID d’exécution de la tâche exécutée dans le cadre de cet élément d’historique de réparation. |
|
type
|
type | JobsRepairHistoryItemType |
JobsRunStatus
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
queue_details
|
queue_details | JobsQueueDetails | |
|
état
|
state | JobsRunLifecycleStateV2State | |
|
termination_details
|
termination_details | JobsTerminationDetails |
JobsQueueDetails
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
code
|
code | JobsQueueDetailsCodeCode | |
|
Message
|
message | string |
Message descriptif avec les détails de mise en file d’attente. Ce champ n’est pas structuré et son format exact est susceptible de changer. |
JobsQueueDetailsCodeCode
JobsRunLifecycleStateV2State
JobsTerminationDetails
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
code
|
code | JobsTerminationCodeCode | |
|
Message
|
message | string |
Message descriptif avec les détails de l’arrêt. Ce champ n’est pas structuré et le format peut changer. |
|
type
|
type | JobsTerminationTypeType |
JobsTerminationCodeCode
JobsTerminationTypeType
JobsRepairHistoryItemType
JobsRunType
JobsRunTask
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
attempt_number
|
attempt_number | integer |
Numéro de séquence de cette tentative d’exécution pour une exécution de travail déclenchée. La tentative initiale d’une exécution comporte une attempt_number de 0. Si la tentative d’exécution initiale échoue et que le travail a une stratégie de nouvelle tentative (max_retries > 0), les exécutions suivantes sont créées avec un original_attempt_run_id de l’ID de la tentative d’origine et une attempt_number incrémentée. Les exécutions sont retentées uniquement jusqu’à ce qu’elles réussissent, et la attempt_number maximale est identique à la valeur max_retries pour le travail. |
|
clean_rooms_notebook_task
|
clean_rooms_notebook_task | Object | |
|
cleanup_duration
|
cleanup_duration | integer |
Temps en millisecondes nécessaire pour mettre fin au cluster et nettoyer tous les artefacts associés. La durée d’une exécution de tâche est la somme des setup_duration, des execution_duration et des cleanup_duration. Le champ cleanup_duration est défini sur 0 pour les exécutions de tâches multitasque. La durée totale d’une exécution de travail multitask est la valeur du champ run_duration. |
|
cluster_instance
|
cluster_instance | JobsClusterInstance | |
|
condition_task
|
condition_task | JobsRunConditionTask | |
|
dashboard_task
|
dashboard_task | Object | |
|
dbt_task
|
dbt_task | Object | |
|
depends_on
|
depends_on | array of JobsTaskDependency |
Tableau facultatif d’objets spécifiant le graphique de dépendance de la tâche. Toutes les tâches spécifiées dans ce champ doivent se terminer correctement avant d’exécuter cette tâche. La clé est task_key, et la valeur est le nom attribué à la tâche dépendante. |
|
descriptif
|
description | string |
Description facultative de cette tâche. |
|
effective_performance_target
|
effective_performance_target | JobsPerformanceTarget | |
|
email_notifications
|
email_notifications | JobsJobEmailNotifications | |
|
end_time
|
end_time | integer |
Heure à laquelle cette exécution s’est terminée en millisecondes d’époque (millisecondes depuis 1/1/1970 UTC). Ce champ est défini sur 0 si le travail est toujours en cours d’exécution. |
|
environment_key
|
environment_key | string |
Clé qui fait référence à une spécification d’environnement dans un travail. Ce champ est requis pour les tâches python, de roue Python et de dbt lors de l’utilisation du calcul serverless. |
|
execution_duration
|
execution_duration | integer |
La durée en millisecondes nécessaire pour exécuter les commandes dans le fichier JAR ou le notebook jusqu’à ce qu’elles aient terminé, échoué, expiré, été annulée ou rencontré une erreur inattendue. La durée d’une exécution de tâche est la somme des setup_duration, des execution_duration et des cleanup_duration. Le champ execution_duration est défini sur 0 pour les exécutions de tâches multitasque. La durée totale d’une exécution de travail multitask est la valeur du champ run_duration. |
|
existing_cluster_id
|
existing_cluster_id | string |
Si existing_cluster_id, ID d’un cluster existant utilisé pour toutes les exécutions. Lors de l’exécution de travaux ou de tâches sur un cluster existant, vous devrez peut-être redémarrer manuellement le cluster s’il cesse de répondre. Nous vous suggérons d’exécuter des tâches et des tâches sur de nouveaux clusters pour une plus grande fiabilité |
|
for_each_task
|
for_each_task | Object | |
|
git_source
|
git_source | JobsGitSource | |
|
job_cluster_key
|
job_cluster_key | string |
Si job_cluster_key, cette tâche est exécutée en réutilisant le cluster spécifié dans job.settings.job_clusters. |
|
libraries
|
libraries | array of Object |
Liste facultative des bibliothèques à installer sur le cluster. La valeur par défaut est une liste vide. |
|
new_cluster
|
new_cluster | Object | |
|
notebook_task
|
notebook_task | JobsNotebookTask | |
|
notification_settings
|
notification_settings | Object | |
|
pipeline_task
|
pipeline_task | Object | |
|
power_bi_task
|
power_bi_task | Object | |
|
python_wheel_task
|
python_wheel_task | Object | |
|
queue_duration
|
queue_duration | integer |
Temps en millisecondes pendant lequel l’exécution a passé dans la file d’attente. |
|
resolved_values
|
resolved_values | JobsResolvedValues | |
|
run_duration
|
run_duration | integer |
Temps en millisecondes nécessaire à l’exécution du travail et à toutes ses réparations. |
|
run_id
|
run_id | integer |
ID de l’exécution de la tâche. |
|
run_if
|
run_if | JobsRunIf | |
|
run_job_task
|
run_job_task | JobsRunJobTask | |
|
run_page_url
|
run_page_url | string | |
|
setup_duration
|
setup_duration | integer |
Temps en millisecondes nécessaire pour configurer le cluster. Pour les exécutions qui s’exécutent sur de nouveaux clusters, il s’agit de l’heure de création du cluster, car les exécutions qui s’exécutent sur des clusters existants cette fois doivent être très courtes. La durée d’une exécution de tâche est la somme des setup_duration, des execution_duration et des cleanup_duration. Le champ setup_duration est défini sur 0 pour les exécutions de tâches multitasque. La durée totale d’une exécution de travail multitask est la valeur du champ run_duration. |
|
spark_jar_task
|
spark_jar_task | Object | |
|
spark_python_task
|
spark_python_task | Object | |
|
spark_submit_task
|
spark_submit_task | Object | |
|
sql_task
|
sql_task | Object | |
|
heure de début
|
start_time | integer |
Heure à laquelle cette exécution a commencé en millisecondes d’époque (millisecondes depuis 1/1/1970 UTC). Cela peut ne pas être le moment où la tâche de travail commence à s’exécuter, par exemple, si le travail est planifié pour s’exécuter sur un nouveau cluster, c’est l’heure à laquelle l’appel de création du cluster est émis. |
|
status
|
status | JobsRunStatus | |
|
task_key
|
task_key | string |
Nom unique de la tâche. Ce champ est utilisé pour faire référence à cette tâche à partir d’autres tâches. Ce champ est obligatoire et doit être unique dans son travail parent. Lors de la mise à jour ou de la réinitialisation, ce champ est utilisé pour référencer les tâches à mettre à jour ou à réinitialiser. |
|
timeout_seconds
|
timeout_seconds | integer |
Délai d’expiration facultatif appliqué à chaque exécution de cette tâche de travail. La valeur 0 signifie qu’aucun délai d’expiration n’est nécessaire. |
|
webhook_notifications
|
webhook_notifications | Object |
JobsRunConditionTask
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
gauche
|
left | string |
Opérande gauche de la tâche de condition. Il peut s’agir d’une valeur de chaîne, d’un état de travail ou d’une référence de paramètre. |
|
op
|
op | JobsConditionTaskOp | |
|
résultat
|
outcome | string |
Résultat de l’évaluation de l’expression de condition. Renseigné si la tâche a été terminée avec succès. Peut être « true » ou « false » |
|
Droite
|
right | string |
Opérande droit de la tâche de condition. Il peut s’agir d’une valeur de chaîne, d’un état de travail ou d’une référence de paramètre. |
JobsTriggerType
JobsTriggerInfo
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
run_id
|
run_id | integer |
ID d’exécution de la tâche Exécuter le travail |
JobsRunOutput
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
clean_rooms_notebook_output
|
clean_rooms_notebook_output | Object | |
|
dashboard_output
|
dashboard_output | Object | |
|
dbt_output
|
dbt_output | Object | |
|
erreur
|
error | string |
Message d’erreur indiquant pourquoi une tâche a échoué ou pourquoi la sortie n’est pas disponible. Le message n’est pas structuré et son format exact est susceptible de changer. |
|
error_trace
|
error_trace | string |
S’il y a eu une erreur lors de l’exécution, ce champ contient des traces de pile disponibles. |
|
info
|
info | string | |
|
logs
|
logs | string |
Sortie des tâches qui écrivent dans des flux standard (stdout/stderr) tels que spark_jar_task, spark_python_task, python_wheel_task. Elle n’est pas prise en charge pour les notebook_task, les pipeline_task ou les spark_submit_task. Azure Databricks restreint cette API pour retourner les 5 derniers Mo de ces journaux. |
|
logs_truncated
|
logs_truncated | boolean |
Indique si les journaux sont tronqués. |
|
metadata
|
metadata | Object | |
|
notebook_output
|
notebook_output | JobsNotebookOutput | |
|
run_job_output
|
run_job_output | JobsRunJobOutput | |
|
sql_output
|
sql_output | Object |
JobsNotebookOutput
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
résultat
|
result | string |
Valeur transmise à dbutils.notebook.exit(). Azure Databricks restreint cette API pour retourner les 5 premiers Mo de la valeur. Pour obtenir un résultat plus important, votre travail peut stocker les résultats dans un service de stockage cloud. Ce champ est absent si dbutils.notebook.exit() n’a jamais été appelé. |
|
tronqué
|
truncated | boolean |
Indique si le résultat a été tronqué ou non. |
JobsRunJobOutput
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
run_id
|
run_id | integer |
ID d’exécution de l’exécution du travail déclenché |
JobsResolvedValues
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
condition_task
|
condition_task | JobsResolvedConditionTaskValues | |
|
dbt_task
|
dbt_task | JobsResolvedDbtTaskValues | |
|
notebook_task
|
notebook_task | JobsResolvedNotebookTaskValues | |
|
python_wheel_task
|
python_wheel_task | JobsResolvedPythonWheelTaskValues | |
|
run_job_task
|
run_job_task | JobsResolvedRunJobTaskValues | |
|
simulation_task
|
simulation_task | JobsResolvedParamPairValues | |
|
spark_jar_task
|
spark_jar_task | JobsResolvedStringParamsValues | |
|
spark_python_task
|
spark_python_task | JobsResolvedStringParamsValues | |
|
spark_submit_task
|
spark_submit_task | JobsResolvedStringParamsValues | |
|
sql_task
|
sql_task | JobsResolvedParamPairValues |
JobsResolvedConditionTaskValues
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
gauche
|
left | string | |
|
Droite
|
right | string |
JobsResolvedDbtTaskValues
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
commands
|
commands | array of string |
JobsResolvedNotebookTaskValues
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
base_parameters
|
base_parameters | object |
JobsResolvedPythonWheelTaskValues
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
named_parameters
|
named_parameters | object | |
|
parameters
|
parameters | array of string |
JobsResolvedRunJobTaskValues
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
job_parameters
|
job_parameters | object | |
|
parameters
|
parameters | object |
JobsResolvedParamPairValues
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
parameters
|
parameters | object |
JobsResolvedStringParamsValues
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
parameters
|
parameters | array of string |