Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
S’APPLIQUE À :
Azure Data Factory
Azure Synapse Analytics
Conseil / Astuce
Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !
L’activité de tâche Azure Databricks dans un pipeline exécute des tâches Databricks dans votre espace de travail Azure Databricks, y compris les tâches sans serveur. Cet article s'appuie sur l'article Activités de transformation des données qui présente une vue d'ensemble de la transformation des données et les activités de transformation prises en charge. Azure Databricks est une plateforme gérée pour exécuter Apache Spark.
Vous pouvez créer un travail Databricks directement via l’interface utilisateur d’Azure Data Factory Studio.
Ajouter une activité de travail pour Azure Databricks à un pipeline avec l’interface utilisateur
Pour utiliser une activité de travail pour Azure Databricks dans un pipeline, procédez comme suit :
Recherchez Travail dans le volet Activités du pipeline, puis faites glisser une activité Travail dans le canevas du pipeline.
Sélectionnez la nouvelle activité de travail sur le canevas si elle n’est pas déjà sélectionnée.
Sélectionnez l’onglet Azure Databricks pour sélectionner ou créer un service lié Azure Databricks.
Remarque
L’activité de travail Azure Databricks s’exécute automatiquement sur des clusters serverless. Vous n’avez donc pas besoin de spécifier un cluster dans votre configuration de service lié. Choisissez plutôt l’option Serverless .
Sélectionnez l’onglet Paramètres et spécifiez le travail à exécuter sur Azure Databricks, les paramètres de base facultatifs à passer au travail et les autres bibliothèques à installer sur le cluster pour exécuter le travail.
Définition de l’activité de travail Databricks
Voici l’exemple de définition JSON d’une activité de travail Databricks :
{
"activity": {
"name": "MyActivity",
"description": "MyActivity description",
"type": "DatabricksJob",
"linkedServiceName": {
"referenceName": "MyDatabricksLinkedservice",
"type": "LinkedServiceReference"
},
"typeProperties": {
"jobID": "012345678910112",
"jobParameters": {
"testParameter": "testValue"
},
}
}
}
Propriétés de l’activité Travail Databricks
Le tableau suivant décrit les propriétés JSON utilisées dans la définition JSON :
| Propriété | Descriptif | Obligatoire |
|---|---|---|
| nom | Nom de l'activité dans le pipeline. | Oui |
| descriptif | Texte décrivant l’activité. | Non |
| type | Pour l’activité Travail Databricks, le type d’activité est DatabricksJob. | Oui |
| nomDuServiceLié | Nom du service lié Databricks sur lequel la tâche Databricks s’exécute. Pour en savoir plus sur ce service lié, consultez l’article Services liés de calcul. | Oui |
| jobId | ID du travail à exécuter dans l’espace de travail Databricks. | Oui |
| paramètres de travail | Tableau de paires clé-valeur. Les paramètres de travail peuvent être utilisés pour chaque exécution d’activité. Si le travail accepte un paramètre qui n’est pas spécifié, la valeur par défaut du travail sera utilisée. Pour en savoir plus sur les paramètres, consultez Jobs Databricks. | Non |
Passage de paramètres entre des travaux et des pipelines
Vous pouvez transmettre des paramètres à des travaux à l’aide de la propriété jobParameters dans l’activité Databricks.
Remarque
Les paramètres de travail ne sont pris en charge que dans le runtime d’intégration auto-hébergé version 5.52.0.0 ou ultérieure.