Transformer des données en exécutant un travail Databricks

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil / Astuce

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

L’activité de tâche Azure Databricks dans un pipeline exécute des tâches Databricks dans votre espace de travail Azure Databricks, y compris les tâches sans serveur. Cet article s'appuie sur l'article Activités de transformation des données qui présente une vue d'ensemble de la transformation des données et les activités de transformation prises en charge. Azure Databricks est une plateforme gérée pour exécuter Apache Spark.

Vous pouvez créer un travail Databricks directement via l’interface utilisateur d’Azure Data Factory Studio.

Ajouter une activité de travail pour Azure Databricks à un pipeline avec l’interface utilisateur

Pour utiliser une activité de travail pour Azure Databricks dans un pipeline, procédez comme suit :

Recherchez Travail dans le volet Activités du pipeline, puis faites glisser une activité Travail dans le canevas du pipeline.
Sélectionnez la nouvelle activité de travail sur le canevas si elle n’est pas déjà sélectionnée.
Sélectionnez l’onglet Azure Databricks pour sélectionner ou créer un service lié Azure Databricks.

Remarque

L’activité de travail Azure Databricks s’exécute automatiquement sur des clusters serverless. Vous n’avez donc pas besoin de spécifier un cluster dans votre configuration de service lié. Choisissez plutôt l’option Serverless .
Sélectionnez l’onglet Paramètres et spécifiez le travail à exécuter sur Azure Databricks, les paramètres de base facultatifs à passer au travail et les autres bibliothèques à installer sur le cluster pour exécuter le travail.

Définition de l’activité de travail Databricks

Voici l’exemple de définition JSON d’une activité de travail Databricks :

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksJob",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedservice",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "jobID": "012345678910112",
            "jobParameters": {
                "testParameter": "testValue"
            },
        }
    }
}

Propriétés de l’activité Travail Databricks

Le tableau suivant décrit les propriétés JSON utilisées dans la définition JSON :

Propriété	Descriptif	Obligatoire
nom	Nom de l'activité dans le pipeline.	Oui
descriptif	Texte décrivant l’activité.	Non
type	Pour l’activité Travail Databricks, le type d’activité est DatabricksJob.	Oui
nomDuServiceLié	Nom du service lié Databricks sur lequel la tâche Databricks s’exécute. Pour en savoir plus sur ce service lié, consultez l’article Services liés de calcul.	Oui
jobId	ID du travail à exécuter dans l’espace de travail Databricks.	Oui
paramètres de travail	Tableau de paires clé-valeur. Les paramètres de travail peuvent être utilisés pour chaque exécution d’activité. Si le travail accepte un paramètre qui n’est pas spécifié, la valeur par défaut du travail sera utilisée. Pour en savoir plus sur les paramètres, consultez Jobs Databricks.	Non

Passage de paramètres entre des travaux et des pipelines

Vous pouvez transmettre des paramètres à des travaux à l’aide de la propriété jobParameters dans l’activité Databricks.

Remarque

Les paramètres de travail ne sont pris en charge que dans le runtime d’intégration auto-hébergé version 5.52.0.0 ou ultérieure.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2025-10-06