Partager via


Transformer les données en exécutant un notebook

Utilisez l’activité Notebook pour exécuter des notebooks que vous créez dans Microsoft Fabric dans le cadre de vos pipelines Data Factory. Les blocs-notes vous permettent d’exécuter des travaux Apache Spark pour les intégrer, nettoyer ou transformer vos données dans le cadre de vos flux de travail de données. Il est facile d’ajouter une activité Notebook à vos pipelines dans Fabric, et ce guide vous guide tout au long de chaque étape.

Prérequis

Pour commencer, vous devez remplir les conditions préalables suivantes :

Créer une activité de cahier

  1. Créez un nouveau pipeline dans votre espace de travail.

  2. Recherchez Notebook dans le volet Activités du pipeline et sélectionnez-le pour l'ajouter au canevas du pipeline.

    Capture d'écran de l'interface utilisateur Fabric avec le volet Activités et l'activité Notebook en surbrillance.

  3. Sélectionnez la nouvelle activité Notebook sur le canevas si elle n'est pas déjà sélectionnée.

    Capture d'écran montrant l'onglet Paramètres généraux de l'activité Notebook.

    Reportez-vous aux instructions relatives aux paramètres Général pour configurer l’onglet Paramètres Général .

Configurer les paramètres du bloc-notes

Sélectionnez l’onglet Paramètres.

Sous Connexion, sélectionnez la méthode d’authentification pour l’exécution du notebook et fournissez les informations d’identification requises ou la configuration d’identité en fonction de votre sélection :

  • Principal de service (SPN) : recommandé pour les scénarios de production pour garantir une exécution sécurisée et automatisée sans compter sur les informations d’identification de l’utilisateur.
  • Identité de l’espace de travail (WI) : idéal pour les environnements managés où la gouvernance centralisée des identités est requise.

Sélectionnez un bloc-notes existant dans la liste déroulante Notebook , puis spécifiez éventuellement les paramètres à passer au bloc-notes.

Capture d'écran montrant l'onglet Paramètres du notebook mettant en évidence l'onglet, où choisir un notebook et où ajouter des paramètres.

Utilisation de l’identité de l’espace de travail Fabric (WI) dans l’activité Notebook

  1. Créer l’identité de l’espace de travail Vous devez activer WI dans votre espace de travail (cela peut prendre un moment de chargement). Créez une identité d’espace de travail dans votre espace de travail Fabric. Consultez la documentation sur l’identité de l’espace de travail.

  2. Activer les paramètres au niveau du locataire Dans le portail d’administration Fabric, activez le paramètre de locataire suivant : les principaux de service peuvent appeler des API publiques Fabric. Ce paramètre est requis pour que l’identité de l’espace de travail s’authentifie correctement. Consultez la documentation sur Activer l’authentification du principal de service pour les API d’administration.

  3. Accorder des autorisations d’espace de travail à l’identité de l’espace de travail Ouvrez l’espace de travail, sélectionnez Gérer l’accès et attribuez des autorisations à l’identité de l’espace de travail. L’accès contributeur est suffisant pour la plupart des scénarios. Consultez la documentation sur Donner aux utilisateurs l’accès aux espaces de travail.

Définir la balise de session

Pour réduire le temps nécessaire à l’exécution de votre travail de bloc-notes, vous pourriez éventuellement définir une balise de session. La définition de la balise de session indique à Spark de réutiliser n’importe quelle session Spark existante, ce qui réduit le temps de démarrage. Toute valeur de chaîne arbitraire peut être utilisée pour la balise de session. Si aucune session n’existe, une nouvelle session est créée à l’aide de la valeur de balise.

Capture d’écran montrant l’onglet Paramètres du bloc-notes mettant en surbrillance l’onglet où il convient d’ajouter une balise de session.

Remarque

Pour pouvoir utiliser la balise de session, le mode haute concurrence pour le pipeline exécutant plusieurs blocs-notes doit être activé. Cette option se trouve sous le mode haute concurrence pour les paramètres Spark dans les paramètres de l’espace de travail

Capture d’écran montrant l’onglet Paramètres de l’espace de travail mettant en surbrillance l’onglet, où il convient d’activer le mode d’accès concurrentiel élevé pour les pipelines exécutant plusieurs notebooks.

Enregistrer et exécuter ou planifier le pipeline

Basculez vers l'onglet Accueil en haut de l'éditeur de pipeline et sélectionnez le bouton Enregistrer pour enregistrer votre pipeline. Sélectionnez Exécuter pour l'exécuter directement ou Planifier pour le planifier. Vous pouvez également afficher l'historique d'exécution ici ou configurer d'autres paramètres.

Capture d'écran montrant l'onglet Accueil dans l'éditeur de pipeline avec le nom de l'onglet, les boutons Enregistrer, Exécuter et Planifier en surbrillance.