Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Pour l’enrichissement des données et les insights métier, Microsoft Fabric offre des expériences de science des données qui permettent aux utilisateurs de créer des flux de travail de science des données de bout en bout. Pour commencer, consultez le didacticiel de bout en bout de la science des données.
Vous pouvez effectuer un large éventail d’activités dans l’ensemble du processus de science des données :
- exploration des données
- préparation des données
- nettoyage des données
- expérimentation
- modelage
- évaluation de modèle
- fournissant des analyses prédictives aux rapports BI
Les utilisateurs de Microsoft Fabric peuvent accéder à une page d’accueil Data Science. Ensuite, ils peuvent découvrir et accéder à différentes ressources pertinentes, comme illustré dans la capture d’écran suivante :
La plupart des projets Machine Learning suivent le processus de science des données. À un niveau élevé, ce processus implique les étapes suivantes :
- formulation du problème et idéation
- découverte et prétraitement des données
- expérimentation et modélisation
- enrichir et opérationnaliser
- Générer des insights
Cet article décrit les fonctionnalités de Microsoft Fabric Science des données du point de vue du processus de science des données. Pour chaque étape du processus de science des données, cet article résume les fonctionnalités de Microsoft Fabric qui peuvent vous aider.
Formulation et idéation du problème
Les utilisateurs Science des données de Microsoft Fabric travaillent sur la même plateforme que les utilisateurs professionnels et les analystes. Le partage de données et la collaboration deviennent ainsi plus transparents entre différents rôles. Les analystes peuvent facilement partager des rapports et des jeux de données Power BI avec des professionnels de la science des données. La facilité de collaboration entre les rôles dans Microsoft Fabric rend les transitions plus fluides au cours de la phase de définition du problème.
Découverte et prétraitement des données
Les utilisateurs de Microsoft Fabric peuvent interagir avec les données dans OneLake à l’aide de la ressource Lakehouse. Pour parcourir et interagir avec les données, Lakehouse s’attache facilement à un bloc-notes. Les utilisateurs peuvent facilement lire les données d’un Lakehouse directement dans un dataframe Pandas. Lors de l'exploration, la lecture fluide des données de OneLake devient alors possible.
Un ensemble puissant d’outils existe pour l’ingestion des données et les pipelines d’orchestration des données avec des pipelines d’intégration de données, une partie intégrée en mode natif de Microsoft Fabric. Les pipelines faciles à générer peuvent accéder aux données et les transformer dans un format que le Machine Learning peut consommer.
Exploration des données
Une partie importante du processus de Machine Learning implique de comprendre les données par le biais de l’exploration et de la visualisation.
En fonction de l’emplacement de stockage des données, Microsoft Fabric propose des outils permettant d’explorer et de préparer les données pour l’analytique et le Machine Learning. Les blocs-notes eux-mêmes deviennent des outils d’exploration de données efficaces et efficaces.
Apache Spark et Python pour la préparation des données
Microsoft Fabric peut transformer, préparer et explorer vos données à grande échelle. Avec Spark, les utilisateurs peuvent utiliser des outils PySpark/Python, Scala et SparkR/SparklyR pour prétraiter les données à grande échelle. De puissantes bibliothèques de visualisation open source peuvent améliorer l’expérience d’exploration des données pour de meilleures compréhensions des données.
Data Wrangler pour un nettoyage transparent des données
Pour utiliser Data Wrangler, l’interface Notebook de Microsoft Fabric a ajouté une fonctionnalité d’outil de code qui prépare les données et génère du code Python. Cette expérience facilite l’accélération des tâches fastidieuses et banales , par exemple le nettoyage des données. Avec cela, vous pouvez également générer l’automatisation et la répétabilité par le biais du code généré. Pour en savoir plus sur Data Wrangler, consultez la section Data Wrangler de ce document.
Expérimentation et modélisation ML
Avec des outils tels que PySpark/Python et SparklyR/R, les notebooks peuvent gérer l'entraînement des modèles de machine learning. Les algorithmes et bibliothèques Machine Learning peuvent aider à entraîner des modèles Machine Learning. Les outils de gestion de bibliothèque peuvent installer ces bibliothèques et algorithmes. Les utilisateurs peuvent ensuite utiliser des bibliothèques machine learning populaires pour suivre leur formation de modèle ML dans Microsoft Fabric. En outre, les bibliothèques populaires comme Scikit Learn peuvent également développer des modèles.
Les expériences et les exécutions MLflow peuvent suivre l’entraînement du modèle ML. Pour consigner des expériences et des modèles, Microsoft Fabric offre une expérience MLflow intégrée qui prend en charge l’interaction. En savoir plus sur l’utilisation de MLflow pour suivre les expériences et gérer des modèles dans Microsoft Fabric.
SynapseML
Microsoft possède et exploite la bibliothèque open source SynapseML (anciennement MMLSpark). Il simplifie la création de pipelines de machine learning hautement extensibles. En tant qu’écosystème d’outils, il étend l’infrastructure Apache Spark dans plusieurs nouvelles directions. SynapseML unifie plusieurs frameworks Machine Learning existants et de nouveaux algorithmes Microsoft en une API unique et évolutive. La bibliothèque SynapseML open source comprend un écosystème riche d’outils ML pour le développement de modèles prédictifs et utilise des modèles IA préentraînés à partir de services Azure AI. Pour plus d’informations, consultez la ressource SynapseML .
Enrichir et opérationnaliser
Les notebooks peuvent gérer le calcul par lots des scores des modèles de machine learning avec des bibliothèques open source pour la prédiction. Ils peuvent également gérer la fonction de prédiction Spark universelle scalable de Microsoft Fabric. Cette fonction prend en charge les modèles empaquetés MLflow dans le registre de modèles Microsoft Fabric.
Obtenir des informations
Dans Microsoft Fabric, vous pouvez facilement écrire des valeurs prédites dans OneLake. À partir de là, les rapports Power BI peuvent les consommer en toute fluidité avec le mode Power BI Direct Lake. Les praticiens de la science des données peuvent ensuite facilement partager les résultats de leur travail avec les parties prenantes et simplifier l’opérationnalisation.
Vous pouvez utiliser les fonctionnalités de planification de notebooks pour programmer l'exécution de notebooks qui contiennent un scoring par lots. Vous pouvez également planifier l'évaluation par lots dans le cadre d’activités de pipeline ou de jobs Spark. Avec le mode Direct Lake dans Microsoft Fabric, Power BI obtient automatiquement les dernières prédictions sans avoir besoin de chargements de données ou d’actualisations.
Exploration des données avec le lien sémantique
Les scientifiques des données et les analystes métier passent beaucoup de temps à essayer de comprendre, nettoyer et transformer des données avant de commencer une analyse significative. Les analystes métier travaillent généralement avec des modèles sémantiques et encodent leur connaissance du domaine et leur logique métier dans les mesures Power BI. En revanche, les scientifiques des données peuvent travailler avec les mêmes données, mais utilisent généralement un autre environnement de code ou langage. Avec un lien sémantique, les scientifiques des données peuvent établir une connexion entre les modèles sémantiques Power BI et la science des données Synapse dans l’expérience Microsoft Fabric via la bibliothèque Python SemPy. Pour simplifier l’analytique des données, SemPy capture et utilise la sémantique des données lorsque les utilisateurs effectuent différentes transformations sur les modèles sémantiques. Lorsque les scientifiques des données utilisent un lien sémantique, ils peuvent
- éviter la réimplémentation de la logique métier ainsi que des connaissances de domaine dans leur code
- accéder et utiliser facilement des mesures Power BI dans leur code
- utiliser la sémantique pour alimenter de nouvelles expériences , par exemple, des fonctions sémantiques
- explorer et valider des dépendances fonctionnelles et des relations entre les données
Lorsque les organisations utilisent SemPy, elles peuvent s’attendre à
- une productivité accrue et une collaboration plus rapide entre les équipes qui opèrent sur les mêmes jeux de données
- collaboration croisée accrue entre les équipes d'intelligence d'affaires et d'intelligence artificielle
- réduction de l’ambiguïté et d’une courbe d’apprentissage plus facile lors de l’intégration à un nouveau modèle ou à un nouveau jeu de données
Pour plus d’informations sur le lien sémantique, consultez Qu’est-ce que le lien sémantique ?.
Contenu connexe
- Consultez les didacticiels de science des données pour commencer à utiliser des exemples de science des données de bout en bout
- Visitez Data Wrangler pour plus d’informations sur la préparation et le nettoyage des données avec Data Wrangler
- Visitez l’expérience Machine Learning pour en savoir plus sur le suivi des expériences
- Visitez le modèle Machine Learning pour en savoir plus sur la gestion des modèles
- Visitez les modèles score avec PREDICT pour en savoir plus sur le scoring par lots avec Predict
- Servir les prédictions de Lakehouse dans Power BI avec Direct Lake