Comprendre le processus de science des données

Effectué

Un moyen courant d’extraire des insights à partir de données consiste à visualiser les données. Chaque fois que vous avez des jeux de données complexes, vous pouvez approfondir et essayer de trouver des modèles complexes dans les données.

En tant que scientifique des données, vous pouvez entraîner des modèles Machine Learning pour rechercher des modèles dans vos données. Vous pouvez utiliser ces modèles pour générer de nouveaux insights ou prédictions. Par exemple, vous pouvez prédire le nombre attendu de produits que vous prévoyez de vendre dans la semaine à venir.

Bien que l’entraînement du modèle soit important, ce n’est pas la seule tâche dans un projet de science des données. Avant d’explorer un processus classique de science des données, nous allons explorer les modèles Machine Learning courants que vous pouvez entraîner.

Explorer les modèles Machine Learning courants

L’objectif du Machine Learning est d’entraîner des modèles qui peuvent identifier des modèles dans de grandes quantités de données. Vous pouvez ensuite utiliser les modèles pour effectuer des prédictions qui vous fournissent de nouveaux insights sur lesquels vous pouvez effectuer des actions.

Les possibilités d’apprentissage automatique peuvent sembler infinies. Nous allons donc commencer par comprendre les quatre types courants de modèles Machine Learning :

Diagramme des quatre types courants de modèles Machine Learning.

  1. Classification : prédire une valeur catégorielle comme si un client peut s’attriquer.
  2. Régression : prédire une valeur numérique comme le prix d’un produit.
  3. Clustering : regroupez des points de données similaires en clusters ou groupes.
  4. Prévision : prédire les valeurs numériques futures en fonction des données de série chronologique comme les ventes attendues pour le mois à venir.

Pour déterminer le type de modèle Machine Learning que vous devez entraîner, vous devez d’abord comprendre le problème métier et les données disponibles.

Comprendre le processus de science des données

Pour entraîner un modèle Machine Learning, le processus implique généralement les étapes suivantes :

Diagramme des étapes séquentielles dans le processus de science des données.

  1. Définissez le problème : avec les utilisateurs professionnels et les analystes, déterminez ce que le modèle doit prédire et quand il réussit.
  2. Obtenez les données : recherchez des sources de données et accédez en stockant vos données dans un Lakehouse.
  3. Préparez les données : explorez les données en les lisant à partir d’un Lakehouse dans un bloc-notes. Nettoyez et transformez les données en fonction des exigences du modèle.
  4. Entraîner le modèle : choisissez un algorithme et des valeurs d’hyperparamètres en fonction de l’essai et de l’erreur en suivant vos expériences avec MLflow.
  5. Générer des insights : utilisez le scoring par lots de modèles pour générer les prédictions demandées.

En tant que scientifique des données, la plupart de votre temps est consacré à la préparation des données et à l’entraînement du modèle. La façon dont vous préparez les données et l’algorithme que vous choisissez d’entraîner un modèle peut influencer la réussite de votre modèle.

Vous pouvez préparer et entraîner un modèle à l’aide de bibliothèques open source disponibles pour la langue de votre choix. Par exemple, si vous travaillez avec Python, vous pouvez préparer les données avec Pandas et Numpy, et entraîner un modèle avec des bibliothèques telles que Scikit-Learn, PyTorch ou SynapseML.

Lorsque vous expérimentez, vous souhaitez conserver une vue d’ensemble de tous les différents modèles que vous avez formés. Vous souhaitez comprendre comment vos choix influencent la réussite du modèle. En suivant vos expériences avec MLflow dans Microsoft Fabric, vous pouvez facilement gérer et déployer les modèles que vous avez formés.