Tutoriel 2 : Former des modèles de risque de crédit - Machine Learning Studio (classique)

S’APPLIQUE À : C'est une coche, ce qui signifie que cet article s’applique à Machine Learning Studio (classique). Machine Learning Studio (classique) C'est une croix, ce qui signifie que cet article ne s’applique pas à Azure Machine Learning. Azure Machine Learning

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning à cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

Consultez des informations sur le déplacement de projets Machine Learning de ML Studio (classique) vers Azure Machine Learning.
En savoir plus sur Azure Machine Learning

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Dans ce tutoriel, vous étudiez de manière approfondie le processus de développement d’une solution d’analyse prédictive. Vous développez un modèle simple dans Machine Learning Studio (classique). Vous déployez ensuite le modèle en tant que service web Machine Learning. Ce modèle déployé peut effectuer des prédictions à l’aide de nouvelles données. Ce tutoriel fait partie deux d’une série de tutoriels en trois parties.

Supposons que vous deviez prédire le risque lié à l'octroi d'un crédit à un individu sur la base des informations fournies lors d'une demande de crédit.

L’évaluation du risque de crédit est un problème complexe, mais ce tutoriel va le simplifier un peu. Vous allez l’utiliser comme exemple de création d’une solution d’analyse prédictive à l’aide de Machine Learning Studio (classique). Vous allez utiliser Machine Learning Studio (classique) et un service web Machine Learning pour cette solution.

Dans ce tutoriel en trois parties, vous commencez avec des données de risque crédit disponibles publiquement. Ensuite, vous développez et entraînez un modèle prédictif. Enfin, vous déployez le modèle en tant que service web.

Dans la première partie du tutoriel, vous avez créé un espace de travail Machine Learning Studio (classique), chargé des données et créé une expérience.

Dans cette partie du tutoriel, vous allez effectuer les opérations suivantes :

Entraîner plusieurs modèles
Notation et évaluation des modèles

Dans la troisième partie du tutoriel, vous allez déployer le modèle en tant que service web.

Prérequis

Terminez la première partie du didacticiel.

Entraîner plusieurs modèles

Un des avantages de l’utilisation de Machine Learning Studio (classique) pour créer des modèles Machine Learning est la possibilité d’essayer simultanément plusieurs types de modèle dans une expérience et de comparer les résultats. Ce type d’expérimentation vous aide à trouver la meilleure solution à votre problème.

Dans l’expérience développée au fil de ce tutoriel, vous allez créer deux types de modèles différents, puis comparer les résultats de la notation afin de choisir l’algorithme que vous voulez utiliser dans votre expérience finale.

Vous avez le choix entre différents modèles. Pour afficher les modèles disponibles, développez le nœud Machine Learning dans la palette de modules, puis développez Initialiser le modèle et les nœuds sous celui-ci. Pour les besoins de cette expérience, vous allez sélectionner les modules Two-Class Support Vector Machine (SVM) et Two-Class Boosted Decision Tree .

Vous allez ajouter le module Two-Class Arbre de décision boosté et le module Two-Class Machine à vecteurs de support dans cette expérience.

Arbre de décision boosté à deux classes

Configurez d’abord le modèle d’arbre de décision optimisé.

Recherchez le moduleTwo-Class Arbre de décision optimisé dans la palette de modules et faites-le glisser sur le canevas.
Recherchez le module Train Model , faites-le glisser sur le canevas, puis connectez la sortie du module Two-Class Boosted Decision Tree au port d’entrée gauche du module Train Model .

Le module Two-Class Arbre de décision optimisé initialise le modèle générique et le modèle d’apprentissage utilise des données d’apprentissage pour entraîner le modèle.
Connectez la sortie gauche du module Execute R Script à gauche au port d’entrée droit du module Train Model (dans ce tutoriel, vous avez utilisé les données provenant du côté gauche du module Fractionner les données pour l’entraînement).

Conseil

vous n’avez pas besoin de deux entrées et de l’une des sorties du module d’exécution de script R pour cette expérience. Vous pouvez donc les laisser non attachées.

Cette partie de l'expérience ressemble alors à ce qui suit :

Formation d’un modèle

Vous devez maintenant indiquer au module Entraîner le modèle que vous souhaitez que le modèle prédicte la valeur du risque de crédit.

Sélectionnez le module Entraîner le modèle . Dans le volet Propriétés , cliquez sur Lancer le sélecteur de colonne.
Dans la boîte de dialogue Sélectionner une seule colonne , tapez « risque de crédit » dans le champ de recherche sous Colonnes disponibles, sélectionnez « Risque de crédit » ci-dessous, puis cliquez sur le bouton flèche droite (>) pour déplacer « Risque de crédit » vers colonnes sélectionnées.
Cliquez sur la case à cocher OK .

Machine à vecteurs de support à deux classes

Vous configurez ensuite le modèle SVM.

Tout d’abord, une petite explication sur SVM. Les arbres de décision optimisés fonctionnent bien avec tout type de caractéristique. Toutefois, le module SVM générant un classifieur linéaire, le modèle qu'il génère obtient la meilleure erreur de test quand toutes les caractéristiques numériques sont à la même échelle. Pour convertir toutes les fonctionnalités numériques à la même échelle, vous utilisez une transformation « Tanh » (avec le module Normalize Data ). Cette opération transforme les nombres en plage [0,1]. Le module SVM convertit les fonctionnalités de chaîne en fonctionnalités catégorielles, puis en fonctionnalités 0/1 binaires. Il est donc inutile de les transformer manuellement. De même, vous ne voulez pas transformer la colonne Risque du crédit (colonne 21). Elle est numérique, mais elle contient la valeur de prédiction pour laquelle vous entraînez le modèle ; vous devez donc la laisser seule.

Pour configurer le modèle SVM, procédez comme suit :

Recherchez le module Two-Class Support Vector Machine dans la palette de modules et faites-le glisser sur le canevas.
Cliquez avec le bouton droit sur le module Entraîner le modèle, sélectionnez Copier, puis cliquez avec le bouton droit sur le canevas et sélectionnez Coller. La copie du module Train Model a la même sélection de colonnes que l’original.
Connectez la sortie du module Two-Class Support Vector Machine au port d’entrée gauche du deuxième module Entraîner modèle.
Recherchez le module Normalize Data et faites-le glisser sur le canevas.
Connectez la sortie gauche du module Exécuter un script R à l’entrée de ce module (notez que le port de sortie d’un module peut être connecté à plusieurs autres modules).
Connectez le port de sortie gauche du module Normalize Data au port d’entrée droit du deuxième module Train Model .

Cette partie de l'expérience ressemble alors à ceci :

Formation du deuxième modèle

Configurez maintenant le module Normalize Data :

Cliquez pour sélectionner le module Normalize Data . Dans le volet Propriétés , sélectionnez Tanh pour le paramètre de méthode de transformation .
Cliquez sur Lancer le sélecteur de colonne, sélectionnez « Aucune colonne » pour Begin With, sélectionnez Inclure dans la première liste déroulante, sélectionnez type de colonne dans la deuxième liste déroulante, puis sélectionnez Numérique dans la troisième liste déroulante. Cette action spécifie que toutes les colonnes numériques (et elles seules) sont transformées.
Cliquez sur le signe plus (+) à droite de cette ligne. Cette opération crée une ligne de listes déroulantes. Sélectionnez Exclure dans la première liste déroulante, sélectionnez les noms de colonnes dans la deuxième liste déroulante, puis entrez « Risque de crédit » dans le champ de texte. Cette opération précise que la colonne Risque de crédit doit être ignorée (vous devez faire cela car, celle-ci étant numérique, elle serait transformée si vous ne l'excluiez pas).
Cliquez sur OK pour valider.

Le module Normalize Data est maintenant défini pour effectuer une transformation Tanh sur toutes les colonnes numériques, à l’exception de la colonne Crédit Risk.

Notation et évaluation des modèles

vous utilisez les données de test qui ont été séparées par le module Split Data pour évaluer les performances de nos modèles entraînés. Vous pouvez ensuite comparer les résultats des deux modèles pour savoir lequel donne les meilleurs résultats.

Ajouter les modules Score Model

Recherchez le module Score Model et faites-le glisser sur le canevas.
Connectez le module Train Model connecté au module Two-Class Boosted Decision Tree au port d’entrée gauche du module Score Model .
Connectez le module Execute R Script approprié (nos données de test) au port d’entrée approprié du module Score Model .

Le module Score Model peut désormais prendre les informations de crédit des données de test, l’exécuter via le modèle et comparer les prédictions générées par le modèle avec la colonne de risque de crédit réelle dans les données de test.
Copiez et collez le module Score Model pour créer une deuxième copie.
Connectez la sortie du modèle SVM (autrement dit, le port de sortie du module Train Model connecté au module Two-Class Support Vector Machine ) au port d’entrée du deuxième module Score Model .
Pour le modèle SVM, vous devez effectuer la même transformation pour tester les données comme vous l’avez fait pour les données d’entraînement. Copiez et collez le module Normalize Data pour créer une deuxième copie et connectez-le au module d’exécution de script R approprié.
Connectez la sortie gauche du deuxième module Normalize Data au port d’entrée droit du deuxième module Score Model .

Ajouter le module Évaluer le modèle

Pour évaluer les deux résultats de scoring et les comparer, vous utilisez un module Évaluer le modèle .

Recherchez le module Évaluer le modèle et faites-le glisser sur le canevas.
Connectez le port de sortie du module Score Model associé au modèle d’arbre de décision optimisé au port d’entrée gauche du module Évaluer le modèle.
Connectez l’autre module Score Model au port d’entrée approprié.

Exécuter l’expérience et vérifier les résultats

Pour exécuter l’expérience, cliquez sur le bouton EXÉCUTER sous le canevas. Cette opération peut prendre quelques minutes. Un indicateur rotatif sur chaque module indique que l’exécution est en cours. Puis une coche verte s’affiche pour signaler que l’exécution du module est terminée. Lorsque tous les modules comportent une coche, l'exécution de l'expérience est terminée.

L'expérience doit ressembler à ceci :

Évaluation des deux modèles

Pour vérifier les résultats, cliquez sur le port de sortie du module Évaluer le modèle , puis sélectionnez Visualiser.

Le module Evaluate Model produit une paire de courbes et de métriques qui vous permettent de comparer les résultats des deux modèles évalués. Vous pouvez afficher les résultats sous forme de courbes Receiver Operator Characteristic (ROC), Precision/Recall ou Lift. Les données supplémentaires affichées comprennent une matrice de confusion, les valeurs cumulées pour l’aire sous la courbe (ASC) et d’autres mesures. Vous pouvez modifier la valeur du seuil en déplaçant le curseur vers la gauche ou la droite et voir son influence sur l'ensemble des mesures.

À droite du graphique, cliquez sur Jeu de données noté ou Jeu de données noté pour comparer pour mettre en surbrillance la courbe associée et afficher les mesures associées ci-dessous. Dans la légende des courbes, « Jeu de données évalué » correspond au port d’entrée gauche du module Evaluate Model - dans notre cas, il s’agit du modèle d’arbre de décision optimisé. « Ensemble de données évalué à comparer » correspond au port d’entrée de droite - le modèle SVM dans notre cas. Lorsque vous cliquez sur une de ces étiquettes, la courbe de ce modèle apparaît en surbrillance ainsi que les mesures correspondantes, comme dans le graphique suivant.

Courbes ROC pour les modèles

En examinant ces valeurs, vous pouvez déterminer quel modèle est le plus susceptible de fournir les résultats que vous recherchez. Vous pouvez revenir en arrière et relancer votre expérience en modifiant les valeurs des différents modèles.

Ce tutoriel n’explique pas comment interpréter ces résultats et optimiser les performances du modèle. Pour en savoir plus, consultez les articles suivants :

Conseil

À chaque exécution de l’expérience, un enregistrement de cet essai est conservé dans l’historique d’exécution. Vous pouvez afficher ces itérations et revenir à l’une d’entre elles, en cliquant sur VIEW RUN HISTORY sous le canevas. Vous pouvez également cliquer sur Exécution antérieure dans le volet Propriétés pour revenir à l’itération qui précède immédiatement celle que vous avez ouverte.

Vous pouvez effectuer une copie de n’importe quelle itération de votre expérience en cliquant sur ENREGISTRER SOUS sous la zone de dessin. Utilisez les propriétés Résumé et Description de l’expérience pour conserver un enregistrement de ce que vous avez essayé dans vos itérations d’expérience.

Pour plus d’informations, consultez Gérer les itérations d’expérience dans Machine Learning Studio (classique).

Nettoyer les ressources

Si vous n’avez plus besoin des ressources que vous avez créées dans le cadre de cet article, supprimez-les pour éviter des frais inutiles. Découvrez comment dans l’article, exporter et supprimer des données utilisateur dans le produit.

Étapes suivantes

Dans ce tutoriel, vous avez effectué les étapes suivantes :

Créer une expérience
Entraîner plusieurs modèles
Notation et évaluation des modèles

Vous êtes maintenant prêt à déployer des modèles pour ces données.

Tutoriel 3 - Déployer des modèles

Last updated on 2019-02-11

Partager via