Freigeben über


Tutorial 2: Trainieren von Kreditrisikomodellen – Machine Learning Studio (Classic)

GILT FÜR:Dies ist ein Häkchen, d. h., dieser Artikel bezieht sich auf Machine Learning Studio (Classic). Machine Learning Studio (klassisch) Dies ist ein X, was bedeutet, dass dieser Artikel nicht für Azure Machine Learning gilt.Azure Machine Learning

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Dieses Tutorial befasst sich eingehend mit der Entwicklung einer Predictive Analytics-Lösung. Hierzu wird in Machine Learning Studio (klassisch) ein einfaches Modell entwickelt. Stellen Sie das Model anschließend als Machine Learning-Webdienst bereit. Dieses bereitgestellte Modell kann auf der Grundlage neuer Daten Vorhersagen generieren. Dieses Tutorial ist der zweite Teil einer dreiteiligen Reihe.

Stellen Sie sich vor, Sie müssen das Kreditrisiko von Personen anhand der Daten auf einem Kreditantrag vorhersagen.

Die Bewertung des Kreditrisikos ist allerdings ein komplexes Problem und wurde daher in diesem Tutorial etwas vereinfacht. Diese Aufgabenstellung dient als Beispiel dafür, wie Sie eine Predictive Analytics-Lösung mit Machine Learning Studio (Classic) erstellen können. Bei dieser Lösung werden Sie das Machine Learning Studio (classic) und einen Machine Learning-Web-Service verwenden.

In diesem dreiteiligen Tutorial werden zunächst öffentlich verfügbare Kreditrisikodaten verwendet. Als Nächstes entwickeln und trainieren Sie ein Vorhersagemodell. Abschließend stellen Sie das Modell als Webdienst bereit.

Im ersten Teil des Tutorials haben Sie einen Arbeitsbereich in Machine Learning Studio (klassisch) erstellt, Daten hochgeladen und ein Experiment erstellt.

In diesem Teil des Tutorials führen Sie die folgenden Schritte aus:

  • Trainieren mehrerer Modelle
  • Modelle bewerten und auswerten

Im dritten Teil des Tutorials stellen Sie das Modell als Webdienst bereit.

Voraussetzungen

Schließen Sie den ersten Teil des Tutorials ab.

Trainieren mehrerer Modelle

Einer der Vorteile von Azure Machine Learning Studio (Classic) zum Erstellen von Machine Learning-Modellen ist die Möglichkeit, mehr als einen Typ von Modell gleichzeitig in einem einzelnen Experiment zu testen und die Ergebnisse zu vergleichen. Dieser Typ von Experiment hilft Ihnen, die beste Lösung für Ihr Problem zu finden.

In dem Experiment, das wir in diesem Tutorial entwickeln, werden zwei verschiedene Modelltypen erstellt und anschließend deren Bewertungsergebnisse verglichen, um zu entscheiden, welcher Algorithmus im endgültigen Experiment verwendet werden soll.

Es stehen verschiedene Modelle zur Auswahl. Um die verfügbaren Modelle anzuzeigen, erweitern Sie den Knoten Machine Learning in der Modulpalette, und erweitern Sie dann Initialize Model und die darunter liegenden Knoten. Für dieses Experiment werden die Module Two-Class Support Vector Machine (SVM) und Two-Class Boosted Decision Tree verwendet.

In diesem Experiment werden sowohl das Modul Two-Class Boosted Decision Tree als auch das Modul Two-Class Support Vector Machine hinzugefügt.

Zwei-Klassen-Gradienten-Entscheidungsbaum

Zuerst wird das Boosted-Decision-Tree-Modell eingerichtet.

  1. Suchen Sie das Modul Two-Class Boosted Decision Tree in der Modulpalette und ziehen Sie es auf die Leinwand.

  2. Suchen Sie das Modul Train Model, ziehen Sie es auf die Arbeitsfläche, und verbinden Sie die Ausgabe des Two-Class Boosted Decision Tree-Moduls mit dem linken Eingabeport des Train Model-Moduls.

    Das Modul Two-Class Boosted Decision Tree initialisiert das allgemeine Modell. Das Modul Train Model nutzt Trainingsdaten zum Trainieren des Modells.

  3. Verbinden Sie die linke Ausgabe des Execute R Script-Moduls mit dem rechten Eingang des Train Model-Moduls. (In diesem Tutorial haben Sie für das Training die von der linken Seite des Moduls „Split Data“ kommenden Daten verwendet.)

    Tipp

    Zwei der Eingaben und eine der Ausgaben des Moduls Execute R Script benötigen Sie für dieses Experiment nicht, sodass Sie sie nicht verbinden müssen.

Dieser Teil des Experiments sieht jetzt in etwa wie folgt aus:

Trainieren eines Modells

Nun müssen Sie dem Modul Train Model mitteilen, dass das Modell den Wert des Kreditrisikos vorhersagen soll.

  1. Wählen Sie das Modul Train Model aus. Klicken Sie im Bereich Properties auf Launch column selector.

  2. Geben Sie im Dialogfeld Select a single column in das Suchfeld unter Available Columns „Credit risk“ ein. Wählen Sie unten „Credit risk“ aus, und klicken Sie auf den nach rechts zeigenden Pfeil (>), um „Credit risk“ in Selected Columns zu verschieben.

    Wählen Sie die Spalte „Credit Risk“ des Moduls „Train Model“ aus

  3. Klicken Sie auf das Häkchen OK.

Zwei-Klassen-Support-Vektor-Maschine

Als Nächstes wird das SVM-Modell eingerichtet.

Zunächst soll SVM ein wenig erläutert werden. Boosted Decision Trees funktionieren hervorragend mit allen Arten von Merkmalen. Da das SVM-Modul jedoch einen linearen Klassifikator generiert, hat das entsprechende generierte Modell den besten Testfehler, wenn alle numerischen Merkmale dieselbe Skala verwenden. Um alle numerischen Features zur gleichen Skala zu konvertieren, verwenden Sie das Modul Normalize Data mit einer Tanh-Transformation. Diese transformiert unsere Zahlen in den Bereich [0,1]. Zeichenfolgenfeatures werden vom SVM-Modul in kategorische Features und anschließend in binäre 0/1-Features konvertiert. Daher müssen Zeichenfolgenfeatures nicht manuell transformiert werden. Außerdem sollte die Spalte „Credit Risk“ (Spalte 21) unverändert bleiben. Obwohl diese numerisch ist, handelt es sich um den Wert, dessen Vorhersage das Modell trainiert wird. Daher sollte dieser Wert nicht verändert werden.

Um das SVM-Modell einzurichten, führen Sie folgende Schritte aus:

  1. Suchen Sie das Modul Two-Class Support Vector Machine in der Modulpalette, und ziehen Sie es auf die Arbeitsfläche.

  2. Klicken Sie mit der rechten Maustaste auf das Modul Train Model, und wählen Sie Copy (Kopieren) aus. Klicken Sie anschließend mit der rechten Maustaste auf die Canvas, und wählen Sie Paste (Einfügen) aus. Beachten Sie, dass die Kopie des Moduls Train Model die gleiche Spaltenauswahl wie das Original hat.

  3. Verbinden Sie die Ausgabe des Moduls Two-Class Support Vector Machine mit dem linken Eingabeport des zweiten Moduls Train Model.

  4. Suchen Sie das Modul Normalize Data, und ziehen Sie es in den Arbeitsbereich.

  5. Verbinden Sie die Eingabe dieses Moduls mit der linken Ausgabe des linken Moduls Execute R Script. (Beachten Sie, dass der Ausgabeport eines Moduls mit mehr als einem anderen Modul verbunden sein kann.)

  6. Verbinden Sie den linken Ausgabeport des Moduls Normalize Data mit dem rechten Eingabeport des Moduls Train Model.

Dieser Teil des Experiments sieht jetzt in etwa wie folgt aus:

Trainieren des zweiten Modells

Konfigurieren Sie jetzt das Modul Normalize Data:

  1. Klicken Sie, um das Modul Normalize Data auszuwählen. Wählen Sie im Bereich Properties den Wert Tanh für den Parameter Transformation method aus.

  2. Klicken Sie auf Launch column selector, wählen Sie für Begin With „No columns“, und wählen Sie in der ersten Dropdownliste Include, in der zweiten Dropdownliste column type und in der dritten Dropdownliste Numeric aus. Damit wird festgelegt, dass alle numerischen Spalten (und nur die numerischen Spalten) transformiert werden.

  3. Klicken Sie auf das Pluszeichen (+) rechts neben dieser Zeile. Dadurch wird eine neue Zeile mit Dropdownlisten erstellt. Wählen Sie in der ersten Dropdownliste Excludeaus. Wählen Sie in der zweiten Dropdownliste column names aus, und geben Sie „Credit risk“ in das Textfeld ein. Dadurch wird angegeben, dass die Spalte „Credit Risk“ ignoriert werden soll. (Dies ist erforderlich, da diese Spalte numerisch ist und transformiert wird, wenn Sie sie nicht ausschließen.)

  4. Klicken Sie auf das Häkchen OK.

    Wählen von Spalten für das Modul „Normalize Data“

Das Modul Normalize Data ist jetzt für eine Tanh-Transformation aller numerischen Spalten mit Ausnahme der Spalte „Credit Risk“ (Kreditrisiko) eingerichtet.

Modelle bewerten und auswerten

Sie verwenden die Testdaten, die durch das Modul Split Data getrennt wurden, um die trainierten Modelle zu bewerten. Danach können die Ergebnisse der beiden Modelle verglichen werden, um zu ermitteln, welches Modell die besseren Ergebnisse liefert.

Hinzufügen der „Score Model“-Module

  1. Suchen Sie das Modul Score Model und ziehen Sie es auf die Arbeitsfläche.

  2. Verbinden Sie das Modul Train Model, das mit dem Modul Two-Class Boosted Decision Tree verbunden ist, mit dem linken Eingabeport des Moduls Score Model.

  3. Verbinden Sie das rechte Modul Execute R Script (unsere Testdaten) mit dem rechten Eingabeport des Moduls Score Model.

    Score-Model-Modul verbunden

    Das Modul Score Model kann nun die Kreditinformationen aus den Testdaten entnehmen, sie durch das Modell laufen lassen und vom Modell generierte Vorhersagen mit der Spalte mit dem tatsächlichen Kreditrisiko in den Testdaten vergleichen.

  4. Kopieren Sie das Modul Score Model, und fügen Sie es ein, um eine zweite Kopie zu erstellen.

  5. Verbinden Sie die Ausgabe des SVM-Modells (d. h. den Ausgabeport des Moduls Train Model, der mit dem Modul Two-Class Support Vector Machine verbunden ist) mit dem Eingabeport des zweiten Moduls Score Model.

  6. Für das SVM-Modell muss die gleiche Transformation für die Testdaten durchgeführt werden wie für die Trainingsdaten. Kopieren Sie also das Modul Normalize Data, und fügen Sie es ein, um eine zweite Kopie zu erstellen, und verbinden Sie es mit dem rechten Modul Execute R Script.

  7. Verbinden Sie die linke Ausgabe des zweiten Moduls Normalize Data mit dem rechten Eingabeport des zweiten Moduls Score Model.

    Beide Score Model-Module verbunden.

Hinzufügen des Moduls „Evaluate Model“

Zum Evaluieren und Vergleichen der beiden Bewertungsergebnisse wird das Modul Evaluate Model verwendet.

  1. Finden Sie das Modul Evaluate Model und ziehen Sie es auf die Arbeitsfläche.

  2. Verbinden Sie den Ausgabeport des Moduls Score Model, der dem Modell „Boosted Decision Tree“ zugeordnet ist, mit dem linken Eingabeport des Moduls Evaluate Model.

  3. Verbinden Sie das andere Modul Score Model mit dem rechten Eingabeport.

    Modul „Evaluate Model“ verbunden

Ausführen des Experiments und Überprüfen der Ergebnisse

Klicken Sie auf die Schaltfläche RUN unter dem Bereich, um das Experiment auszuführen. Dies kann einige Minuten dauern. Auf jedem Modul zeigt ein Drehzeiger an, dass es läuft. Ein grünes Häkchen erscheint, wenn das Modul abgeschlossen ist. Wenn alle Module ein Häkchen aufweisen, ist die Ausführung des Experiments beendet.

Das Experiment sollte in etwa wie folgt aussehen:

Evaluieren beider Modelle

Um die Ergebnisse zu prüfen, klicken Sie auf den Ausgabeport des Moduls Evaluate Model, und wählen Sie Visualize aus.

Das Modul Evaluate Model erzeugt ein Paar aus Kurven und Metriken, mit denen die Ergebnisse der beiden bewerteten Modelle verglichen werden können. Sie können die Ergebnisse als ROC-Kurven (Receiver Operator Characteristic), Präzisions-/Rückrufkurven oder Liftkurven anzeigen. Zu den zusätzlich angezeigten Daten zählen eine Konfusionsmatrix, kumulative Werte für die Fläche unter der Kurve (AUC) sowie weitere Metriken. Sie können den Schwellwert ändern, indem Sie den Schieberegler nach links oder rechts bewegen und beobachten, wie sich dies auf den Metriksatz auswirkt.

Klicken Sie rechts neben dem Graph auf Scored dataset oder auf Scored dataset to compare, um die zugeordnete Kurve zu markieren und die zugeordneten Metriken darunter anzuzeigen. In der Legende für die Kurven entspricht „Scored Dataset“ dem linken Eingabeport des Evaluate Model-Moduls – in unserem Fall ist dies das Boosted-Decision-Tree-Modell. Das bewertete Dataset zum Vergleichen entspricht dem rechten Eingabeport – in unserem Fall dem SVM-Modell. Wenn Sie auf eine dieser Beschriftungen klicken, werden die Kurve für das betreffende Modell markiert und die entsprechenden Metriken darunter angezeigt (siehe die folgende Abbildung).

ROC-Kurven für Modelle

Wenn Sie diese Werte prüfen, können Sie entscheiden, welches Modell am ehesten den gewünschten Ergebnissen entspricht. Sie können zurückgehen und das Experiment erneut ausführen, indem Sie Parameterwerte in den verschiedenen Modellen ändern.

Die wissenschaftliche Vorgehensweise und Kunst der Interpretation dieser Ergebnisse und das Optimieren der Modellleistung werden in diesem Tutorial nicht behandelt. Weitere Hilfe erhalten Sie in den folgenden Artikeln:

Tipp

Jedes Mal, wenn Sie das Experiment ausführen, wird ein Eintrag dieser Iteration im Ausführungsverlauf gespeichert. Sie können die Iterationen anzeigen und zu jeder von ihnen zurückkehren, indem Sie unter dem Bereich auf VIEW RUN HISTORY klicken. Sie können auch im Fenster Properties auf Prior Run klicken, um zur Iteration unmittelbar vor der geöffneten Iteration zurückzukehren.

Sie können eine Kopie jeder Iteration des Experiments anfertigen, indem Sie unter dem Bereich auf SAVE AS klicken. Verwenden Sie die Eigenschaften Summary und Description des Experiments, um nachzuhalten, was Sie in den Iterationen Ihres Experiments versucht haben.

Weitere Informationen finden Sie unter Verwalten von Experimentiterationen in Machine Learning-Studio (Classic).

Bereinigen von Ressourcen

Wenn Sie die in diesem Artikel erstellten Ressourcen nicht mehr benötigen, löschen Sie sie, um eventuell anfallende Kosten zu vermeiden. Informationen dazu finden Sie im Artikel Exportieren und Löschen von im Produkt enthaltenen Benutzerdaten.

Nächste Schritte

In diesem Tutorial haben Sie die folgenden Schritte ausgeführt:

  • Erstellen eines Experiments
  • Trainieren mehrerer Modelle
  • Modelle bewerten und auswerten

Sie sind jetzt bereit, Modelle für diese Daten bereitzustellen.