Udostępnij przez


Samouczek 2. Trenowanie modeli ryzyka kredytowego — Machine Learning Studio (wersja klasyczna)

DOTYCZY:Jest to znacznik wyboru, co oznacza, że ten artykuł dotyczy usługi Machine Learning Studio (klasycznej). Machine Learning Studio (wersja klasyczna) Jest to X, co oznacza, że ten artykuł nie ma zastosowania do usługi Azure Machine Learning.Azure Machine Learning

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning do tej daty.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

W tym samouczku szczegółowo przedstawiono proces opracowywania rozwiązania analizy predykcyjnej. Tworzysz prosty model w usłudze Machine Learning Studio (wersja klasyczna). Następnie wdrożysz model jako usługę internetową Machine Learning. Wdrożony model może tworzyć przewidywania przy użyciu nowych danych. Ten samouczek jest drugą częścią trzyczęściowej serii samouczków.

Załóżmy, że chcesz przewidzieć ryzyko kredytowe osoby na podstawie informacji przekazanych we wniosku kredytowym.

Ocena ryzyka kredytowego to złożony problem, ale ten samouczek nieco go uprości. Użyjesz go jako przykładu tworzenia rozwiązania analizy predykcyjnej przy użyciu usługi Machine Learning Studio (klasycznej). W tym rozwiązaniu użyjesz usługi Machine Learning Studio (klasycznej) i usługi internetowej Machine Learning.

W tym trzyczęściowym samouczku zaczniesz od publicznie dostępnych danych ryzyka kredytowego. Następnie wdrożysz i wytrenujesz model predykcyjny. Na koniec wdrożysz model jako usługę internetową.

W części pierwszej samouczka utworzyłeś obszar roboczy usługi Machine Learning Studio (wersja klasyczna), załadowałeś dane i utworzyłeś eksperyment.

W tej części samouczka zostaną wykonane następujące czynności:

  • Trenowanie wielu modeli
  • Generowanie wyników dla modeli i ich ewaluacja

W trzeciej części samouczka wdrożysz model jako usługę internetową.

Wymagania wstępne

Ukończ część pierwszą samouczka.

Trenowanie wielu modeli

Jedną z zalet korzystania z usługi Machine Learning Studio (klasycznej) do tworzenia modeli uczenia maszynowego jest możliwość wypróbowania więcej niż jednego typu modelu jednocześnie w jednym eksperymencie i porównywaniu wyników. Taki eksperyment ułatwia znalezienie najlepszego rozwiązania problemu.

W ramach eksperymentu opracowywanego w tym samouczku utworzysz dwa różne typy modelu i porównasz wyniki ich oceny, aby określić, który algorytm ma zostać użyty w końcowym eksperymencie.

Masz do wyboru różne modele. Aby wyświetlić dostępne modele, rozwiń węzeł Machine Learning na palecie modułów, a następnie rozwiń węzeł Initialize Model (Inicjowanie modelu ) i węzły poniżej niego. Na potrzeby tego eksperymentu wybierzesz modułyTwo-Class Support Vector Machine (SVM) i Two-Class Boosted Decision Tree .

W tym eksperymencie dodasz zarówno moduł Two-Class Wzmocnione drzewo decyzyjne , jak i modułTwo-Class Support Vector Machine .

Two-Class Boosted Decision Tree (Dwuklasowe wzmocnione drzewo decyzyjne)

Najpierw skonfiguruj model wzmocnionego drzewa decyzyjnego.

  1. Znajdź moduł Two-Class Boosted Decision Tree (Wzmocnione drzewo decyzyjne ) na palecie modułów i przeciągnij go na kanwę.

  2. Znajdź moduł Train Model (Trenowanie modelu), przeciągnij go na kanwę, a następnie połącz dane wyjściowe modułu Two-Class Boosted Decision Tree (Wzmocnione drzewo decyzyjne) z lewym portem wejściowym modułu Train Model (Trenowanie modelu).

    Moduł Two-Class Boosted Decision Tree inicjuje model ogólny, a trenowanie modelu używa danych szkoleniowych do trenowania modelu.

  3. Połącz lewe dane wyjściowe modułu Wykonywanie skryptu R z prawym portem wejściowym modułu Trenowanie modelu (w tym samouczku użyłeś danych pochodzących z lewej strony modułu Podział danych dla trenowania).

    Napiwek

    Nie potrzebujesz dwóch danych wejściowych i jednego z danych wyjściowych modułu Execute R Script (Wykonywanie skryptu języka R ) dla tego eksperymentu, więc możesz pozostawić je nieprzyłączone.

Ta część eksperymentu teraz wygląda mniej więcej tak:

Trenowanie modelu

Teraz musisz poinformować moduł (Train Model, Trenowanie modelu), że chcesz, aby model przewidywał wartość Ryzyka kredytowego.

  1. Wybierz moduł Train Model. W okienku Właściwości kliknij pozycję Uruchom selektor kolumn.

  2. W oknie dialogowym Wybieranie pojedynczej kolumny wpisz "ryzyko kredytowe" w polu wyszukiwania w obszarze Dostępne kolumny, wybierz pozycję "Ryzyko kredytowe" poniżej, a następnie kliknij przycisk strzałki w prawo (>), aby przenieść pozycję "Ryzyko kredytowe" do wybranych kolumn.

    Wybierz kolumnę Credit Risk dla modułu Train Model

  3. Kliknij znacznik wyboru OK .

Two-Class Support Vector Machine (Dwuklasowa maszyna wektorów nośnych)

Następnie skonfigurujesz model SVM.

Najpierw krótko objaśnimy model SVM. Wzmocnione drzewa decyzyjne dobrze współpracują z atrybutami dowolnego typu. Jednak ponieważ moduł SVM generuje klasyfikator liniowy, wygenerowany przez niego model ma najlepszy błąd testu, gdy wszystkie cechy liczbowe mają tę samą skalę. Aby przekonwertować wszystkie funkcje liczbowe na tę samą skalę, należy użyć przekształcenia "Tanh" (z modułem Normalize Data (Normalizacja danych ). W ten sposób liczby zostaną przetransformowane do zakresu [0,1]. Moduł SVM konwertuje cechy ciągu na cechy kategorialne, a następnie na binarne cechy 0/1, więc nie musisz ręcznie transformować cech ciągu. Ponadto nie należy transformować kolumny 21 Credit Risk (Ryzyko kredytowe) — jest to kolumna liczbowa, lecz zawiera także wartość, pod kątem przewidywania której moduł jest trenowany, dlatego należy pozostawić ją bez zmian.

Aby skonfigurować model SVM, wykonaj następujące działania:

  1. Znajdź moduł Two-Class Maszyna wektorów nośnych na palecie modułów i przeciągnij go na płótno.

  2. Kliknij prawym przyciskiem myszy moduł Train Model, wybierz pozycję Kopiuj, a następnie kliknij prawym przyciskiem myszy kanwę i wybierz pozycję Wklej>. Kopia modułu Train Model ma ten sam wybór kolumn co oryginał.

  3. Połącz dane wyjściowe modułu Two-Class Maszyna Wektorów Nośnych z lewym portem wejściowym drugiego modułu Trenowanie Modelu.

  4. Znajdź moduł Normalize Data (Normalizacja danych ) i przeciągnij go na kanwę.

  5. Połącz lewe dane wyjściowe lewego modułu Execute R Script (Wykonaj skrypt języka R ) z danymi wejściowymi tego modułu (zwróć uwagę, że port wyjściowy modułu może być połączony z więcej niż jednym innym modułem).

  6. Połącz lewy port wyjściowy modułu Normalize Data z prawym portem wejściowym drugiego modułu Train Model.

Ta część eksperymentu powinna teraz wyglądać mniej więcej tak:

Trenowanie drugiego modelu

Teraz skonfiguruj moduł Normalizacja danych:

  1. Kliknij, aby wybrać moduł Normalizacja danych. W okienku Właściwości wybierz pozycję Tanh dla parametru Metoda przekształcania .

  2. Kliknij pozycję Uruchom selektor kolumn, wybierz pozycję "Brak kolumn" dla pozycji Rozpocznij od, wybierz pozycję Uwzględnij na pierwszej liście rozwijanej, wybierz typ kolumny na drugiej liście rozwijanej, a następnie wybierz pozycję Numeryczne na trzeciej liście rozwijanej. W ten sposób określono, że wszystkie kolumny liczbowe (i tylko liczbowe) są przekształcane.

  3. Kliknij symbol plus (+) z prawej strony tego wiersza — spowoduje to utworzenie wiersza z listami rozwijanymi. Wybierz pozycję Wyklucz na pierwszej liście rozwijanej, wybierz nazwy kolumn na drugiej liście rozwijanej i wprowadź ciąg "Ryzyko kredytowe" w polu tekstowym. W ten sposób określono, że kolumna Credit Risk (Ryzyko kredytowe) ma być ignorowana (jest to konieczne, ponieważ jest to kolumna liczbowa i byłaby przekształcana, jeśli nie zostałaby wykluczona).

  4. Kliknij znacznik wyboru OK .

    Wybieranie kolumn dla modułu Normalize Data (Normalizacja danych)

Moduł Normalize Data (Normalizacja danych ) jest teraz ustawiony na wykonanie przekształcenia Tanh we wszystkich kolumnach liczbowych z wyjątkiem kolumny Credit Risk (Ryzyko kredytowe).

Generowanie wyników dla modeli i ich ewaluacja

Używasz danych testowych rozdzielonych przez moduł Split Data (Podział danych ), aby ocenić nasze wytrenowane modele. Następnie można porównać wyniki dwóch modeli, aby zobaczyć, który wygenerował lepsze wyniki.

Dodaj moduły Score Model

  1. Znajdź moduł Score Model i przeciągnij go na płótno.

  2. Podłącz moduł Train Model połączony z modułem Two-Class Boosted Decision Tree do lewego portu wejściowego modułu Score Model.

  3. Połącz moduł Execute R Script z naszymi danymi testowymi do właściwego portu wejściowego modułu Score Model (Generowanie wyników dla modelu).

    Połączony moduł Score Model

    Moduł Score Model może teraz pobrać informacje kredytowe z danych testowych, przetworzyć je w modelu i porównać generowane przez model przewidywania z rzeczywistą kolumną ryzyka kredytowego w danych testowych.

  4. Skopiuj i wklej moduł Score Model, aby utworzyć drugą kopię.

  5. Połącz dane wyjściowe modelu SVM (tj. port wyjściowy modułu Train Model, połączonego z modułem Two-Class Support Vector Machine) z portem wejściowym drugiego modułu Score Model.

  6. W przypadku modelu SVM należy wykonać tę samą transformację danych testowych co w przypadku danych treningowych. Skopiuj i wklej moduł Normalize Data (Normalizacja danych ), aby utworzyć drugą kopię i połączyć go z odpowiednim modułem Execute R Script (Wykonywanie skryptu języka R ).

  7. Połącz lewe wyjście drugiego modułu Normalize Data z prawym portem wejściowym drugiego modułu Score Model.

    Oba moduły Score Model połączone

Dodawanie modułu Evaluate Model (Ewaluacja modelu)

Aby ocenić dwa wyniki oceniania i porównać je, użyj modułu Evaluate Model (Ocena modelu ).

  1. Znajdź moduł Evaluate Model (Ocena modelu ) i przeciągnij go na kanwę.

  2. Połącz port wyjściowy modułu Score Model skojarzonego z modelem wzmocnionego drzewa decyzyjnego z lewym portem wejściowym modułu Evaluate Model.

  3. Podłącz inny moduł Score Model do prawego portu wejściowego.

    Ocena połączonego modułu modelu

Uruchomienie eksperymentu i sprawdzenie wyników

Aby uruchomić eksperyment, kliknij przycisk URUCHOM poniżej kanwy. Może to potrwać kilka minut. Obracający się wskaźnik na każdym module oznacza, że moduł działa, a następnie zielony znacznik wyboru oznacza, że moduł zakończył pracę. Gdy wszystkie moduły mają zielony znacznik wyboru, oznacza to, że działanie eksperymentu zostało zakończone.

Eksperyment powinien wyglądać teraz mniej więcej tak:

Ocenianie obu modeli

Aby sprawdzić wyniki, kliknij port wyjściowy modułu Evaluate Model (Ocena modelu) i wybierz pozycję Visualize (Wizualizacja).

Moduł Evaluate Model (Ocena modelu ) tworzy parę krzywych i metryk, które umożliwiają porównywanie wyników dwóch ocenianych modeli. Wyniki można wyświetlić w postaci krzywych ROC (Receiver Operator Characteristic), krzywych Precision/Recall, lub krzywych Lift. Dodatkowe wyświetlane dane obejmują macierz błędów, skumulowane wartości dla obszaru pod krzywą i inne metryki. Wartość progu można zmienić, przesuwając suwak w lewo lub w prawo i obserwując, jak wpływa to na zestaw metryk.

Po prawej stronie wykresu kliknij Wynikowy zestaw danych lub Obliczony zestaw danych do porównania , aby wyróżnić skojarzoną krzywą i wyświetlić związane metryki poniżej. W legendzie krzywych wartość "Scored dataset" odpowiada lewemu portowi wejściowemu modułu Evaluate Model (Ocena modelu) — w naszym przypadku jest to model drzewa decyzyjnego wzmocniony. Pozycja „Scored dataset to compare” („Oceniony zestaw danych do porównania”) odnosi się do prawego portu wejściowego — w naszym przypadku jest to model SVM. Po kliknięciu jednej z tych etykiet krzywa dla danego modelu zostanie wyróżniona, a odpowiadające metryki zostaną wyświetlone, jak pokazano na poniższym rysunku.

Krzywe ROC dla modeli

Badając te wartości, możesz zdecydować, który model daje wyniki najbardziej zbliżone do wyników, których szukasz. Możesz wrócić do eksperymentu i powtórzyć go, zmieniając wartości parametrów w różnych modelach.

Nauka i sztuka interpretowania tych wyników i strojenie wydajności modelu wykracza poza zakres tego samouczka. Aby uzyskać dodatkową pomoc, możesz przeczytać następujące artykuły:

Napiwek

Każde uruchomienie eksperymentu powoduje zapis iteracji w historii uruchomień. Możesz wyświetlić te iteracje i wrócić do dowolnej z nich, klikając WYŚWIETL HISTORIĘ URUCHAMIANIA poniżej płótna. Możesz również kliknąć pozycję Poprzednie uruchomienie w okienku Właściwości, aby powrócić do iteracji bezpośrednio poprzedzającej tę, którą masz otwartą.

Możesz utworzyć kopię dowolnej iteracji eksperymentu, klikając pozycję ZAPISZ JAKO poniżej kanwy. Użyj właściwości Podsumowanie i Opis eksperymentu, aby zachować rekord tego, co próbowano wykonać w iteracji eksperymentu.

Aby uzyskać więcej informacji, zobacz Zarządzanie iteracjami eksperymentów w usłudze Machine Learning Studio (wersja klasyczna).

Czyszczenie zasobów

Jeśli nie potrzebujesz już zasobów, które zostały utworzone w tym artykule, usuń je, aby uniknąć ponoszenia opłat. Dowiedz się, jak to zrobić w artykule Eksportowanie i usuwanie danych użytkownika w aplikacji.

Następne kroki

W tym samouczku wykonałeś następujące kroki:

  • Tworzenie eksperymentu
  • Trenowanie wielu modeli
  • Generowanie wyników dla modeli i ich ewaluacja

Teraz możesz przystąpić do wdrażania modeli dla danych.