Udostępnij przez


Prognozowanie za pomocą rozwiązania AutoML (obliczenia klasyczne)

Użyj rozwiązania AutoML, aby automatycznie znaleźć najlepszy algorytm prognozowania i konfigurację hiperparametrów w celu przewidywania wartości na podstawie danych szeregów czasowych.

Prognozowanie szeregów czasowych jest dostępne tylko dla środowiska Databricks Runtime 10.0 ML lub nowszego.

Konfigurowanie eksperymentu prognozowania za pomocą interfejsu użytkownika

Problem z prognozowaniem można skonfigurować przy użyciu interfejsu użytkownika rozwiązania AutoML, wykonując następujące kroki:

  1. Na pasku bocznym wybierz pozycję Eksperymenty.
  2. Na karcie Prognozowanie wybierz pozycję Rozpocznij szkolenie.

Domyślnie interfejs użytkownika prognozowania jest ustawiony na prognozowanie bezserwerowe. Aby uzyskać dostęp do prognozowania przy użyciu własnych zasobów obliczeniowych, wybierz wrócić do starszej wersji.

Konfigurowanie eksperymentu automatycznego uczenia maszynowego

  1. Zostanie wyświetlona strona Konfigurowanie eksperymentu automatycznego uczenia maszynowego. Na tej stronie możesz skonfigurować proces AutoML, określając zestaw danych, typ problemu, kolumnę docelową lub etykietę do przewidywania, metrykę do oceny i punktacji przebiegów eksperymentu oraz warunki zatrzymania.

  2. W polu Compute wybierz klaster z uruchomionym środowiskiem Databricks Runtime 10.0 ML lub nowszym.

  3. W obszarze Zestaw danych kliknij przycisk Przeglądaj. Przejdź do tabeli, której chcesz użyć, a następnie kliknij pozycję Wybierz. Zostanie wyświetlony schemat tabeli.

  4. Kliknij pole Cel przewidywania. Zostanie wyświetlone menu rozwijane z listą kolumn wyświetlanych w schemacie. Wybierz kolumnę, którą model ma przewidywać.

  5. Kliknij w pole w kolumnie Time. Zostanie wyświetlona lista rozwijana z kolumnami zestawu danych, które są typu timestamp lub date. Wybierz kolumnę zawierającą okresy dla szeregu czasowego.

  6. W przypadku prognozowania z wieloma seriami wybierz kolumny identyfikujące poszczególne szeregi czasowe z listy rozwijanej Identyfikatory szeregów czasowych. Rozwiązanie AutoML grupuje dane według tych kolumn jako różne szeregi czasowe i trenuje model dla każdej serii niezależnie. Jeśli to pole pozostanie puste, rozwiązanie AutoML zakłada, że zestaw danych zawiera pojedynczą serię czasową.

  7. W polach Horyzont i częstotliwość prognozowania określ liczbę okresów w przyszłości, dla których AutoML powinno obliczyć prognozowane wartości. W polu po lewej stronie wprowadź liczbę całkowitą okresów do prognozowania. W prawym polu wybierz jednostki.

    Uwaga

    Aby użyć funkcji Auto-ARIMA, szereg czasowy musi mieć regularną częstotliwość, w której interwał między dwoma punktami musi być taki sam w ciągu szeregu czasowego. Częstotliwość musi być zgodna z jednostką częstotliwości określoną w wywołaniu interfejsu API lub w interfejsie użytkownika rozwiązania AutoML. Rozwiązanie AutoML obsługuje brakujące kroki czasu, wypełniając te wartości poprzednimi wartościami.

  8. W środowisku Databricks Runtime 11.3 LTS ML i nowszym można zapisać wyniki przewidywania. W tym celu określ bazę danych w polu Wyjściowa baza danych . Kliknij Przeglądaj i wybierz bazę danych z okna dialogowego. Rozwiązanie AutoML zapisuje wyniki przewidywania w tabeli w tej bazie danych.

  9. W polu Nazwa eksperymentu jest wyświetlana nazwa domyślna. Aby ją zmienić, wpisz nową nazwę w polu.

Możesz również wykonać następujące czynności:

Konfiguracje zaawansowane

Otwórz sekcję Advanced Configuration (opcjonalnie), aby uzyskać dostęp do tych parametrów.

  • Metryka oceny to podstawowa metryka używana do oceniania przebiegów.
  • W środowisku Databricks Runtime 10.4 LTS ML i nowszym można wykluczyć struktury szkoleniowe z uwagi. Domyślnie rozwiązanie AutoML trenuje modele przy użyciu struktur wymienionych w obszarze Algorytmy automatycznego uczenia maszynowego.
  • Możesz edytować warunki zatrzymywania. Domyślne warunki zatrzymywania to:
    • W przypadku eksperymentów prognozowania zatrzymaj się po 120 minutach.
    • W środowisku Databricks Runtime 10.4 LTS ML i poniżej w przypadku eksperymentów klasyfikacji i regresji zatrzymaj się po 60 minutach lub po ukończeniu 200 prób, w zależności od tego, co nastąpi wcześniej. W przypadku środowiska Databricks Runtime 11.0 ML i nowszych liczba prób nie jest używana jako stan zatrzymania.
    • W środowisku Databricks Runtime 10.4 LTS ML i nowszym w przypadku eksperymentów klasyfikacji i regresji rozwiązanie AutoML obejmuje wczesne zatrzymywanie; zatrzymuje trenowanie i dostrajanie modeli, jeśli metryka walidacji nie jest już ulepszana.
  • W środowisku Databricks Runtime 10.4 LTS ML i nowszym można wybrać time column, aby podzielić dane na potrzeby trenowania, walidacji i testowania w kolejności chronologicznej (dotyczy tylko klasyfikacji i regresji ).
  • Usługa Databricks zaleca pozostawienie pustego pola Katalog danych . Nie wypełnianie tego pola wyzwala domyślne zachowanie bezpiecznego przechowywania zestawu danych jako artefaktu MLflow. Można określić ścieżkę systemu plików DBFS , ale w tym przypadku zestaw danych nie dziedziczy uprawnień dostępu eksperymentu automatycznego uczenia maszynowego.

Uruchamianie eksperymentu i monitorowanie wyników

Aby rozpocząć eksperyment automl, kliknij przycisk Uruchom rozwiązanie AutoML. Eksperyment rozpoczyna się od uruchomienia, a zostanie wyświetlona strona trenowania zautomatyzowanego uczenia maszynowego. Aby odświeżyć tabelę przebiegów, kliknij przycisk 'Odśwież'.

Wyświetlanie postępu eksperymentu

Z poziomu tej strony można:

  • Zatrzymaj eksperyment w dowolnym momencie.
  • Otwórz notes eksploracji danych.
  • Monitorowanie przebiegów.
  • Przejdź do strony uruchamiania dla dowolnego przebiegu.

W przypadku Databricks Runtime 10.1 ML i nowszych, AutoML wyświetla ostrzeżenia dotyczące potencjalnych problemów z zestawem danych, takich jak nieobsługiwane typy kolumn lub kolumny o wysokiej kardynalności.

Uwaga

Usługa Databricks najlepiej wskazuje potencjalne błędy lub problemy. Jednak może to nie być kompleksowe i może nie przechwytywać problemów lub błędów, które mogą być wyszukiwane.

Aby wyświetlić wszelkie ostrzeżenia dotyczące zestawu danych, kliknij kartę Ostrzeżenia na stronie trenowania lub na stronie eksperymentu po zakończeniu eksperymentu.

Ostrzeżenia dotyczące automatycznego uczenia maszynowego

Wyświetlanie wyników

Po zakończeniu eksperymentu można wykonać następujące czynności:

  • Zarejestruj i wdróż jeden z modeli za pomocą biblioteki MLflow.
  • Wybierz pozycję Wyświetl notatnik dla najlepszego modelu, aby przejrzeć i edytować notatnik, który utworzył najlepszy model.
  • Wybierz pozycję Wyświetl notatnik eksploracji danych, aby otworzyć notatnik eksploracji danych.
  • Wyszukiwanie, filtrowanie i sortowanie przebiegów w tabeli przebiegów.
  • Zobacz szczegóły dotyczące dowolnego przebiegu:
    • Wygenerowany notes zawierający kod źródłowy dla przebiegu w wersji próbnej można znaleźć, klikając w przebiegu platformy MLflow. Notes jest zapisywany w sekcji Artefakty na stronie uruchamiania. Możesz pobrać ten notes i zaimportować go do obszaru roboczego, jeśli pobieranie artefaktów jest włączone przez administratorów obszaru roboczego.
    • Aby wyświetlić wyniki przebiegu, kliknij kolumnę Models lub kolumnę Godzina rozpoczęcia. Pojawi się strona przebiegu, pokazująca informacje dotyczące przebiegu testowego (takie jak parametry, metryki i tagi) oraz artefakty utworzone w trakcie przebiegu, w tym model. Ta strona zawiera również fragmenty kodu, których można użyć do przewidywania modelu.

Aby wrócić do tego eksperymentu AutoML później, znajdź go w tabeli na stronie Eksperymenty. Wyniki każdego eksperymentu zautomatyzowanego uczenia maszynowego, w tym notesów eksploracji i trenowania danych, są przechowywane w databricks_automlfolderze głównym użytkownika, który przeprowadził eksperyment.

Rejestrowanie i wdrażanie modelu

Zarejestruj i wdróż model przy użyciu interfejsu użytkownika rozwiązania AutoML. Po zakończeniu przebiegu w górnym wierszu zostanie wyświetlony najlepszy model oparty na podstawowej metryce.

  1. Wybierz link w kolumnie Modele dla modelu, który chcesz zarejestrować.
  2. Wybierz przycisk Zarejestruj model , aby zarejestrować go w katalogu aparatu Unity lub rejestrze modeli.

    Uwaga

    Usługa Databricks zaleca rejestrowanie modeli w wykazie aparatu Unity w celu uzyskania najnowszych funkcji.

  3. Po rejestracji można wdrożyć model w punkcie końcowym obsługującym model niestandardowy.

Brak modułu o nazwie "pandas.core.indexes.numeric"

Podczas obsługi modelu utworzonego przy użyciu rozwiązania AutoML z obsługą modelu może wystąpić błąd: No module named 'pandas.core.indexes.numeric.

Jest to spowodowane niezgodną pandas wersją między rozwiązaniem AutoML a modelem obsługującym środowisko punktu końcowego. Ten błąd można rozwiązać, uruchamiając skrypt add-pandas-dependency.py. Skrypt edytuje element requirements.txt i conda.yaml dla zarejestrowanego modelu, aby zawierał odpowiednią pandas wersję zależności: pandas==1.5.3

  1. Zmodyfikuj skrypt, aby uwzględnić run_id runu MLflow, w którym zalogowano model.
  2. Zarejestruj ponownie model w wykazie aparatu Unity lub rejestrze modeli.
  3. Spróbuj użyć nowej wersji modelu MLflow.

Następne kroki