Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Verwenden Sie AutoML, um automatisch den besten Prognosealgorithmus und die Hyperparameterkonfiguration zu finden, um Werte basierend auf Zeitreihendaten vorherzusagen.
Zeitreihenprognosen sind nur für Databricks Runtime 10.0 ML oder höher verfügbar.
Einrichten des Prognoseexperiments mit der Benutzeroberfläche
Sie können ein Vorhersageproblem in der AutoML-Benutzeroberfläche anhand der folgenden Schritte einrichten:
- Wählen Sie in der Randleiste "Experimente" aus.
- Wählen Sie auf der Prognosekarte " Schulung starten" aus.
Die Prognosebenutzeroberfläche ist standardmäßig auf serverlose Prognose festgelegt. Wählen Sie Zur alten Oberfläche zurückzukehren aus, um auf Prognosen mit Ihrem eigenen Compute zuzugreifen.
Konfigurieren des AutoML-Experiments
Die Seite AutoML-Experiment konfigurieren wird angezeigt. Auf dieser Seite konfigurieren Sie den AutoML-Prozess und geben die Spalten für Dataset, Problemtyp, Ziel oder Bezeichnung, die vorhergesagt werden sollen, die Metrik zum Auswerten und Bewerten der Experimentausführungen sowie die Bedingungen zum Beenden an.
Wählen Sie im Feld Compute einen Cluster aus, auf dem Databricks Runtime 10.0 ML oder höher ausgeführt wird.
Klicken Sie unter Dataset auf Durchsuchen. Navigieren Sie zu der Tabelle, die Sie verwenden möchten, und klicken Sie auf Auswählen. Das Tabellenschema wird angezeigt.
Klicken Sie in das Feld Vorhersageziel. Ein Dropdownmenü mit den im Schema angezeigten Spalten wird angezeigt. Wählen Sie die Spalte aus, die das Modell vorhersagen soll.
Klicken Sie in das Feld Zeitspalte. Eine Dropdown-Ansicht mit den Dataset-Spalten des Typs
timestampoderdatewird angezeigt. Wählen Sie die Spalte mit den Zeiträumen für die Zeitreihe aus.Wählen Sie für die Mehrreihen-Vorhersage die Spalten aus dem Dropdown Zeitreihenbezeichner aus, die die einzelnen Zeitreihen bezeichnen. AutoML gruppiert die Daten nach diesen Spalten als unterschiedliche Zeitreihen und trainiert ein Modell für jede Reihe unabhängig voneinander. Wenn Sie dieses Feld leer lassen, geht AutoML davon aus, dass das Dataset eine einzelne Zeitreihe enthält.
Geben Sie in den Feldern Vorhersagehorizont und Häufigkeit die Anzahl der Zeiträume in der Zukunft an, für die AutoML vorhergesagte Werte berechnen soll. Geben Sie im linken Feld die ganze Zahl der Zeiträume ein, die vorhergesagt werden sollen. Wählen Sie im rechten Feld die Einheiten aus.
Hinweis
Um Auto-ARIMA verwenden zu können, muss die Zeitreihe eine reguläre Häufigkeit haben, bei der das Intervall zwischen zwei beliebigen Punkten während der gesamten Zeitreihe identisch sein muss. Die Häufigkeit muss mit der im API-Aufruf oder in der AutoML-Benutzeroberfläche angegebenen Häufigkeitseinheit übereinstimmen. AutoML behandelt fehlende Zeitschritte, indem diese Werte mit dem vorherigen Wert aufgefüllt werden.
In Databricks Runtime 11.3 LTS ML und höher können Sie Vorhersageergebnisse speichern. Geben Sie dazu eine Datenbank im Feld Ausgabedatenbank an. Klicken Sie auf Durchsuchen, und wählen Sie im Dialogfeld eine Datenbank aus. AutoML schreibt die Vorhersageergebnisse in eine Tabelle in dieser Datenbank.
Im Feld Experimentname wird der Standardname angezeigt. Geben Sie den neuen Namen in das Feld ein, um ihn zu ändern.
Weitere Funktionen:
- Geben Sie zusätzlichen Konfigurationsoptionen an.
- Verwenden Sie vorhandene Featuretabellen im Feature-Store, um das ursprüngliche Eingabedataset zu erweitern.
Erweiterte Konfigurationen
Öffnen Sie den Abschnitt Erweiterte Konfiguration (optional), um auf diese Parameter zuzugreifen.
- Die Auswertungsmetrik ist die primäre Metrik, die zum Bewerten der Ausführungen verwendet wird.
- In Databricks Runtime 10.4 LTS ML und höher können Sie Trainings-Frameworks von der Berücksichtigung ausschließen. AutoML trainiert standardmäßig Modelle mithilfe von Frameworks, die unter AutoML-Algorithmen aufgeführt sind.
- Sie können die Bedingungen zum Beenden bearbeiten. Standardmäßige Bedingungen zum Beenden sind:
- Bei Vorhersageexperimenten nach 120 Minuten beenden.
- In Databricks Runtime 10.4 LTS ML und unterhalb werden Klassifizierungs- und Regressionsexperimenten nach 60 Minuten oder nach Abschluss von 200 Testversionen beendet, je nachdem, was früher geschieht. Für Databricks-Runtime 11.0 ML und höher wird die Anzahl der Testversionen nicht als Stoppbedingung verwendet.
- Databricks Runtime 10.4 LTS ML und höher beinhaltet AutoML frühes Beenden für Klassifizierungs- und Regressionsexperimente. Es beendet das Training und die Optimierung von Modellen, wenn sich die Validierungsmetrik nicht weiter verbessert.
- In Databricks Runtime 10.4 LTS ML und höher können Sie eine
time columnauswählen, um die Daten für Schulungen, Validierung und Tests in chronologischer Reihenfolge aufzuteilen (gilt nur für Klassifizierung und Regression). - Databricks empfiehlt, das Datenverzeichnisfeld leer zu lassen. Das Nichtausfüllen dieses Felds löst das Standardverhalten aus, den Datensatz sicher als MLflow-Artefakt zu speichern. Ein DBFS-Pfad kann angegeben werden, in diesem Fall erbt das Dataset jedoch nicht die Zugriffsberechtigungen des AutoML-Experiments.
Ausführen des Experiments und Überwachen der Ergebnisse
Klicken Sie auf AutoML starten, um das AutoML-Experiment zu starten. Das Experiment beginnt mit der Ausführung, und die AutoML-Trainingsseite wird angezeigt. Klicken Sie auf
, um die Liste zu aktualisieren.
Anzeigen des Experimentfortschritts
Auf der Seite haben Sie folgende Möglichkeiten:
- Beenden Sie das Experiment jederzeit.
- Öffnen Sie das Notebook für das Durchsuchen von Daten.
- Überwachen Sie Ausführungen.
- Navigieren Sie für jede Ausführung zur Ausführungsseite.
Bei Databricks Runtime 10.1 ML und höher zeigt AutoML Warnungen für potenzielle Probleme mit dem Dataset an, z. B. nicht unterstützte Spaltentypen oder Spalten mit hoher Kardinalität.
Hinweis
Databricks versucht, potenzielle Fehler oder Probleme anzuzeigen. Dies ist jedoch möglicherweise nicht umfassend und erfasst möglicherweise nicht die Probleme oder Fehler, nach denen Sie suchen.
Um Warnungen für das Dataset anzuzeigen, klicken Sie auf der Trainingsseite oder nach Abschluss des Experiments auf der Experimentseite auf die Registerkarte Warnungen.
Anzeigen der Ergebnisse
Nach Abschluss des Experiments haben Sie folgende Möglichkeiten:
- Registrieren Sie eines der Modelle und stellen Sie es mit MLflow bereit.
- Wählen Sie Notebook für das beste Modell anzeigen aus, um das Notebook, das das beste Modell erstellt hat, zu überprüfen und zu bearbeiten.
- Wählen Sie Notebook für das Durchsuchen von Daten anzeigen aus, um das Notebook für die Datenuntersuchung zu öffnen.
- Suchen, filtern und sortieren Sie die Ausführungen in der Tabelle „Ausführungen“.
- Details zu jeder Ausführung finden Sie hier:
- Sie können das generierte Notebook mit dem Quellcode für eine Testausführung anzeigen, indem Sie in die MLflow-Ausführung klicken. Das Notebook ist im Abschnitt Artifacts (Artefakte) der Ausführungsseite gespeichert. Sie können dieses Notebook herunterladen und in den Arbeitsbereich importieren, wenn das Herunterladen von Artefakten von Ihren Arbeitsbereichsadministratoren aktiviert wurde.
- Klicken Sie auf die Spalte Modelle oder die Spalte Startzeit, um die Ausführungsergebnisse anzuzeigen. Die Ausführungsseite wird angezeigt und enthält Informationen über den Testlauf (z. B. Parameter, Metriken und Tags) sowie die durch die Ausführung erstellten Artefakte, einschließlich des Modells. Diese Seite enthält auch Codeausschnitte, die Sie verwenden können, um mit dem Modell Vorhersagen zu machen.
Um später zu diesem AutoML-Experiment zurückzukehren, finden Sie es in der Tabelle auf der Experimente-Seite. Die Ergebnisse der einzelnen AutoML-Experimente, einschließlich der Notebooks für Datenuntersuchungen und Trainings, werden in dem Order databricks_automl im Home-Ordner des Benutzers gespeichert, der das Experiment ausgeführt hat.
Registrieren und Bereitstellen eines Modells
Registrieren und bereitstellen Sie Ihr Modell mithilfe der AutoML-Benutzeroberfläche. Wenn eine Ausführung abgeschlossen ist, zeigt die oberste Zeile das beste Modell basierend auf der primären Metrik an.
- Wählen Sie den Link in der Spalte "Modelle " für das Modell aus, das Sie registrieren möchten.
- Wählen Sie
aus, um es im Unity-Katalog oder in der Modellregistrierung zu registrieren.
Hinweis
Databricks empfiehlt ihnen, Modelle für die neuesten Features im Unity-Katalog zu registrieren.
- Nach der Registrierung können Sie das Modell auf einem benutzerdefinierten Modellbereitstellungs-Endpunkt bereitstellen.
Kein Modul mit dem Namen "pandas.core.indexes.numeric"
Wenn Sie ein Modell bereitstellen, das mithilfe von automatisiertem ML mit Model Serving erstellt wurde, erhalten Sie möglicherweise den Fehler: No module named 'pandas.core.indexes.numeric.
Dies ist auf eine inkompatible pandas-Version zwischen automatisiertes ML und der Endpunktumgebung der Modellbereitstellung zurückzuführen. Sie können diesen Fehler beheben, indem Sie das Skript „add-pandas-dependency.py“ ausführen. Das Skript bearbeitet die requirements.txt und conda.yaml für Ihr protokolliertes Modell so, dass die entsprechende pandas-Abhängigkeitsversion enthalten ist: pandas==1.5.3
- Ändern Sie das Skript so, dass es die
run_idder MLflow-Ausführung einschließt, in der Ihr Modell protokolliert wurde. - Registrieren Sie das Modell erneut im Unity-Katalog oder in der Modellregistrierung.
- Versuchen Sie, die neue Version des MLflow-Modells bereitzustellen.