Abrufen und Vorbereiten von Daten
Daten sind die Grundlage für maschinelles Lernen. Sowohl die Datenmenge als auch die Datenqualität wirken sich auf die Genauigkeit des Modells aus.
Zum Trainieren eines Machine Learning-Modells müssen Sie:
- Datenquelle und -format identifizieren
- Bereitstellungsweise von Daten auswählen
- Entwerfen einer Datenerfassungslösung.
Um die Daten abzurufen und vorzubereiten, die Sie zum Trainieren des Machine Learning-Modells verwenden, müssen Sie Daten aus einer Quelle extrahieren und dem Azure-Dienst zur Verfügung stellen, den Sie zum Trainieren von Modellen verwenden oder Vorhersagen erstellen möchten.
Identifizieren von Datenquelle und -format
Zunächst müssen Sie die Datenquelle und das aktuelle Datenformat identifizieren.
| Identifizieren von | Beispiele |
|---|---|
| Datenquelle | Beispielsweise können die Daten in einem CRM-System (Customer Relationship Management, Kundenbeziehungsmanagement) oder in einer Transaktionsdatenbank wie einer SQL-Datenbank gespeichert sein oder von einem IoT-Gerät (Internet of Things, Internet der Dinge) generiert werden. |
| Datenformat | Sie müssen das aktuelle Format der Daten verstehen, die tabellarische oder strukturierte Daten, halbstrukturierte oder unstrukturierte Daten sein können. |
Anschließend müssen Sie entscheiden, welche Daten Sie zum Trainieren Ihres Modells benötigen, und in welchem Format diese Daten dem Modell bereitgestellt werden sollen.
Entwerfen einer Datenerfassungslösung
Im Allgemeinen ist es eine bewährte Methode, Daten aus der Quelle zu extrahieren, bevor sie analysiert werden. Unabhängig davon, ob Sie die Daten für Datentechnik, Datenanalyse oder Data Science verwenden, sollten Sie die Daten aus der Quelle extrahieren, transformieren und in eine Bereitstellungsebene laden. Ein solcher Prozess wird auch als Extract, Transform and Load (ETL) oder Extract, Load und Transform (ELT) bezeichnet. Die Bereitstellungsebene macht Ihre Daten für den Dienst verfügbar, den Sie für die weitere Datenverarbeitung wie das Trainieren von Machine Learning-Modellen verwenden.
Zum Verschieben und Transformieren von Daten können Sie eine Datenaufnahmepipeline verwenden. Eine Datenerfassungspipeline ist eine Abfolge von Aufgaben, die die Daten verschieben und transformieren. Wenn Sie eine Pipeline erstellen, können Sie sich für die manuelle Auslösung der Aufgaben entscheiden oder die Pipeline planen, wenn die Aufgaben automatisiert werden sollen. Solche Pipelines können mit Azure-Diensten wie Azure Synapse Analytics, Azure Databricks und auch Azure Machine Learning erstellt werden.
Ein gängiger Ansatz für eine Datenerfassungslösung ist:
- Extrahieren von Rohdaten aus der Quelle (z. B. ein CRM-System oder IoT-Gerät).
- Kopieren und Transformieren der Daten mit Azure Synapse Analytics.
- Speichern der vorbereiteten Daten in einem Azure Blob Storage.
- Trainieren des Modells mit Azure Machine Learning.
Erkunden eines Beispiels
Stellen Sie sich vor, Sie möchten ein Wettervorhersagemodell trainieren. Sie bevorzugen eine Tabelle, in der alle Temperaturmessungen jeder Minute kombiniert sind. Sie möchten Aggregate der Daten erstellen und eine Tabelle mit der durchschnittlichen Temperatur pro Stunde erstellen. Zum Erstellen der Tabelle müssen Sie die halbstrukturierten Daten, die vom IoT-Gerät, das die Temperatur in Intervallen misst, erfasst werden, in tabellarische Daten umwandeln.
Beispiel: Sie haben folgende Möglichkeiten, ein Dataset zu erstellen, dass Sie zum Trainieren des Vorhersagemodells verwenden können:
- Extrahieren der Datenmessungen als JSON-Objekte von den IoT-Geräten.
- Konvertieren der JSON-Objekte in eine Tabelle.
- Transformieren der Daten, um die Temperatur pro Computer und Minute zu erhalten.
Als Nächstes untersuchen wir die Dienste, die wir zum Trainieren von Machine Learning-Modellen verwenden können.