Das MlOps-Reifemodell (Machine Learning Operations) definiert Prinzipien und Methoden, mit denen Sie Produktionsumgebungen für maschinelles Lernen erstellen und betreiben können. Verwenden Sie dieses Modell, um Ihren aktuellen Zustand zu bewerten und inkrementelle Fortschritte in Richtung einer ausgereiften MLOps-Umgebung zu planen.
Übersicht über das Reifemodell
Das MLOps-Reifemodell verdeutlicht die Prinzipien und Methoden für entwicklungsbezogene Vorgänge (DevOps), die zum Ausführen einer erfolgreichen MLOps-Umgebung erforderlich sind. Es stellt ein Framework bereit, um die MLOps-Funktionen Ihrer Organisation zu messen und Lücken in Ihrer aktuellen Implementierung zu identifizieren. Verwenden Sie dieses Modell, um Ihre MLOps-Funktion schrittweise zu entwickeln, anstatt sich der vollständigen Komplexität der ausgereiften Implementierung vorab zu stellen.
Verwenden Sie das MLOps-Reifegradmodell als Leitfaden, um die folgenden Aufgaben auszuführen:
Schätzen Sie den Umfang der Arbeit für neue Einsätze.
Schaffen Sie realistische Erfolgskriterien.
Identifizieren Sie Lieferumsätze, die am Ende des Engagements übergeben werden sollen.
Wie bei den meisten Reifemodellen bewertet das MLOps-Reifemodell Personen und Kultur, Prozesse und Strukturen sowie Objekte und Technologien qualitativ. Da sich der Reifegrad erhöht, steigt auch die Wahrscheinlichkeit, dass Vorfälle oder Fehler zu Verbesserungen in Entwicklung und Produktionsprozessen führen.
Das MLOps-Reifemodell umfasst fünf Technische Fähigkeiten.
| Ebene |
Description |
Höhepunkte |
Technologie |
| 0 |
Keine MLOps |
- Der vollständige Lebenszyklus des Machine Learning-Modells ist schwierig zu verwalten.
- Teams sind unzusammenhängend, und Veröffentlichungen sind herausfordernd.
- Die meisten Systeme sind nicht transparent, mit wenig Feedback während und nach der Bereitstellung.
|
- Builds und Bereitstellungen sind manuell.
- Modell- und Anwendungstests sind manuell.
- Die Modellleistungsnachverfolgung ist nicht zentralisiert.
- Modellschulungen sind manuell.
- Teams verwenden nur grundlegende Azure Machine Learning-Arbeitsbereichsfunktionen.
|
| 1 |
DevOps, aber keine MLOps |
- Veröffentlichungen sind weniger herausfordernd als Level 0, jedoch sind sie für jedes neue Modell auf Datenteams angewiesen.
- Das Feedback zur Modellleistung in der Produktion ist noch begrenzt.
- Ergebnisse sind schwer zu verfolgen und zu reproduzieren.
|
- Builds werden automatisiert.
- Anwendungscode verfügt über automatisierte Tests.
- Code wird von der Version gesteuert.
|
| 2 |
Automatisierte Schulung |
- Die Schulungsumgebung ist vollständig verwaltet und nachverfolgbar.
- Das Modell ist einfach zu reproduzieren.
- Veröffentlichungen sind manuell, aber einfach umzusetzen.
|
- Modellschulungen sind automatisiert.
- Die Modellschulungsleistungsnachverfolgung wird zentralisiert.
- Die Modellverwaltung ist vorhanden.
- Geplante oder ereignisgesteuerte Aufträge im Bereich des Maschinellen Lernens behandeln wiederkehrende Schulungen.
- Verwalteter Feature-Store wird eingesetzt.
- Azure Event Grid-Lebenszyklusereignisse werden für die Pipeline-Orchestrierung ausgegeben.
- Umgebungen werden mithilfe von Machine Learning-Umgebungsdefinitionen verwaltet.
|
| 3 |
Automatisierte Modellbereitstellung |
- Releases sind einfach zu implementieren und automatisch.
- Die vollständige Rückverfolgbarkeit ist von der Bereitstellung zurück zu den ursprünglichen Daten vorhanden.
- Die gesamte Umgebung wird verwaltet, einschließlich Schulungen, Tests und Produktion.
|
- A/B-Tests der Modellleistung sind in den Bereitstellungsprozess integriert.
- Der gesamte Code verfügt über automatisierte Tests.
- Die Modellschulungsleistungsnachverfolgung wird zentralisiert.
- Artefakte werden über Arbeitsbereiche hinweg mithilfe von Machine Learning-Registrierungen heraufgestuft.
|
| 4 |
Vollständige MLOps automatisierte Abläufe |
- Das vollständige System wird automatisiert und einfach überwacht.
- Produktionssysteme liefern Informationen darüber, wie man sich verbessern kann, und verbessern sich manchmal automatisch mit neuen Modellen.
- Das System nähert sich null Ausfallzeiten.
|
- Modellschulungen und -tests sind automatisiert.
- Das bereitgestellte Modell gibt ausführliche, zentralisierte Metriken aus.
- Drift- oder Regressionssignale lösen die automatische Umschulung mithilfe des Ereignisrasters aus.
- Die Gesundheit und Aktualität der Feature-Materialisierung werden überwacht.
- Modellförderung ist richtlinienbasiert und automatisiert mithilfe von Machine Learning-Registrierungen.
|
In den folgenden Tabellen werden detaillierte Merkmale für jede Reifestufe beschrieben.
Ebene 0: Keine MLOps
| Volk |
Modellerstellung |
Modellfreigabe |
Anwendungsintegration |
- Data Scientists arbeiten isoliert ohne regelmäßige Kommunikation mit dem größeren Team.
- Dateningenieure (sofern vorhanden) arbeiten isoliert ohne regelmäßige Kommunikation mit dem größeren Team.
- Softwaretechniker arbeiten isoliert und empfangen Modelle remote von anderen Teammitgliedern.
|
- Daten werden manuell gesammelt.
- Die Rechenkapazität wird wahrscheinlich nicht verwaltet.
- Experimente werden nicht konsistent nachverfolgt.
- Das Endergebnis ist in der Regel eine einzelne Modelldatei, die Eingaben und Ausgaben enthält, die manuell übergeben werden.
|
- Der Veröffentlichungsprozess ist manuell.
- Das Bewertungsskript wird nach Experimenten manuell erstellt und wird nicht von der Version gesteuert.
- Ein einzelner Data Scientist oder Dateningenieur handhabt die Freigabe.
|
- Die Umsetzung hängt stark von der Expertise des Data Scientists ab.
- Anwendungsveröffentlichungen erfolgen manuell.
|
Ebene 1: DevOps, aber keine MLOps
| Volk |
Modellerstellung |
Modellfreigabe |
Anwendungsintegration |
- Data Scientists arbeiten isoliert ohne regelmäßige Kommunikation mit dem größeren Team.
- Dateningenieure (sofern vorhanden) arbeiten isoliert ohne regelmäßige Kommunikation mit dem größeren Team.
- Softwaretechniker arbeiten isoliert und empfangen Modelle remote von anderen Teammitgliedern.
|
- Die Datenpipeline sammelt automatisch Daten.
- Die Rechenleistung könnte oder könnte nicht verwaltet werden.
- Experimente werden nicht konsistent nachverfolgt.
- Das Endergebnis ist in der Regel eine einzelne Modelldatei, die Eingaben und Ausgaben enthält, die manuell übergeben werden.
|
- Der Veröffentlichungsprozess ist manuell.
- Bewertungsskript wird manuell nach Experimenten erstellt, ist aber wahrscheinlich versionsgesteuert.
- Das Modell wird softwareingenieuren übergeben.
|
- Grundlegende Integrationstests sind für das Modell vorhanden.
- Die Umsetzung hängt stark von der Expertise des Data Scientists ab.
- Versionen von Anwendungen werden automatisch bereitgestellt.
- Der Anwendungscode verfügt über Komponententests.
|
Stufe 2: Automatisierte Schulung
| Volk |
Modellerstellung |
Modellfreigabe |
Anwendungsintegration |
- Data Scientists arbeiten direkt mit Dateningenieuren zusammen, um Experimentiercode in wiederholbare Skripts und Aufträge zu konvertieren.
- Data Engineers arbeiten mit Data Scientists an der Modellentwicklung.
- Softwaretechniker arbeiten isoliert und empfangen Modelle remote von anderen Teammitgliedern.
|
- Die Datenpipeline sammelt automatisch Daten.
- Die Rechenleistung wird verwaltet.
- Experimentergebnisse werden nachverfolgt.
- Schulungscode und Modelle werden beide versionsgesteuert.
|
- Der Veröffentlichungsprozess ist manuell.
- Bewertungsskript wird versionsgesteuert und verfügt über Tests.
- Das Software-Engineering-Team verwaltet Versionen.
|
- Grundlegende Integrationstests sind für das Modell vorhanden.
- Die Umsetzung hängt stark von der Expertise des Data Scientists ab.
- Der Anwendungscode verfügt über Komponententests.
|
Stufe 3: Automatisierte Modellbereitstellung
| Volk |
Modellerstellung |
Modellfreigabe |
Anwendungsintegration |
- Data Scientists arbeiten direkt mit Dateningenieuren zusammen, um Experimentiercode in wiederholbare Skripts und Aufträge zu konvertieren.
- Dateningenieure arbeiten mit Datenwissenschaftlern und Softwaretechnikern zusammen, um Eingaben und Ausgaben zu verwalten.
- Softwareingenieure arbeiten mit Dateningenieuren zusammen, um die Modellintegration in Anwendungscode zu automatisieren.
|
- Die Datenpipeline sammelt automatisch Daten.
- Die Rechenressourcen werden verwaltet.
- Experimentergebnisse werden nachverfolgt.
- Schulungscode und Modelle werden beide versionsgesteuert.
|
- Der Veröffentlichungsprozess wird automatisch ausgeführt.
- Bewertungsskript wird versionsgesteuert und verfügt über Tests.
- Die Pipeline für kontinuierliche Integration und kontinuierliche Bereitstellung (CI/CD) verwaltet Freigaben.
|
- Jede Modellversion enthält Komponenten- und Integrationstests.
- Die Umsetzung ist weniger von Der Expertise des Data Scientists abhängig.
- Der Anwendungscode verfügt über Komponenten- und Integrationstests.
|
Stufe 4: Vollständige automatisierte MLOps-Vorgänge
| Volk |
Modellerstellung |
Modellfreigabe |
Anwendungsintegration |
- Data Scientists arbeiten direkt mit Dateningenieuren zusammen, um Experimentiercode in wiederholbare Skripts und Aufträge zu konvertieren. Sie arbeiten auch mit Softwaretechnikern zusammen, um Datenmarkierungen zu identifizieren.
- Dateningenieure arbeiten mit Datenwissenschaftlern und Softwaretechnikern zusammen, um Eingaben und Ausgaben zu verwalten.
- Softwaretechniker arbeiten mit Datentechnikern zusammen, um die Modellintegration zu automatisieren und die Erfassung von Metriken nach der Bereitstellung zu implementieren.
|
- Die Datenpipeline sammelt automatisch Daten.
- Produktionsmetriken lösen automatisch eine Umschulung aus.
- Die Rechenleistung wird verwaltet.
- Experimentergebnisse werden nachverfolgt.
- Schulungscode und Modelle werden beide versionsgesteuert.
|
- Der Veröffentlichungsprozess wird automatisch ausgeführt.
- Bewertungsskript ist unter Versionskontrolle und wird getestet.
- CI/CD-Pipeline steuert und automatisiert Releases.
|
- Jede Modellversion enthält Komponenten- und Integrationstests.
- Die Umsetzung ist weniger von Der Expertise des Data Scientists abhängig.
- Der Anwendungscode verfügt über Komponenten- und Integrationstests.
|
MLOps und GenAIOps
Dieser Artikel konzentriert sich auf prädiktive, tabellarische und klassische Machine Learning-Lebenszyklusfunktionen. Generative KI-Vorgänge (GenAIOps) bieten zusätzliche Funktionen, die die MLOps-Reifegrade ergänzen, anstatt sie zu ersetzen. GenAIOps umfassen den Prompt-Lebenszyklus, die Abrufoptimierung, die Ausgabesicherheit und die Tokenkostenverwaltung. Weitere Informationen finden Sie unter GenAIOps für Organisationen mit MLOps-Investitionen. Verwechseln Sie die Mechanik der Prompt-Iteration nicht mit der reproduzierbaren Trainings-Deployment-Schleife, die in diesem Artikel beschrieben wird.
Beitragende
Microsoft verwaltet diesen Artikel. Die folgenden Mitwirkenden haben diesen Artikel geschrieben.
Um nicht-öffentliche LinkedIn-Profile anzuzeigen, melden Sie sich bei LinkedIn an.
Nächste Schritte