Model dojrzałości operacji uczenia maszynowego (MLOps) definiuje zasady i praktyki ułatwiające tworzenie i obsługę produkcyjnych środowisk uczenia maszynowego. Użyj tego modelu, aby ocenić bieżący stan i zaplanować przyrostowy postęp w kierunku dojrzałego środowiska MLOps.
Omówienie modelu dojrzałości
Model dojrzałości MLOps wyjaśnia zasady i praktyki dotyczące operacji programowania (DevOps) wymagane do pomyślnego uruchomienia środowiska MLOps. Zapewnia ona strukturę do mierzenia możliwości metodyki MLOps w organizacji i identyfikowania luk w bieżącej implementacji. Ten model służy do stopniowego rozwijania zdolności MLOps zamiast od razu mierzyć się z pełną złożonością dojrzałej implementacji.
Skorzystaj z modelu dojrzałości MLOps jako przewodnika, aby wykonać następujące zadania:
Oszacowanie zakresu działań dla nowych zadań.
Ustanów realistyczne kryteria sukcesu.
Identyfikowanie elementów dostarczanych do przekazania na końcu zakontraktowania.
Podobnie jak w przypadku większości modeli dojrzałości model dojrzałości MLOps jakościowo ocenia ludzi i kulturę, procesy i struktury oraz obiekty i technologie. Wraz ze wzrostem poziomu dojrzałości rośnie prawdopodobieństwo, że zdarzenia lub błędy prowadzą do ulepszeń procesów programistycznych i produkcyjnych.
Model dojrzałości MLOps obejmuje pięć poziomów możliwości technicznych.
| Level |
Description |
Najważniejsze punkty |
Technologia |
| 0 |
Brak metodyki MLOps |
- Pełny cykl życia modelu uczenia maszynowego jest trudny do zarządzania.
- Zespoły są różne, a wydania są trudne.
- Większość systemów nie są nieprzezroczyste, z niewielką informacją zwrotną podczas wdrażania i po wdrożeniu.
|
- Kompilacje i wdrożenia są ręczne.
- Testowanie modelu i aplikacji jest ręczne.
- Śledzenie wydajności modelu nie jest scentralizowane.
- Trenowanie modelu odbywa się ręcznie.
- Usługa Teams używa tylko podstawowych funkcji obszaru roboczego usługi Azure Machine Learning.
|
| 1 |
Metodyka DevOps, ale bez metodyki MLOps |
- Wydania są mniej wymagające niż poziom 0, ale polegają na zespołach ds. danych dla każdego nowego modelu.
- Opinie na temat wydajności modelu w środowisku produkcyjnym są nadal ograniczone.
- Wyniki są trudne do śledzenia i odtwarzania.
|
- Kompilacje są zautomatyzowane.
- Kod aplikacji ma zautomatyzowane testy.
- Kod jest kontrolowany przez system kontroli wersji.
|
| 2 |
Zautomatyzowane trenowanie |
- Środowisko szkoleniowe jest w pełni zarządzane i możliwe do śledzenia.
- Model jest łatwy do odtworzenia.
- Wersje są ręczne, ale łatwe do zaimplementowania.
|
- Trenowanie modelu jest zautomatyzowane.
- Śledzenie wydajności trenowania modelu jest scentralizowane.
- Zarządzanie modelami jest wdrożone.
- Zadania usługi Machine Learning, zaplanowane lub sterowane zdarzeniami, obsługują powtarzalne trenowanie.
- Repozytorium cech zarządzanych zostało wdrożone.
- Zdarzenia cyklu życia usługi Azure Event Grid są emitowane na potrzeby orkiestracji potoków.
- Środowiska są zarządzane przy użyciu definicji środowisk Machine Learning.
|
| 3 |
Wdrażanie modelu zautomatyzowanego |
- Wersje są łatwe do wdrożenia i automatyczne.
- Pełne śledzenie jest możliwe od wdrożenia do oryginalnych danych.
- Całe środowisko jest zarządzane, w tym trenowanie, testowanie i produkcja.
|
- Testowanie A/B wydajności modelu jest zintegrowane na potrzeby wdrażania.
- Cały kod ma zautomatyzowane testy.
- Śledzenie wydajności trenowania modelu jest scentralizowane.
- Artefakty są promowane między obszarami roboczymi poprzez użycie rejestrów uczenia maszynowego.
|
| 4 |
Automatyzacja MLOps - pełne operacje |
- Pełny system jest zautomatyzowany i łatwo monitorowany.
- Systemy produkcyjne zawierają informacje o sposobie ulepszania, a czasami automatyczne ulepszanie przy użyciu nowych modeli.
- System zbliża się do zerowego przestoju.
|
- Trenowanie i testowanie modelu są zautomatyzowane.
- Wdrożony model emituje rozbudowane, scentralizowane dane metryczne.
- Sygnały dryfu lub regresji wyzwalają automatyczne ponowne trenowanie przy użyciu usługi Event Grid.
- Stan materializacji cech i ich świeżość są monitorowane.
- Awansowanie modelu jest zautomatyzowane i oparte na zasadach przy użyciu rejestrów Machine Learning.
|
W poniższych tabelach opisano szczegółowe cechy poszczególnych poziomów dojrzałości.
Poziom 0: brak metodyki MLOps
| People |
Tworzenie modelu |
Wydanie modelu |
Integracja aplikacji |
- Analitycy danych pracują w izolacji bez regularnej komunikacji z większym zespołem.
- Inżynierowie danych (jeśli istnieją) pracują w izolacji bez regularnej komunikacji z większym zespołem.
- Inżynierowie oprogramowania pracują w izolacji i otrzymują modele zdalnie od innych członków zespołu.
|
- Dane są zbierane ręcznie.
- Obliczenia prawdopodobnie nie są zarządzane.
- Eksperymenty nie są śledzone spójnie.
- Wynik końcowy to zazwyczaj pojedynczy plik modelu, który zawiera dane wejściowe i wyjściowe, ręcznie rozdawane.
|
- Proces wydawania jest ręczny.
- Skrypt oceniania jest ręcznie tworzony po eksperymentach i nie jest kontrolowany za pomocą systemu wersjonowania.
- Jeden analityk danych lub inżynier danych obsługuje wydanie.
|
- Implementacja zależy w dużym stopniu od wiedzy analityka danych.
- Wersje aplikacji są ręczne.
|
Poziom 1: Metodyka DevOps, ale bez metodyki MLOps
| People |
Tworzenie modelu |
Publikacja modelu |
Integracja aplikacji |
- Analitycy danych pracują w izolacji bez regularnej komunikacji z większym zespołem.
- Inżynierowie danych (jeśli istnieją) pracują w izolacji bez regularnej komunikacji z większym zespołem.
- Inżynierowie oprogramowania pracują w izolacji i otrzymują modele zdalnie od innych członków zespołu.
|
- System potoków danych automatycznie zbiera dane.
- Obliczenia mogą być lub nie być zarządzane.
- Eksperymenty nie są śledzone spójnie.
- Wynik końcowy to zazwyczaj pojedynczy plik modelu, który zawiera dane wejściowe i wyjściowe, ręcznie rozdawane.
|
- Proces wydawania jest ręczny.
- Skrypt oceniania jest tworzony ręcznie po eksperymentach, ale prawdopodobnie znajduje się pod kontrolą wersji.
- Model jest przekazywany inżynierom oprogramowania.
|
- Istnieją podstawowe testy integracji dla modelu.
- Implementacja zależy w dużym stopniu od wiedzy analityka danych.
- Wersje aplikacji są zautomatyzowane.
- Kod aplikacji zawiera testy jednostkowe.
|
Poziom 2. Zautomatyzowane trenowanie
| People |
Tworzenie modelu |
Publikacja modelu |
Integracja aplikacji |
- Analitycy danych współpracują bezpośrednio z inżynierami danych, aby przekonwertować kod eksperymentowania na powtarzalne skrypty i zadania.
- Inżynierowie danych współpracują z analitykami danych w zakresie tworzenia modeli.
- Inżynierowie oprogramowania pracują w izolacji i otrzymują modele zdalnie od innych członków zespołu.
|
- Potok danych automatycznie zbiera dane.
- Zarządzanie zasobami obliczeniowymi jest prowadzone.
- Wyniki eksperymentu są śledzone.
- Kod trenowania i modele są kontrolowane wersjonowaniem.
|
- Proces wydawania jest ręczny.
- Skrypt oceniania jest wersjonowany i ma testy.
- Zespół inżynierów oprogramowania zarządza wydaniami.
|
- Istnieją podstawowe testy integracji dla modelu.
- Implementacja zależy w dużym stopniu od wiedzy analityka danych.
- Kod aplikacji zawiera testy jednostkowe.
|
Poziom 3. Automatyczne wdrażanie modelu
| People |
Tworzenie modelu |
Publikacja modelu |
Integracja aplikacji |
- Analitycy danych współpracują bezpośrednio z inżynierami danych, aby przekonwertować kod eksperymentowania na powtarzalne skrypty i zadania.
- Inżynierowie danych współpracują z analitykami danych i inżynierami oprogramowania w celu zarządzania danymi wejściowymi i wyjściowymi.
- Inżynierowie oprogramowania współpracują z inżynierami danych, aby zautomatyzować integrację modelu z kodem aplikacji.
|
- Potok danych automatycznie zbiera dane.
- Zarządzanie zasobami obliczeniowymi jest prowadzone.
- Wyniki eksperymentu są śledzone.
- Kod trenowania i modele są kontrolowane w obu wersjach.
|
- Proces wydawania jest automatyczny.
- Skrypt oceniania jest objęty kontrolą wersji i ma testy.
- Potok ciągłej integracji i ciągłego dostarczania (CI/CD) zarządza wydaniami.
|
- Każda wersja modelu obejmuje testy jednostkowe i integracyjne.
- Implementacja jest mniej zależna od wiedzy analityka danych.
- Kod aplikacji ma testy jednostkowe i integracyjne.
|
Poziom 4: W pełni zautomatyzowane operacje MLOps
| People |
Tworzenie modelu |
Publikacja modelu |
Integracja aplikacji |
- Analitycy danych współpracują bezpośrednio z inżynierami danych, aby przekonwertować kod eksperymentowania na powtarzalne skrypty i zadania. Współpracują również z inżynierami oprogramowania w celu identyfikowania znaczników danych.
- Inżynierowie danych współpracują z analitykami danych i inżynierami oprogramowania w celu zarządzania danymi wejściowymi i wyjściowymi.
- Inżynierowie oprogramowania współpracują z inżynierami danych w celu zautomatyzowania integracji modelu i zaimplementowania zbierania metryk po wdrożeniu.
|
- Potok danych automatycznie zbiera dane.
- Metryki produkcyjne automatycznie wyzwalają ponowne trenowanie.
- Zarządzanie zasobami obliczeniowymi jest prowadzone.
- Wyniki eksperymentu są śledzone.
- Kod trenowania i modele są kontrolowane w obu wersjach.
|
- Proces wydawania jest automatyczny.
- Skrypt oceniania jest objęty kontrolą wersji i ma testy.
- CI/CD pipeline zarządza wydaniami.
|
- Każda wersja modelu obejmuje testy jednostkowe i integracyjne.
- Implementacja jest mniej zależna od wiedzy analityka danych.
- Kod aplikacji ma testy jednostkowe i integracyjne.
|
Metodyki MLOps i GenAIOps
Ten artykuł koncentruje się na możliwościach cyklu życia uczenia maszynowego predykcyjnego, tabelarycznego i klasycznego. Operacje generatywnej sztucznej inteligencji (GenAIOps) wprowadzają dodatkowe możliwości, które uzupełniają poziomy dojrzałości metodyki MLOps, zamiast je zastępować. GenAIOps obejmują cykl życia monitu, rozszerzanie pobierania, bezpieczeństwo danych wyjściowych i zarządzanie kosztami tokenów. Aby uzyskać więcej informacji, zobacz GenAIOps dla organizacji, które mają inwestycje w metodyki MLOps. Nie należy mylić mechaniki iteracji podpowiedzi z powtarzalną pętlą trenowania i wdrażania opisaną w tym artykule.
Współautorzy
Firma Microsoft utrzymuje ten artykuł. Następujący współautorzy napisali ten artykuł.
-
Delyn Choong | Starszy architekt rozwiązań w chmurze — dane i sztuczna inteligencja
Aby wyświetlić niepubliczne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.
Dalsze kroki