Udostępnij przez


Model dojrzałości MLOps

Model dojrzałości operacji uczenia maszynowego (MLOps) definiuje zasady i praktyki ułatwiające tworzenie i obsługę produkcyjnych środowisk uczenia maszynowego. Użyj tego modelu, aby ocenić bieżący stan i zaplanować przyrostowy postęp w kierunku dojrzałego środowiska MLOps.

Omówienie modelu dojrzałości

Model dojrzałości MLOps wyjaśnia zasady i praktyki dotyczące operacji programowania (DevOps) wymagane do pomyślnego uruchomienia środowiska MLOps. Zapewnia ona strukturę do mierzenia możliwości metodyki MLOps w organizacji i identyfikowania luk w bieżącej implementacji. Ten model służy do stopniowego rozwijania zdolności MLOps zamiast od razu mierzyć się z pełną złożonością dojrzałej implementacji.

Skorzystaj z modelu dojrzałości MLOps jako przewodnika, aby wykonać następujące zadania:

  • Oszacowanie zakresu działań dla nowych zadań.

  • Ustanów realistyczne kryteria sukcesu.

  • Identyfikowanie elementów dostarczanych do przekazania na końcu zakontraktowania.

Podobnie jak w przypadku większości modeli dojrzałości model dojrzałości MLOps jakościowo ocenia ludzi i kulturę, procesy i struktury oraz obiekty i technologie. Wraz ze wzrostem poziomu dojrzałości rośnie prawdopodobieństwo, że zdarzenia lub błędy prowadzą do ulepszeń procesów programistycznych i produkcyjnych.

Model dojrzałości MLOps obejmuje pięć poziomów możliwości technicznych.

Level Description Najważniejsze punkty Technologia
0 Brak metodyki MLOps
  • Pełny cykl życia modelu uczenia maszynowego jest trudny do zarządzania.

  • Zespoły są różne, a wydania są trudne.

  • Większość systemów nie są nieprzezroczyste, z niewielką informacją zwrotną podczas wdrażania i po wdrożeniu.
  • Kompilacje i wdrożenia są ręczne.

  • Testowanie modelu i aplikacji jest ręczne.

  • Śledzenie wydajności modelu nie jest scentralizowane.

  • Trenowanie modelu odbywa się ręcznie.

  • Usługa Teams używa tylko podstawowych funkcji obszaru roboczego usługi Azure Machine Learning.
1 Metodyka DevOps, ale bez metodyki MLOps
  • Wydania są mniej wymagające niż poziom 0, ale polegają na zespołach ds. danych dla każdego nowego modelu.

  • Opinie na temat wydajności modelu w środowisku produkcyjnym są nadal ograniczone.

  • Wyniki są trudne do śledzenia i odtwarzania.
  • Kompilacje są zautomatyzowane.

  • Kod aplikacji ma zautomatyzowane testy.

  • Kod jest kontrolowany przez system kontroli wersji.
2 Zautomatyzowane trenowanie
  • Środowisko szkoleniowe jest w pełni zarządzane i możliwe do śledzenia.

  • Model jest łatwy do odtworzenia.

  • Wersje są ręczne, ale łatwe do zaimplementowania.
  • Trenowanie modelu jest zautomatyzowane.

  • Śledzenie wydajności trenowania modelu jest scentralizowane.

  • Zarządzanie modelami jest wdrożone.

  • Zadania usługi Machine Learning, zaplanowane lub sterowane zdarzeniami, obsługują powtarzalne trenowanie.

  • Repozytorium cech zarządzanych zostało wdrożone.

  • Zdarzenia cyklu życia usługi Azure Event Grid są emitowane na potrzeby orkiestracji potoków.

  • Środowiska są zarządzane przy użyciu definicji środowisk Machine Learning.
3 Wdrażanie modelu zautomatyzowanego
  • Wersje są łatwe do wdrożenia i automatyczne.

  • Pełne śledzenie jest możliwe od wdrożenia do oryginalnych danych.

  • Całe środowisko jest zarządzane, w tym trenowanie, testowanie i produkcja.
  • Testowanie A/B wydajności modelu jest zintegrowane na potrzeby wdrażania.

  • Cały kod ma zautomatyzowane testy.

  • Śledzenie wydajności trenowania modelu jest scentralizowane.

  • Artefakty są promowane między obszarami roboczymi poprzez użycie rejestrów uczenia maszynowego.
4 Automatyzacja MLOps - pełne operacje
  • Pełny system jest zautomatyzowany i łatwo monitorowany.

  • Systemy produkcyjne zawierają informacje o sposobie ulepszania, a czasami automatyczne ulepszanie przy użyciu nowych modeli.

  • System zbliża się do zerowego przestoju.
  • Trenowanie i testowanie modelu są zautomatyzowane.

  • Wdrożony model emituje rozbudowane, scentralizowane dane metryczne.

  • Sygnały dryfu lub regresji wyzwalają automatyczne ponowne trenowanie przy użyciu usługi Event Grid.

  • Stan materializacji cech i ich świeżość są monitorowane.

  • Awansowanie modelu jest zautomatyzowane i oparte na zasadach przy użyciu rejestrów Machine Learning.

W poniższych tabelach opisano szczegółowe cechy poszczególnych poziomów dojrzałości.

Poziom 0: brak metodyki MLOps

People Tworzenie modelu Wydanie modelu Integracja aplikacji
  • Analitycy danych pracują w izolacji bez regularnej komunikacji z większym zespołem.

  • Inżynierowie danych (jeśli istnieją) pracują w izolacji bez regularnej komunikacji z większym zespołem.

  • Inżynierowie oprogramowania pracują w izolacji i otrzymują modele zdalnie od innych członków zespołu.
  • Dane są zbierane ręcznie.

  • Obliczenia prawdopodobnie nie są zarządzane.

  • Eksperymenty nie są śledzone spójnie.

  • Wynik końcowy to zazwyczaj pojedynczy plik modelu, który zawiera dane wejściowe i wyjściowe, ręcznie rozdawane.
  • Proces wydawania jest ręczny.

  • Skrypt oceniania jest ręcznie tworzony po eksperymentach i nie jest kontrolowany za pomocą systemu wersjonowania.

  • Jeden analityk danych lub inżynier danych obsługuje wydanie.
  • Implementacja zależy w dużym stopniu od wiedzy analityka danych.

  • Wersje aplikacji są ręczne.

Poziom 1: Metodyka DevOps, ale bez metodyki MLOps

People Tworzenie modelu Publikacja modelu Integracja aplikacji
  • Analitycy danych pracują w izolacji bez regularnej komunikacji z większym zespołem.

  • Inżynierowie danych (jeśli istnieją) pracują w izolacji bez regularnej komunikacji z większym zespołem.

  • Inżynierowie oprogramowania pracują w izolacji i otrzymują modele zdalnie od innych członków zespołu.
  • System potoków danych automatycznie zbiera dane.

  • Obliczenia mogą być lub nie być zarządzane.

  • Eksperymenty nie są śledzone spójnie.

  • Wynik końcowy to zazwyczaj pojedynczy plik modelu, który zawiera dane wejściowe i wyjściowe, ręcznie rozdawane.
  • Proces wydawania jest ręczny.

  • Skrypt oceniania jest tworzony ręcznie po eksperymentach, ale prawdopodobnie znajduje się pod kontrolą wersji.

  • Model jest przekazywany inżynierom oprogramowania.
  • Istnieją podstawowe testy integracji dla modelu.

  • Implementacja zależy w dużym stopniu od wiedzy analityka danych.

  • Wersje aplikacji są zautomatyzowane.

  • Kod aplikacji zawiera testy jednostkowe.

Poziom 2. Zautomatyzowane trenowanie

People Tworzenie modelu Publikacja modelu Integracja aplikacji
  • Analitycy danych współpracują bezpośrednio z inżynierami danych, aby przekonwertować kod eksperymentowania na powtarzalne skrypty i zadania.

  • Inżynierowie danych współpracują z analitykami danych w zakresie tworzenia modeli.

  • Inżynierowie oprogramowania pracują w izolacji i otrzymują modele zdalnie od innych członków zespołu.
  • Potok danych automatycznie zbiera dane.

  • Zarządzanie zasobami obliczeniowymi jest prowadzone.

  • Wyniki eksperymentu są śledzone.

  • Kod trenowania i modele są kontrolowane wersjonowaniem.
  • Proces wydawania jest ręczny.

  • Skrypt oceniania jest wersjonowany i ma testy.

  • Zespół inżynierów oprogramowania zarządza wydaniami.
  • Istnieją podstawowe testy integracji dla modelu.

  • Implementacja zależy w dużym stopniu od wiedzy analityka danych.

  • Kod aplikacji zawiera testy jednostkowe.

Poziom 3. Automatyczne wdrażanie modelu

People Tworzenie modelu Publikacja modelu Integracja aplikacji
  • Analitycy danych współpracują bezpośrednio z inżynierami danych, aby przekonwertować kod eksperymentowania na powtarzalne skrypty i zadania.

  • Inżynierowie danych współpracują z analitykami danych i inżynierami oprogramowania w celu zarządzania danymi wejściowymi i wyjściowymi.

  • Inżynierowie oprogramowania współpracują z inżynierami danych, aby zautomatyzować integrację modelu z kodem aplikacji.
  • Potok danych automatycznie zbiera dane.

  • Zarządzanie zasobami obliczeniowymi jest prowadzone.

  • Wyniki eksperymentu są śledzone.

  • Kod trenowania i modele są kontrolowane w obu wersjach.
  • Proces wydawania jest automatyczny.

  • Skrypt oceniania jest objęty kontrolą wersji i ma testy.

  • Potok ciągłej integracji i ciągłego dostarczania (CI/CD) zarządza wydaniami.
  • Każda wersja modelu obejmuje testy jednostkowe i integracyjne.

  • Implementacja jest mniej zależna od wiedzy analityka danych.

  • Kod aplikacji ma testy jednostkowe i integracyjne.

Poziom 4: W pełni zautomatyzowane operacje MLOps

People Tworzenie modelu Publikacja modelu Integracja aplikacji
  • Analitycy danych współpracują bezpośrednio z inżynierami danych, aby przekonwertować kod eksperymentowania na powtarzalne skrypty i zadania. Współpracują również z inżynierami oprogramowania w celu identyfikowania znaczników danych.

  • Inżynierowie danych współpracują z analitykami danych i inżynierami oprogramowania w celu zarządzania danymi wejściowymi i wyjściowymi.

  • Inżynierowie oprogramowania współpracują z inżynierami danych w celu zautomatyzowania integracji modelu i zaimplementowania zbierania metryk po wdrożeniu.
  • Potok danych automatycznie zbiera dane.

  • Metryki produkcyjne automatycznie wyzwalają ponowne trenowanie.

  • Zarządzanie zasobami obliczeniowymi jest prowadzone.

  • Wyniki eksperymentu są śledzone.

  • Kod trenowania i modele są kontrolowane w obu wersjach.
  • Proces wydawania jest automatyczny.

  • Skrypt oceniania jest objęty kontrolą wersji i ma testy.

  • CI/CD pipeline zarządza wydaniami.
  • Każda wersja modelu obejmuje testy jednostkowe i integracyjne.

  • Implementacja jest mniej zależna od wiedzy analityka danych.

  • Kod aplikacji ma testy jednostkowe i integracyjne.

Metodyki MLOps i GenAIOps

Ten artykuł koncentruje się na możliwościach cyklu życia uczenia maszynowego predykcyjnego, tabelarycznego i klasycznego. Operacje generatywnej sztucznej inteligencji (GenAIOps) wprowadzają dodatkowe możliwości, które uzupełniają poziomy dojrzałości metodyki MLOps, zamiast je zastępować. GenAIOps obejmują cykl życia monitu, rozszerzanie pobierania, bezpieczeństwo danych wyjściowych i zarządzanie kosztami tokenów. Aby uzyskać więcej informacji, zobacz GenAIOps dla organizacji, które mają inwestycje w metodyki MLOps. Nie należy mylić mechaniki iteracji podpowiedzi z powtarzalną pętlą trenowania i wdrażania opisaną w tym artykule.

Współautorzy

Firma Microsoft utrzymuje ten artykuł. Następujący współautorzy napisali ten artykuł.

  • Delyn Choong | Starszy architekt rozwiązań w chmurze — dane i sztuczna inteligencja

Aby wyświetlić niepubliczne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Dalsze kroki