Udostępnij przez


MLflow 3 dla GenAI

MLflow 3 for GenAI to otwarta platforma, która łączy śledzenie, ocenę i możliwość obserwowania aplikacji i agentów GenAI w całym cyklu projektowania i produkcji. Obejmuje on rejestrowanie śladów w czasie rzeczywistym, wbudowane i niestandardowe systemy oceniania, uwzględnianie opinii od ludzi oraz śledzenie wersji, aby efektywnie oceniać i poprawiać jakość aplikacji podczas rozwoju, a także kontynuować monitorowanie i polepszanie jakości w środowisku produkcyjnym.

Zarządzana platforma MLflow w usłudze Databricks rozszerza platformę MLflow typu open source o funkcje zaprojektowane dla produkcyjnych aplikacji generatywnej AI, w tym zarządzanie odpowiednie dla przedsiębiorstw, w pełni zarządzany hosting, skalowanie na poziomie produkcyjnym i integrację z Twoimi danymi w Databricks lakehouse i katalogu Unity Catalog.

Aby uzyskać informacje na temat oceny agenta w środowisku MLflow 2, zobacz Mozaika AI Agent Evaluation (MLflow 2) i przewodnik migracji. Metody SDK oceny agenta dla MLflow 3 zostały zintegrowane z MLflow zarządzanym przez Databricks.

Aby zapoznać się z zestawem samouczków, które ułatwiają rozpoczęcie pracy, zobacz Wprowadzenie.

Jak rozwiązanie MLflow 3 pomaga zoptymalizować jakość aplikacji GenAI

Ocenianie aplikacji i agentów GenAI jest bardziej złożone niż ocenianie tradycyjnego oprogramowania. Dane wejściowe i wyjściowe są często tekstem swobodnym, a wiele różnych danych wyjściowych można uznać za poprawne. Jakość zależy nie tylko od poprawności, ale także od czynników, takich jak precyzja, długość, kompletność, odpowiedniość i inne kryteria specyficzne dla przypadku użycia. Ponieważ modele językowe LLM są z natury niedeterministyczne, a agenci GenAI zawierają dodatkowe składniki, takie jak elementy wyszukujące i narzędzia, ich odpowiedzi mogą się różnić za każdym razem, gdy są uruchamiane.

Deweloperzy potrzebują konkretnych metryk jakości, zautomatyzowanej oceny i ciągłego monitorowania, aby tworzyć i wdrażać niezawodne aplikacje sztucznej inteligencji. Rozwiązanie MLflow 3 dla usługi GenAI udostępnia te kluczowe elementy do wydajnego programowania, wdrażania i ciągłego ulepszania:

Korzystając z platformy MLflow 3 w usłudze Databricks, możesz przenieść sztuczną inteligencję do danych, aby pomóc Ci głęboko zrozumieć i poprawić jakość. Unity Catalog zapewnia spójne zarządzanie dla monity, aplikacji i śladów. Korzystając z dowolnego modelu lub frameworku, MLflow wspiera cię przez cały cykl rozwoju, aż do wdrożenia na produkcji i w jego trakcie.

Wprowadzenie

Rozpocznij tworzenie lepszych aplikacji GenAI za pomocą kompleksowych narzędzi do obserwacji i oceny.

Zadanie Opis
Przewodnik Szybki start Rozpocznij działanie w ciągu kilku minut dzięki instrukcjom krok po kroku dotyczącym instrumentowania swojej pierwszej aplikacji z użyciem śledzenia, przeprowadzania oceny oraz zbierania opinii użytkowników.
Zacznij: Śledzenie MLflow dla GenAI (notatnik Databricks) Instrumentacja prostej aplikacji GenAI w celu automatycznego przechwytywania szczegółowych śladów na potrzeby debugowania i optymalizacji.
Samouczek: ocenianie i ulepszanie aplikacji GenAI Przeprowadza cię krok po kroku przez ocenę aplikacji do generowania wiadomości e-mail, która używa Retrieval-Augmented Generation (RAG).
10-minutowy pokaz: Zbieranie opinii użytkowników Zbierz opinie użytkowników końcowych, dodaj adnotacje dla deweloperów, utwórz sesje przeglądu ekspertów i użyj tej opinii, aby ocenić jakość aplikacji GenAI.

Śledzenie

Śledzenie MLflow zapewnia możliwość obserwowania i rejestruje dane śledzenia wymagane do oceny i monitorowania.

Funkcja Opis
Śledzenie MLflow Kompleksowa możliwość obserwacji aplikacji GenAI, w tym złożonych systemów opartych na agentach. Śledzenie danych wejściowych, danych wyjściowych, kroków pośrednich i metadanych w celu uzyskania pełnego obrazu zachowania aplikacji.
Co to jest śledzenie? Wprowadzenie do pojęć dotyczących śledzenia.
Przeglądanie zachowania i wydajności aplikacji Pełna widoczność wykonywania umożliwia przechwytywanie monitów, pobierania, wywołań narzędzi, odpowiedzi, opóźnienia i kosztów.
Możliwość obserwowania produkcji Użyj tej samej instrumentacji w środowiskach deweloperskich i produkcyjnych, aby uzyskać spójną ocenę.
Tworzenie zestawów danych oceny Analizowanie śladów w celu identyfikowania problemów z jakością, wybierania reprezentatywnych śladów, tworzenia zestawów danych oceny i systematycznego ulepszania aplikacji.
Śledzenie integracji Śledzenie MLflow jest zintegrowane z wieloma bibliotekami i strukturami na potrzeby automatycznego śledzenia, które umożliwia natychmiastowe obserwowanie aplikacji GenAI przy minimalnej konfiguracji.

Ocena i monitorowanie

Zastąp testy ręczne automatyczną oceną przy użyciu wbudowanych i niestandardowych sędziów LLM oraz oceniających, którzy dorównują ludzkiej wiedzy i mogą być stosowani zarówno w fazie rozwoju, jak i produkcji. Każda interakcja produkcyjna staje się okazją do poprawy dzięki zintegrowanym przepływom pracy związanym z opiniami i oceną.

Funkcja Opis
Ocenianie i monitorowanie agentów GenAI Omówienie oceny i monitorowania agentów przy użyciu platformy MLflow 3 w usłudze Databricks.
Sędziowie i oceniacze LLM MLflow 3 zawiera wbudowane oceny LLM na potrzeby bezpieczeństwa, istotności, poprawności, jakości wyszukiwania i nie tylko. Możesz również utworzyć niestandardowych sędziów LLM i modułów oceny opartych na kodzie dla określonych wymagań biznesowych.
Ocena Przeprowadzanie ewaluacji podczas programowania lub w ramach procesu wydania.
Monitorowanie produkcji Nieustannie monitorowanie próbki ruchu produkcyjnego przy użyciu sędziów i oceniających LLM.
Zbieranie opinii użytkowników Zbieraj opinie ekspertów z dziedziny i użytkowników końcowych oraz korzystaj z nich podczas opracowywania i podczas tworzenia w środowisku produkcyjnym w celu ciągłego ulepszania.

Zarządzanie cyklem życia aplikacji GenAI

Zarządzanie wersjami, monitorowanie i zarządzanie całą aplikacją GenAI za pomocą narzędzi do zarządzania cyklem życia klasy korporacyjnej.

Funkcja Opis
Przechowywanie wersji aplikacji Śledź kod, parametry i metryki oceny dla każdej wersji.
Rejestr poleceń Scentralizowane zarządzanie wersjonowaniem i udostępnianiem promptów w całej organizacji z możliwością testowania A/B i integracją z katalogiem Unity.
Integracja dla przedsiębiorstw Wykaz aparatu Unity. Zunifikowane zarządzanie wszystkimi zasobami sztucznej inteligencji z zabezpieczeniami na poziomie przedsiębiorstwa, kontrolą dostępu i funkcjami zapewniającymi zgodność.
Analiza danych. Połącz dane usługi GenAI z danymi biznesowymi w usłudze Databricks Lakehouse i zapewnij niestandardowe analizy uczestnikom projektu biznesowego.
Serwowanie agenta Mosaic AI. Wdrażaj agentów do środowiska produkcyjnego z zachowaniem skalowalności i rygorów operacyjnych.