MLflow 3 dla GenAI

MLflow 3 for GenAI to otwarta platforma, która łączy śledzenie, ocenę i możliwość obserwowania aplikacji i agentów GenAI w całym cyklu projektowania i produkcji. Obejmuje on rejestrowanie śladów w czasie rzeczywistym, wbudowane i niestandardowe systemy oceniania, uwzględnianie opinii od ludzi oraz śledzenie wersji, aby efektywnie oceniać i poprawiać jakość aplikacji podczas rozwoju, a także kontynuować monitorowanie i polepszanie jakości w środowisku produkcyjnym.

Zarządzana platforma MLflow w usłudze Databricks rozszerza platformę MLflow typu open source o funkcje zaprojektowane dla produkcyjnych aplikacji generatywnej AI, w tym zarządzanie odpowiednie dla przedsiębiorstw, w pełni zarządzany hosting, skalowanie na poziomie produkcyjnym i integrację z Twoimi danymi w Databricks lakehouse i katalogu Unity Catalog.

Aby uzyskać informacje na temat oceny agenta w środowisku MLflow 2, zobacz Mozaika AI Agent Evaluation (MLflow 2) i przewodnik migracji. Metody SDK oceny agenta dla MLflow 3 zostały zintegrowane z MLflow zarządzanym przez Databricks.

Aby zapoznać się z zestawem samouczków, które ułatwiają rozpoczęcie pracy, zobacz Wprowadzenie.

Jak rozwiązanie MLflow 3 pomaga zoptymalizować jakość aplikacji GenAI

Ocenianie aplikacji i agentów GenAI jest bardziej złożone niż ocenianie tradycyjnego oprogramowania. Dane wejściowe i wyjściowe są często tekstem swobodnym, a wiele różnych danych wyjściowych można uznać za poprawne. Jakość zależy nie tylko od poprawności, ale także od czynników, takich jak precyzja, długość, kompletność, odpowiedniość i inne kryteria specyficzne dla przypadku użycia. Ponieważ modele językowe LLM są z natury niedeterministyczne, a agenci GenAI zawierają dodatkowe składniki, takie jak elementy wyszukujące i narzędzia, ich odpowiedzi mogą się różnić za każdym razem, gdy są uruchamiane.

Deweloperzy potrzebują konkretnych metryk jakości, zautomatyzowanej oceny i ciągłego monitorowania, aby tworzyć i wdrażać niezawodne aplikacje sztucznej inteligencji. Rozwiązanie MLflow 3 dla usługi GenAI udostępnia te kluczowe elementy do wydajnego programowania, wdrażania i ciągłego ulepszania:

Śledzenie automatycznie rejestruje dane wejściowe, kroki pośrednie i dane wyjściowe oraz zapewnia podstawę danych do oceny i monitorowania.
Wbudowane i niestandardowe moduły oceniające LLM umożliwiają definiowanie różnych parametrów jakości i dostosowywanie metryk do konkretnego przypadku użycia.
Aplikacje służące do uzyskiwania opinii ekspertów pozwalają na zbieranie i etykietowanie zestawów danych w celu ich oceny oraz na dostosowywanie zautomatyzowanych ocen i sędziów do opinii ekspertów.
Automatyczna ocena i monitorowanie wykorzystują tych samych sędziów i strzelców podczas opracowywania i produkcji.
Wersjonowanie aplikacji i monitów umożliwia porównywanie wersji i śledzenie ulepszeń na przestrzeni iteracji.

Korzystając z platformy MLflow 3 w usłudze Databricks, możesz przenieść sztuczną inteligencję do danych, aby pomóc Ci głęboko zrozumieć i poprawić jakość. Unity Catalog zapewnia spójne zarządzanie dla monity, aplikacji i śladów. Korzystając z dowolnego modelu lub frameworku, MLflow wspiera cię przez cały cykl rozwoju, aż do wdrożenia na produkcji i w jego trakcie.

Wprowadzenie

Rozpocznij tworzenie lepszych aplikacji GenAI za pomocą kompleksowych narzędzi do obserwacji i oceny.

Zadanie	Opis
Przewodnik Szybki start	Rozpocznij działanie w ciągu kilku minut dzięki instrukcjom krok po kroku dotyczącym instrumentowania swojej pierwszej aplikacji z użyciem śledzenia, przeprowadzania oceny oraz zbierania opinii użytkowników.
Zacznij: Śledzenie MLflow dla GenAI (notatnik Databricks)	Instrumentacja prostej aplikacji GenAI w celu automatycznego przechwytywania szczegółowych śladów na potrzeby debugowania i optymalizacji.
Samouczek: ocenianie i ulepszanie aplikacji GenAI	Przeprowadza cię krok po kroku przez ocenę aplikacji do generowania wiadomości e-mail, która używa Retrieval-Augmented Generation (RAG).
10-minutowy pokaz: Zbieranie opinii użytkowników	Zbierz opinie użytkowników końcowych, dodaj adnotacje dla deweloperów, utwórz sesje przeglądu ekspertów i użyj tej opinii, aby ocenić jakość aplikacji GenAI.

Śledzenie

Śledzenie MLflow zapewnia możliwość obserwowania i rejestruje dane śledzenia wymagane do oceny i monitorowania.

Funkcja	Opis
Śledzenie MLflow	Kompleksowa możliwość obserwacji aplikacji GenAI, w tym złożonych systemów opartych na agentach. Śledzenie danych wejściowych, danych wyjściowych, kroków pośrednich i metadanych w celu uzyskania pełnego obrazu zachowania aplikacji.
Co to jest śledzenie?	Wprowadzenie do pojęć dotyczących śledzenia.
Przeglądanie zachowania i wydajności aplikacji	Pełna widoczność wykonywania umożliwia przechwytywanie monitów, pobierania, wywołań narzędzi, odpowiedzi, opóźnienia i kosztów.
Możliwość obserwowania produkcji	Użyj tej samej instrumentacji w środowiskach deweloperskich i produkcyjnych, aby uzyskać spójną ocenę.
Tworzenie zestawów danych oceny	Analizowanie śladów w celu identyfikowania problemów z jakością, wybierania reprezentatywnych śladów, tworzenia zestawów danych oceny i systematycznego ulepszania aplikacji.
Śledzenie integracji	Śledzenie MLflow jest zintegrowane z wieloma bibliotekami i strukturami na potrzeby automatycznego śledzenia, które umożliwia natychmiastowe obserwowanie aplikacji GenAI przy minimalnej konfiguracji.

Ocena i monitorowanie

Zastąp testy ręczne automatyczną oceną przy użyciu wbudowanych i niestandardowych sędziów LLM oraz oceniających, którzy dorównują ludzkiej wiedzy i mogą być stosowani zarówno w fazie rozwoju, jak i produkcji. Każda interakcja produkcyjna staje się okazją do poprawy dzięki zintegrowanym przepływom pracy związanym z opiniami i oceną.

Funkcja	Opis
Ocenianie i monitorowanie agentów GenAI	Omówienie oceny i monitorowania agentów przy użyciu platformy MLflow 3 w usłudze Databricks.
Sędziowie i oceniacze LLM	MLflow 3 zawiera wbudowane oceny LLM na potrzeby bezpieczeństwa, istotności, poprawności, jakości wyszukiwania i nie tylko. Możesz również utworzyć niestandardowych sędziów LLM i modułów oceny opartych na kodzie dla określonych wymagań biznesowych.
Ocena	Przeprowadzanie ewaluacji podczas programowania lub w ramach procesu wydania.
Monitorowanie produkcji	Nieustannie monitorowanie próbki ruchu produkcyjnego przy użyciu sędziów i oceniających LLM.
Zbieranie opinii użytkowników	Zbieraj opinie ekspertów z dziedziny i użytkowników końcowych oraz korzystaj z nich podczas opracowywania i podczas tworzenia w środowisku produkcyjnym w celu ciągłego ulepszania.

Zarządzanie cyklem życia aplikacji GenAI

Zarządzanie wersjami, monitorowanie i zarządzanie całą aplikacją GenAI za pomocą narzędzi do zarządzania cyklem życia klasy korporacyjnej.

Funkcja	Opis
Przechowywanie wersji aplikacji	Śledź kod, parametry i metryki oceny dla każdej wersji.
Rejestr poleceń	Scentralizowane zarządzanie wersjonowaniem i udostępnianiem promptów w całej organizacji z możliwością testowania A/B i integracją z katalogiem Unity.
Integracja dla przedsiębiorstw	Wykaz aparatu Unity. Zunifikowane zarządzanie wszystkimi zasobami sztucznej inteligencji z zabezpieczeniami na poziomie przedsiębiorstwa, kontrolą dostępu i funkcjami zapewniającymi zgodność. Analiza danych. Połącz dane usługi GenAI z danymi biznesowymi w usłudze Databricks Lakehouse i zapewnij niestandardowe analizy uczestnikom projektu biznesowego. Serwowanie agenta Mosaic AI. Wdrażaj agentów do środowiska produkcyjnego z zachowaniem skalowalności i rygorów operacyjnych.

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-11-26