Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
MLflow 3 for GenAI to otwarta platforma, która łączy śledzenie, ocenę i możliwość obserwowania aplikacji i agentów GenAI w całym cyklu projektowania i produkcji. Obejmuje on rejestrowanie śladów w czasie rzeczywistym, wbudowane i niestandardowe systemy oceniania, uwzględnianie opinii od ludzi oraz śledzenie wersji, aby efektywnie oceniać i poprawiać jakość aplikacji podczas rozwoju, a także kontynuować monitorowanie i polepszanie jakości w środowisku produkcyjnym.
Zarządzana platforma MLflow w usłudze Databricks rozszerza platformę MLflow typu open source o funkcje zaprojektowane dla produkcyjnych aplikacji generatywnej AI, w tym zarządzanie odpowiednie dla przedsiębiorstw, w pełni zarządzany hosting, skalowanie na poziomie produkcyjnym i integrację z Twoimi danymi w Databricks lakehouse i katalogu Unity Catalog.
Aby uzyskać informacje na temat oceny agenta w środowisku MLflow 2, zobacz Mozaika AI Agent Evaluation (MLflow 2) i przewodnik migracji. Metody SDK oceny agenta dla MLflow 3 zostały zintegrowane z MLflow zarządzanym przez Databricks.
Aby zapoznać się z zestawem samouczków, które ułatwiają rozpoczęcie pracy, zobacz Wprowadzenie.
Jak rozwiązanie MLflow 3 pomaga zoptymalizować jakość aplikacji GenAI
Ocenianie aplikacji i agentów GenAI jest bardziej złożone niż ocenianie tradycyjnego oprogramowania. Dane wejściowe i wyjściowe są często tekstem swobodnym, a wiele różnych danych wyjściowych można uznać za poprawne. Jakość zależy nie tylko od poprawności, ale także od czynników, takich jak precyzja, długość, kompletność, odpowiedniość i inne kryteria specyficzne dla przypadku użycia. Ponieważ modele językowe LLM są z natury niedeterministyczne, a agenci GenAI zawierają dodatkowe składniki, takie jak elementy wyszukujące i narzędzia, ich odpowiedzi mogą się różnić za każdym razem, gdy są uruchamiane.
Deweloperzy potrzebują konkretnych metryk jakości, zautomatyzowanej oceny i ciągłego monitorowania, aby tworzyć i wdrażać niezawodne aplikacje sztucznej inteligencji. Rozwiązanie MLflow 3 dla usługi GenAI udostępnia te kluczowe elementy do wydajnego programowania, wdrażania i ciągłego ulepszania:
- Śledzenie automatycznie rejestruje dane wejściowe, kroki pośrednie i dane wyjściowe oraz zapewnia podstawę danych do oceny i monitorowania.
- Wbudowane i niestandardowe moduły oceniające LLM umożliwiają definiowanie różnych parametrów jakości i dostosowywanie metryk do konkretnego przypadku użycia.
- Aplikacje służące do uzyskiwania opinii ekspertów pozwalają na zbieranie i etykietowanie zestawów danych w celu ich oceny oraz na dostosowywanie zautomatyzowanych ocen i sędziów do opinii ekspertów.
- Automatyczna ocena i monitorowanie wykorzystują tych samych sędziów i strzelców podczas opracowywania i produkcji.
- Wersjonowanie aplikacji i monitów umożliwia porównywanie wersji i śledzenie ulepszeń na przestrzeni iteracji.
Korzystając z platformy MLflow 3 w usłudze Databricks, możesz przenieść sztuczną inteligencję do danych, aby pomóc Ci głęboko zrozumieć i poprawić jakość. Unity Catalog zapewnia spójne zarządzanie dla monity, aplikacji i śladów. Korzystając z dowolnego modelu lub frameworku, MLflow wspiera cię przez cały cykl rozwoju, aż do wdrożenia na produkcji i w jego trakcie.
Wprowadzenie
Rozpocznij tworzenie lepszych aplikacji GenAI za pomocą kompleksowych narzędzi do obserwacji i oceny.
| Zadanie | Opis |
|---|---|
| Przewodnik Szybki start | Rozpocznij działanie w ciągu kilku minut dzięki instrukcjom krok po kroku dotyczącym instrumentowania swojej pierwszej aplikacji z użyciem śledzenia, przeprowadzania oceny oraz zbierania opinii użytkowników. |
| Zacznij: Śledzenie MLflow dla GenAI (notatnik Databricks) | Instrumentacja prostej aplikacji GenAI w celu automatycznego przechwytywania szczegółowych śladów na potrzeby debugowania i optymalizacji. |
| Samouczek: ocenianie i ulepszanie aplikacji GenAI | Przeprowadza cię krok po kroku przez ocenę aplikacji do generowania wiadomości e-mail, która używa Retrieval-Augmented Generation (RAG). |
| 10-minutowy pokaz: Zbieranie opinii użytkowników | Zbierz opinie użytkowników końcowych, dodaj adnotacje dla deweloperów, utwórz sesje przeglądu ekspertów i użyj tej opinii, aby ocenić jakość aplikacji GenAI. |
Śledzenie
Śledzenie MLflow zapewnia możliwość obserwowania i rejestruje dane śledzenia wymagane do oceny i monitorowania.
| Funkcja | Opis |
|---|---|
| Śledzenie MLflow | Kompleksowa możliwość obserwacji aplikacji GenAI, w tym złożonych systemów opartych na agentach. Śledzenie danych wejściowych, danych wyjściowych, kroków pośrednich i metadanych w celu uzyskania pełnego obrazu zachowania aplikacji. |
| Co to jest śledzenie? | Wprowadzenie do pojęć dotyczących śledzenia. |
| Przeglądanie zachowania i wydajności aplikacji | Pełna widoczność wykonywania umożliwia przechwytywanie monitów, pobierania, wywołań narzędzi, odpowiedzi, opóźnienia i kosztów. |
| Możliwość obserwowania produkcji | Użyj tej samej instrumentacji w środowiskach deweloperskich i produkcyjnych, aby uzyskać spójną ocenę. |
| Tworzenie zestawów danych oceny | Analizowanie śladów w celu identyfikowania problemów z jakością, wybierania reprezentatywnych śladów, tworzenia zestawów danych oceny i systematycznego ulepszania aplikacji. |
| Śledzenie integracji | Śledzenie MLflow jest zintegrowane z wieloma bibliotekami i strukturami na potrzeby automatycznego śledzenia, które umożliwia natychmiastowe obserwowanie aplikacji GenAI przy minimalnej konfiguracji. |
Ocena i monitorowanie
Zastąp testy ręczne automatyczną oceną przy użyciu wbudowanych i niestandardowych sędziów LLM oraz oceniających, którzy dorównują ludzkiej wiedzy i mogą być stosowani zarówno w fazie rozwoju, jak i produkcji. Każda interakcja produkcyjna staje się okazją do poprawy dzięki zintegrowanym przepływom pracy związanym z opiniami i oceną.
| Funkcja | Opis |
|---|---|
| Ocenianie i monitorowanie agentów GenAI | Omówienie oceny i monitorowania agentów przy użyciu platformy MLflow 3 w usłudze Databricks. |
| Sędziowie i oceniacze LLM | MLflow 3 zawiera wbudowane oceny LLM na potrzeby bezpieczeństwa, istotności, poprawności, jakości wyszukiwania i nie tylko. Możesz również utworzyć niestandardowych sędziów LLM i modułów oceny opartych na kodzie dla określonych wymagań biznesowych. |
| Ocena | Przeprowadzanie ewaluacji podczas programowania lub w ramach procesu wydania. |
| Monitorowanie produkcji | Nieustannie monitorowanie próbki ruchu produkcyjnego przy użyciu sędziów i oceniających LLM. |
| Zbieranie opinii użytkowników | Zbieraj opinie ekspertów z dziedziny i użytkowników końcowych oraz korzystaj z nich podczas opracowywania i podczas tworzenia w środowisku produkcyjnym w celu ciągłego ulepszania. |
Zarządzanie cyklem życia aplikacji GenAI
Zarządzanie wersjami, monitorowanie i zarządzanie całą aplikacją GenAI za pomocą narzędzi do zarządzania cyklem życia klasy korporacyjnej.
| Funkcja | Opis |
|---|---|
| Przechowywanie wersji aplikacji | Śledź kod, parametry i metryki oceny dla każdej wersji. |
| Rejestr poleceń | Scentralizowane zarządzanie wersjonowaniem i udostępnianiem promptów w całej organizacji z możliwością testowania A/B i integracją z katalogiem Unity. |
| Integracja dla przedsiębiorstw |
Wykaz aparatu Unity. Zunifikowane zarządzanie wszystkimi zasobami sztucznej inteligencji z zabezpieczeniami na poziomie przedsiębiorstwa, kontrolą dostępu i funkcjami zapewniającymi zgodność. Analiza danych. Połącz dane usługi GenAI z danymi biznesowymi w usłudze Databricks Lakehouse i zapewnij niestandardowe analizy uczestnikom projektu biznesowego. Serwowanie agenta Mosaic AI. Wdrażaj agentów do środowiska produkcyjnego z zachowaniem skalowalności i rygorów operacyjnych. |