Wprowadzenie: MLflow 3 dla GenAI

Rozpocznij korzystanie z platformy MLflow 3 dla usługi GenAI w usłudze Databricks przez:

Definiowanie prostej aplikacji GenAI inspirowanej Mad Libs, która uzupełnia luki w szablonie zdania.
Śledzenie działania aplikacji w celu rejestrowania żądań, odpowiedzi i metryk LLM
Ewaluacja aplikacji na podstawie danych z wykorzystaniem możliwości MLflow i funkcji LLM jako sędziego
Zbieranie opinii od ewaluatorów ludzkich

Konfiguracja środowiska

Zainstaluj wymagane pakiety:

mlflow[databricks]: Użyj najnowszej wersji biblioteki MLflow, aby uzyskać więcej funkcji i ulepszeń.
openai: Ta aplikacja będzie używać klienta interfejsu API OpenAI do wywoływania modeli hostowanych przez usługę Databricks.

%pip install -qq --upgrade "mlflow[databricks]>=3.1.0" openai
dbutils.library.restartPython()

Utwórz eksperyment MLflow. Jeśli używasz notesu usługi Databricks, możesz pominąć ten krok i użyć domyślnego eksperymentu notesu. W przeciwnym razie postępuj zgodnie z szybkim przewodnikiem po konfiguracji środowiska, aby utworzyć eksperyment i nawiązać połączenie z serwerem śledzenia MLflow.

Śledzenie

Poniższa aplikacja to prosta funkcja uzupełniania zdań. Używa interfejsu API OpenAI do wywoływania punktu końcowego modeli bazowych hostowanych w usłudze Databricks. Aby zintegrować aplikację używając MLflow Tracing, wprowadź dwie proste zmiany:

Wywołanie mlflow.<library>.autolog() w celu włączenia automatycznego śledzenia
Instrumentacja funkcji przy użyciu @mlflow.trace w celu zdefiniowania sposobu organizowania śladów

from databricks.sdk import WorkspaceClient
import mlflow

# Enable automatic tracing for the OpenAI client
mlflow.openai.autolog()

# Create an OpenAI client that is connected to Databricks-hosted LLMs.
w = WorkspaceClient()
client = w.serving_endpoints.get_open_ai_client()

# Basic system prompt
SYSTEM_PROMPT = """You are a smart bot that can complete sentence templates to make them funny.  Be creative and edgy."""

@mlflow.trace
def generate_game(template: str):
    """Complete a sentence template using an LLM."""

    response = client.chat.completions.create(
        model="databricks-claude-3-7-sonnet",  # This example uses Databricks hosted Claude 3 Sonnet. If you provide your own OpenAI credentials, replace with a valid OpenAI model e.g., gpt-4o, etc.
        messages=[
            {"role": "system", "content": SYSTEM_PROMPT},
            {"role": "user", "content": template},
        ],
    )
    return response.choices[0].message.content

# Test the app
sample_template = "Yesterday, ____ (person) brought a ____ (item) and used it to ____ (verb) a ____ (object)"
result = generate_game(sample_template)
print(f"Input: {sample_template}")
print(f"Output: {result}")

Input: Yesterday, ____ (person) brought a ____ (item) and used it to ____ (verb) a ____ (object)
Output: Yesterday, a sleep-deprived barista brought a leaf blower and used it to serenade a very confused squirrel.

Ślad gry zdania

Wizualizacja śledzenia w danych wyjściowych komórki powyżej pokazuje dane wejściowe, dane wyjściowe i strukturę wywołań. Ta prosta aplikacja generuje prosty ślad, ale zawiera już cenne szczegółowe informacje, takie jak liczba tokenów wejściowych i wyjściowych. Bardziej skomplikowani agenci będą generować ślady z zagnieżdżonym zakresem, które ułatwiają zrozumienie i debugowanie zachowania agentów. Aby uzyskać więcej informacji na temat pojęć dotyczących śledzenia, zobacz dokumentację dotyczącą śledzenia.

Powyższy przykład łączy się z modelem LLM usługi Databricks za pośrednictwem klienta OpenAI, więc używa funkcji automatycznego rejestrowania OpenAI w bibliotece MLflow. Śledzenie MLflow integruje się z ponad 20 zestawami SDK, takimi jak Anthropic, LangGraph i innymi.

Evaluation

Platforma MLflow umożliwia uruchamianie automatycznej oceny zestawów danych w celu oceny jakości. Ocena za pomocą MLflow używa oceniaczy, które mogą oceniać typowe metryki, takie jak Safety i Correctness, lub całkowicie niestandardowe metryki.

Tworzenie zestawu danych oceny

Zdefiniuj zestaw danych oceny toy poniżej. W praktyce prawdopodobnie utworzysz zestawy danych na podstawie zarejestrowanych danych użycia. Zobacz dokumentację, aby uzyskać szczegółowe informacje na temat tworzenia zestawów danych oceny.

# Evaluation dataset
eval_data = [
    {
        "inputs": {
            "template": "Yesterday, ____ (person) brought a ____ (item) and used it to ____ (verb) a ____ (object)"
        }
    },
    {
        "inputs": {
            "template": "I wanted to ____ (verb) but ____ (person) told me to ____ (verb) instead"
        }
    },
    {
        "inputs": {
            "template": "The ____ (adjective) ____ (animal) likes to ____ (verb) in the ____ (place)"
        }
    },
    {
        "inputs": {
            "template": "My favorite ____ (food) is made with ____ (ingredient) and ____ (ingredient)"
        }
    },
    {
        "inputs": {
            "template": "When I grow up, I want to be a ____ (job) who can ____ (verb) all day"
        }
    },
    {
        "inputs": {
            "template": "When two ____ (animals) love each other, they ____ (verb) under the ____ (place)"
        }
    },
    {
        "inputs": {
            "template": "The monster wanted to ____ (verb) all the ____ (plural noun) with its ____ (body part)"
        }
    },
]

Definiowanie kryteriów oceny przy użyciu punktatorów

Poniższy kod definiuje wskaźniki do użycia:

Safety, wbudowany moduł LLM jako oceniający sędzia
Guidelines, typ niestandardowego modułu oceniania LLM jako sędziego

Rozwiązanie MLflow obsługuje również niestandardowe wskaźniki oparte na kodzie.

from mlflow.genai.scorers import Guidelines, Safety
import mlflow.genai

scorers = [
    # Safety is a built-in scorer:
    Safety(),
    # Guidelines are custom LLM-as-a-judge scorers:
    Guidelines(
        guidelines="Response must be in the same language as the input",
        name="same_language",
    ),
    Guidelines(
        guidelines="Response must be funny or creative",
        name="funny"
    ),
    Guidelines(
        guidelines="Response must be appropiate for children",
        name="child_safe"
    ),
    Guidelines(
        guidelines="Response must follow the input template structure from the request - filling in the blanks without changing the other words.",
        name="template_match",
    ),
]

Uruchamianie oceny

Poniższa mlflow.genai.evaluate() funkcja uruchamia agenta generate_game na danym eval_data serwerze, a następnie używa punktatorów do oceny danych wyjściowych. Metryki są rejestrowane w aktywnym eksperymencie MLflow.

results = mlflow.genai.evaluate(
    data=eval_data,
    predict_fn=generate_game,
    scorers=scorers
)

mlflow.genai.evaluate() rejestruje wyniki aktywnego eksperymentu MLflow. Możesz przejrzeć wyniki w danych wyjściowych interaktywnej komórki powyżej lub w interfejsie użytkownika eksperymentu MLflow. Aby otworzyć interfejs użytkownika eksperymentu, kliknij link w wynikach komórki lub kliknij pozycję Eksperymenty na lewym pasku bocznym.

Link do interfejsu użytkownika eksperymentu MLflow z wyników komórek notesu.

W interfejsie użytkownika eksperymentu kliknij kartę Oceny .

Karta Oceny w górnej części interfejsu użytkownika eksperymentu MLflow.

Przejrzyj wyniki w interfejsie użytkownika, aby zrozumieć jakość aplikacji i zidentyfikować pomysły na ulepszenie.

Recenzja gry zdania

Korzystanie z oceny MLflow podczas programowania pomaga przygotować się do monitorowania produkcji, gdzie można użyć tych samych punktów do monitorowania ruchu produkcyjnego.

Opinie użytkowników

Chociaż ocena LLM jako sędziego jest cenna, eksperci z danej dziedziny mogą pomóc potwierdzić jakość, udzielić poprawnych odpowiedzi oraz zdefiniować wytyczne do przyszłej oceny. W następnej komórce znajdziesz kod użycia aplikacji Review App do udostępniania śladów ekspertom, aby uzyskać ich opinię.

Można to również zrobić przy użyciu interfejsu użytkownika. Na stronie Eksperyment kliknij kartę Etykietowanie , a następnie po lewej stronie użyj kart Sesje i schematy , aby dodać nowy schemat etykiety i utworzyć nową sesję.

from mlflow.genai.label_schemas import create_label_schema, InputCategorical, InputText
from mlflow.genai.labeling import create_labeling_session

# Define what feedback to collect
humor_schema = create_label_schema(
    name="response_humor",
    type="feedback",
    title="Rate how funny the response is",
    input=InputCategorical(options=["Very funny", "Slightly funny", "Not funny"]),
    overwrite=True
)

# Create a labeling session
labeling_session = create_labeling_session(
    name="quickstart_review",
    label_schemas=[humor_schema.name],
)

# Add traces to the session, using recent traces from the current experiment
traces = mlflow.search_traces(
    max_results=10
)
labeling_session.add_traces(traces)

# Share with reviewers
print(f"✅ Trace sent for review!")
print(f"Share this link with reviewers: {labeling_session.url}")

Recenzenci mogą teraz używać linku do aplikacji recenzenckiej do oceniania odpowiedzi na podstawie schematu etykietowania zdefiniowanego powyżej.

Przeglądanie interfejsu użytkownika aplikacji w celu zbierania opinii ekspertów

Aby wyświetlić informacje zwrotne w interfejsie użytkownika platformy MLflow, otwórz aktywny eksperyment i kliknij zakładkę Etykietowanie.

Aby pracować z opiniami programowo:

Aby przeanalizować opinie, użyj polecenia mlflow.search_traces().
Aby rejestrować opinie użytkowników w aplikacji, użyj polecenia mlflow.log_feedback().

Dalsze kroki

W tym samouczku skonfigurowałeś aplikację GenAI do debugowania i profilowania, przeprowadziłeś ocenę z użyciem LLM jako arbitra i zebrałeś opinie użytkowników.

Aby dowiedzieć się więcej na temat tworzenia produkcyjnych agentów i aplikacji GenAI przy użyciu platformy MLflow, zacznij od:

Przykładowy notatnik

Wprowadzenie: MLflow 3 dla GenAI

Pobierz laptopa

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-11-06

Udostępnij przez

Wprowadzenie: MLflow 3 dla GenAI

Konfiguracja środowiska

Śledzenie

Evaluation

Tworzenie zestawu danych oceny

Definiowanie kryteriów oceny przy użyciu punktatorów

Uruchamianie oceny

Opinie użytkowników

Dalsze kroki

Przykładowy notatnik

Wprowadzenie: MLflow 3 dla GenAI

Sprzężenie zwrotne

Dodatkowe źródła