Migrar para o MLflow 3 a partir da avaliação do agente: referência rápida

Esta referência rápida resume as principais alterações na migração da Avaliação do Agente e do MLflow 2 para as APIs aprimoradas no MLflow 3. Veja o guia completo em Migrar do Avaliação do Agente para o MLflow 3.

Importar atualizações

### Old imports ###
from mlflow import evaluate
from databricks.agents.evals import metric
from databricks.agents.evals import judges

from databricks.agents import review_app

### New imports ###
from mlflow.genai import evaluate
from mlflow.genai.scorers import scorer
from mlflow.genai import judges
# For predefined scorers:
from mlflow.genai.scorers import (
    Correctness, Guidelines, ExpectationsGuidelines,
    RelevanceToQuery, Safety, RetrievalGroundedness,
    RetrievalRelevance, RetrievalSufficiency
)

import mlflow.genai.labeling as labeling
import mlflow.genai.label_schemas as schemas

Função de avaliação

MLflow 2.x	MLflow 3.x
`mlflow.evaluate()`	`mlflow.genai.evaluate()`
`model=my_agent`	`predict_fn=my_agent`
`model_type="databricks-agent"`	(não necessário)
`extra_metrics=[...]`	`scorers=[...]`
`evaluator_config={...}`	(configuração em scorers)

Seleção do juiz

MLflow 2.x	MLflow 3.x
Executa automaticamente todos os juízes aplicáveis com base nos dados	Deve especificar explicitamente quais pontuadores usar
Uso `evaluator_config` para limitar juízes	Passe os pontuadores desejados para o parâmetro `scorers`
`global_guidelines` nas definições	Usar `Guidelines()` pontuador
Juízes selecionados com base nos campos de dados disponíveis	Você controla exatamente quais marcadores correm

Campos de dados

Campo MLflow 2.x	Campo MLflow 3.x	Descrição
`request`	`inputs`	Entrada do agente
`response`	`outputs`	Saída do agente
`expected_response`	`expectations`	Verdade fundamental
`retrieved_context`	Acedido através de rastreios	Contexto a partir do rastreio
`guidelines`	Parte da configuração do marcador	Movido para o nível de pontuador

Métricas e pontuadores personalizados

MLflow 2.x	MLflow 3.x	Observações
`@metric` decorador	`@scorer` decorador	Novo nome
`def my_metric(request, response, ...)`	`def my_scorer(inputs, outputs, expectations, traces)`	Simplificado
Vários parâmetros com o prefixo expected_*	Único `expectations` parâmetro que é um ditado	Consolidado
`custom_expected`	Parte do `expectations` ditado	Simplificado
parâmetro `request`	parâmetro `inputs`	Nomenclatura consistente
parâmetro `response`	parâmetro `outputs`	Nomenclatura consistente

Acesso aos resultados

MLflow 2.x	MLflow 3.x
`results.tables['eval_results']`	`mlflow.search_traces(run_id=results.run_id)`
Acesso direto ao DataFrame	Iterar através de rastros e análises

Juízes de LLM

Caso de uso	MLflow 2.x	MLflow 3.x Recomendado
Verificação de correção básica	`judges.correctness()` no `@metric`	`Correctness()` pontuador ou `judges.is_correct()` juiz
Avaliação da segurança	`judges.safety()` no `@metric`	`Safety()` pontuador ou `judges.is_safe()` juiz
Diretrizes globais	`judges.guideline_adherence()`	`Guidelines()` pontuador ou `judges.meets_guidelines()` juiz
Diretrizes para eval-set-row	`judges.guideline_adherence()` com esperado_*	`ExpectationsGuidelines()` pontuador ou `judges.meets_guidelines()` juiz
Verifique a existência de suporte factual	`judges.groundedness()`	`judges.is_grounded()` ou `RetrievalGroundedness()` marcador
Verificar a relevância do contexto	`judges.relevance_to_query()`	`judges.is_context_relevant()` ou `RelevanceToQuery()` marcador
Verificar a relevância dos blocos de contexto	`judges.chunk_relevance()`	`judges.is_context_relevant()` ou `RetrievalRelevance()` marcador
Verificar a exaustividade do contexto	`judges.context_sufficiency()`	`judges.is_context_sufficient()` ou `RetrievalSufficiency()` marcador
Lógica personalizada complexa	Juiz direto chama `@metric`	Marcadores pré-definidos ou `@scorer`, com chamadas de juízes

Feedback humano

MLflow 2.x	MLflow 3.x
`databricks.agents.review_app`	`mlflow.genai.labeling`
`databricks.agents.datasets`	`mlflow.genai.datasets`
`review_app.label_schemas.*`	`mlflow.genai.label_schemas.*`
`app.create_labeling_session()`	`labeling.create_labeling_session()`

Comandos comuns de migração

# Find old evaluate calls
grep -r "mlflow.evaluate" . --include="*.py"

# Find old metric decorators
grep -r "@metric" . --include="*.py"

# Find old data fields
grep -r '"request":\|"response":\|"expected_response":' . --include="*.py"

# Find old imports
grep -r "databricks.agents" . --include="*.py"

Recursos adicionais

Para obter suporte adicional durante a migração, consulte a documentação do MLflow ou entre em contato com sua equipe de suporte do Databricks.

Feedback

Esta página foi útil?

Last updated on 2025-12-18

Partilhar via

Migrar para o MLflow 3 a partir da avaliação do agente: referência rápida

Importar atualizações

Função de avaliação

Seleção do juiz

Campos de dados

Métricas e pontuadores personalizados

Acesso aos resultados

Juízes de LLM

Feedback humano

Comandos comuns de migração

Recursos adicionais

Feedback

Recursos adicionais