Essa referência rápida resume as principais alterações para migrar da Avaliação do Agente e do MLflow 2 para as APIs aprimoradas no MLflow 3.
Veja o guia completo em Migrar para o MLflow 3 a partir da Avaliação do Agente.
Importar atualizações
### Old imports ###
from mlflow import evaluate
from databricks.agents.evals import metric
from databricks.agents.evals import judges
from databricks.agents import review_app
### New imports ###
from mlflow.genai import evaluate
from mlflow.genai.scorers import scorer
from mlflow.genai import judges
# For predefined scorers:
from mlflow.genai.scorers import (
Correctness, Guidelines, ExpectationsGuidelines,
RelevanceToQuery, Safety, RetrievalGroundedness,
RetrievalRelevance, RetrievalSufficiency
)
import mlflow.genai.labeling as labeling
import mlflow.genai.label_schemas as schemas
Função de avaliação
| MLflow 2.x |
MLflow 3.x |
mlflow.evaluate() |
mlflow.genai.evaluate() |
model=my_agent |
predict_fn=my_agent |
model_type="databricks-agent" |
(não necessário) |
extra_metrics=[...] |
scorers=[...] |
evaluator_config={...} |
(configuração em marcadores) |
Seleção do juiz
| MLflow 2.x |
MLflow 3.x |
| Executa automaticamente todas as avaliações aplicáveis com base nos dados |
Deve especificar explicitamente quais avaliadores usar |
Usar evaluator_config para limitar juízes |
Insira os avaliadores desejados no parâmetro scorers |
global_guidelines na configuração |
Usar o marcador Guidelines() |
| Juízes selecionados com base nos campos de dados disponíveis |
Você controla exatamente quais marcadores serão executados |
Campos de dados
| Campo MLflow 2.x |
Campo MLflow 3.x |
Descrição |
request |
inputs |
Entrada do agente |
response |
outputs |
Saída do agente |
expected_response |
expectations |
Verdade básica |
retrieved_context |
Acessado por meio de rastreamentos |
Contexto do rastreamento |
guidelines |
Parte da configuração do marcador |
Movido para o nível do marcador |
Métricas e pontuadores personalizados
| MLflow 2.x |
MLflow 3.x |
Anotações |
@metric decorador |
@scorer decorador |
Novo nome |
def my_metric(request, response, ...) |
def my_scorer(inputs, outputs, expectations, traces) |
Simplificado |
| Vários parâmetros expected_* |
Parâmetro único expectations que é um dicionário |
Consolidado |
custom_expected |
Parte do dicionário expectations |
Simplificado |
Parâmetro request |
Parâmetro inputs |
Nomenclatura consistente |
Parâmetro response |
Parâmetro outputs |
Nomenclatura consistente |
Acesso a resultados
| MLflow 2.x |
MLflow 3.x |
results.tables['eval_results'] |
mlflow.search_traces(run_id=results.run_id) |
| Acesso direto ao DataFrame |
Iterar por rastreamentos e avaliações |
Avaliadores de LLM
| Caso de Uso |
MLflow 2.x |
MLflow 3.x Recomendado |
| Verificação de correção básica |
judges.correctness() em @metric |
Correctness() pontuador ou judges.is_correct() juiz |
| Avaliação de segurança |
judges.safety() em @metric |
Safety() pontuador ou judges.is_safe() juiz |
| Diretrizes globais |
judges.guideline_adherence() |
Guidelines() pontuador ou judges.meets_guidelines() juiz |
| Diretrizes para cada linha do conjunto de avaliação |
judges.guideline_adherence() com expected_* |
ExpectationsGuidelines() pontuador ou judges.meets_guidelines() juiz |
| Verificar suporte fático |
judges.groundedness() |
Marcador judges.is_grounded() ou RetrievalGroundedness() |
| Verificar a relevância do contexto |
judges.relevance_to_query() |
Marcador judges.is_context_relevant() ou RelevanceToQuery() |
| Verificar a relevância das partes de contexto |
judges.chunk_relevance() |
Marcador judges.is_context_relevant() ou RetrievalRelevance() |
| Verificar a integridade do contexto |
judges.context_sufficiency() |
Marcador judges.is_context_sufficient() ou RetrievalSufficiency() |
| Lógica personalizada complexa |
O avaliador direto chama @metric |
Marcadores predefinidos ou @scorer com chamadas de avaliador |
Comentários humanos
| MLflow 2.x |
MLflow 3.x |
databricks.agents.review_app |
mlflow.genai.labeling |
databricks.agents.datasets |
mlflow.genai.datasets |
review_app.label_schemas.* |
mlflow.genai.label_schemas.* |
app.create_labeling_session() |
labeling.create_labeling_session() |
Comandos comuns de migração
# Find old evaluate calls
grep -r "mlflow.evaluate" . --include="*.py"
# Find old metric decorators
grep -r "@metric" . --include="*.py"
# Find old data fields
grep -r '"request":\|"response":\|"expected_response":' . --include="*.py"
# Find old imports
grep -r "databricks.agents" . --include="*.py"
Recursos adicionais
Para obter suporte adicional durante a migração, consulte a documentação do MLflow ou entre em contato com sua equipe de suporte do Databricks.