Migrar para o MLflow 3 de Avaliação de Agente: Guia de referência rápida

Essa referência rápida resume as principais alterações para migrar da Avaliação do Agente e do MLflow 2 para as APIs aprimoradas no MLflow 3. Veja o guia completo em Migrar para o MLflow 3 a partir da Avaliação do Agente.

Importar atualizações

### Old imports ###
from mlflow import evaluate
from databricks.agents.evals import metric
from databricks.agents.evals import judges

from databricks.agents import review_app

### New imports ###
from mlflow.genai import evaluate
from mlflow.genai.scorers import scorer
from mlflow.genai import judges
# For predefined scorers:
from mlflow.genai.scorers import (
    Correctness, Guidelines, ExpectationsGuidelines,
    RelevanceToQuery, Safety, RetrievalGroundedness,
    RetrievalRelevance, RetrievalSufficiency
)

import mlflow.genai.labeling as labeling
import mlflow.genai.label_schemas as schemas

Função de avaliação

MLflow 2.x	MLflow 3.x
`mlflow.evaluate()`	`mlflow.genai.evaluate()`
`model=my_agent`	`predict_fn=my_agent`
`model_type="databricks-agent"`	(não necessário)
`extra_metrics=[...]`	`scorers=[...]`
`evaluator_config={...}`	(configuração em marcadores)

Seleção do juiz

MLflow 2.x	MLflow 3.x
Executa automaticamente todas as avaliações aplicáveis com base nos dados	Deve especificar explicitamente quais avaliadores usar
Usar `evaluator_config` para limitar juízes	Insira os avaliadores desejados no parâmetro `scorers`
`global_guidelines` na configuração	Usar o marcador `Guidelines()`
Juízes selecionados com base nos campos de dados disponíveis	Você controla exatamente quais marcadores serão executados

Campos de dados

Campo MLflow 2.x	Campo MLflow 3.x	Descrição
`request`	`inputs`	Entrada do agente
`response`	`outputs`	Saída do agente
`expected_response`	`expectations`	Verdade básica
`retrieved_context`	Acessado por meio de rastreamentos	Contexto do rastreamento
`guidelines`	Parte da configuração do marcador	Movido para o nível do marcador

Métricas e pontuadores personalizados

MLflow 2.x	MLflow 3.x	Anotações
`@metric` decorador	`@scorer` decorador	Novo nome
`def my_metric(request, response, ...)`	`def my_scorer(inputs, outputs, expectations, traces)`	Simplificado
Vários parâmetros expected_*	Parâmetro único `expectations` que é um dicionário	Consolidado
`custom_expected`	Parte do dicionário `expectations`	Simplificado
Parâmetro `request`	Parâmetro `inputs`	Nomenclatura consistente
Parâmetro `response`	Parâmetro `outputs`	Nomenclatura consistente

Acesso a resultados

MLflow 2.x	MLflow 3.x
`results.tables['eval_results']`	`mlflow.search_traces(run_id=results.run_id)`
Acesso direto ao DataFrame	Iterar por rastreamentos e avaliações

Avaliadores de LLM

Caso de Uso	MLflow 2.x	MLflow 3.x Recomendado
Verificação de correção básica	`judges.correctness()` em `@metric`	`Correctness()` pontuador ou `judges.is_correct()` juiz
Avaliação de segurança	`judges.safety()` em `@metric`	`Safety()` pontuador ou `judges.is_safe()` juiz
Diretrizes globais	`judges.guideline_adherence()`	`Guidelines()` pontuador ou `judges.meets_guidelines()` juiz
Diretrizes para cada linha do conjunto de avaliação	`judges.guideline_adherence()` com expected_*	`ExpectationsGuidelines()` pontuador ou `judges.meets_guidelines()` juiz
Verificar suporte fático	`judges.groundedness()`	Marcador `judges.is_grounded()` ou `RetrievalGroundedness()`
Verificar a relevância do contexto	`judges.relevance_to_query()`	Marcador `judges.is_context_relevant()` ou `RelevanceToQuery()`
Verificar a relevância das partes de contexto	`judges.chunk_relevance()`	Marcador `judges.is_context_relevant()` ou `RetrievalRelevance()`
Verificar a integridade do contexto	`judges.context_sufficiency()`	Marcador `judges.is_context_sufficient()` ou `RetrievalSufficiency()`
Lógica personalizada complexa	O avaliador direto chama `@metric`	Marcadores predefinidos ou `@scorer` com chamadas de avaliador

Comentários humanos

MLflow 2.x	MLflow 3.x
`databricks.agents.review_app`	`mlflow.genai.labeling`
`databricks.agents.datasets`	`mlflow.genai.datasets`
`review_app.label_schemas.*`	`mlflow.genai.label_schemas.*`
`app.create_labeling_session()`	`labeling.create_labeling_session()`

Comandos comuns de migração

# Find old evaluate calls
grep -r "mlflow.evaluate" . --include="*.py"

# Find old metric decorators
grep -r "@metric" . --include="*.py"

# Find old data fields
grep -r '"request":\|"response":\|"expected_response":' . --include="*.py"

# Find old imports
grep -r "databricks.agents" . --include="*.py"

Recursos adicionais

Para obter suporte adicional durante a migração, consulte a documentação do MLflow ou entre em contato com sua equipe de suporte do Databricks.

Comentários

Esta página foi útil?

Last updated on 2025-12-18

Compartilhar via

Migrar para o MLflow 3 de Avaliação de Agente: Guia de referência rápida

Importar atualizações

Função de avaliação

Seleção do juiz

Campos de dados

Métricas e pontuadores personalizados

Acesso a resultados

Avaliadores de LLM

Comentários humanos

Comandos comuns de migração

Recursos adicionais

Comentários

Recursos adicionais