Compartilhar via


Migrar para o MLflow 3 de Avaliação de Agente: Guia de referência rápida

Essa referência rápida resume as principais alterações para migrar da Avaliação do Agente e do MLflow 2 para as APIs aprimoradas no MLflow 3. Veja o guia completo em Migrar para o MLflow 3 a partir da Avaliação do Agente.

Importar atualizações

### Old imports ###
from mlflow import evaluate
from databricks.agents.evals import metric
from databricks.agents.evals import judges

from databricks.agents import review_app

### New imports ###
from mlflow.genai import evaluate
from mlflow.genai.scorers import scorer
from mlflow.genai import judges
# For predefined scorers:
from mlflow.genai.scorers import (
    Correctness, Guidelines, ExpectationsGuidelines,
    RelevanceToQuery, Safety, RetrievalGroundedness,
    RetrievalRelevance, RetrievalSufficiency
)

import mlflow.genai.labeling as labeling
import mlflow.genai.label_schemas as schemas

Função de avaliação

MLflow 2.x MLflow 3.x
mlflow.evaluate() mlflow.genai.evaluate()
model=my_agent predict_fn=my_agent
model_type="databricks-agent" (não necessário)
extra_metrics=[...] scorers=[...]
evaluator_config={...} (configuração em marcadores)

Seleção do juiz

MLflow 2.x MLflow 3.x
Executa automaticamente todas as avaliações aplicáveis com base nos dados Deve especificar explicitamente quais avaliadores usar
Usar evaluator_config para limitar juízes Insira os avaliadores desejados no parâmetro scorers
global_guidelines na configuração Usar o marcador Guidelines()
Juízes selecionados com base nos campos de dados disponíveis Você controla exatamente quais marcadores serão executados

Campos de dados

Campo MLflow 2.x Campo MLflow 3.x Descrição
request inputs Entrada do agente
response outputs Saída do agente
expected_response expectations Verdade básica
retrieved_context Acessado por meio de rastreamentos Contexto do rastreamento
guidelines Parte da configuração do marcador Movido para o nível do marcador

Métricas e pontuadores personalizados

MLflow 2.x MLflow 3.x Anotações
@metric decorador @scorer decorador Novo nome
def my_metric(request, response, ...) def my_scorer(inputs, outputs, expectations, traces) Simplificado
Vários parâmetros expected_* Parâmetro único expectations que é um dicionário Consolidado
custom_expected Parte do dicionário expectations Simplificado
Parâmetro request Parâmetro inputs Nomenclatura consistente
Parâmetro response Parâmetro outputs Nomenclatura consistente

Acesso a resultados

MLflow 2.x MLflow 3.x
results.tables['eval_results'] mlflow.search_traces(run_id=results.run_id)
Acesso direto ao DataFrame Iterar por rastreamentos e avaliações

Avaliadores de LLM

Caso de Uso MLflow 2.x MLflow 3.x Recomendado
Verificação de correção básica judges.correctness() em @metric Correctness() pontuador ou judges.is_correct() juiz
Avaliação de segurança judges.safety() em @metric Safety() pontuador ou judges.is_safe() juiz
Diretrizes globais judges.guideline_adherence() Guidelines() pontuador ou judges.meets_guidelines() juiz
Diretrizes para cada linha do conjunto de avaliação judges.guideline_adherence() com expected_* ExpectationsGuidelines() pontuador ou judges.meets_guidelines() juiz
Verificar suporte fático judges.groundedness() Marcador judges.is_grounded() ou RetrievalGroundedness()
Verificar a relevância do contexto judges.relevance_to_query() Marcador judges.is_context_relevant() ou RelevanceToQuery()
Verificar a relevância das partes de contexto judges.chunk_relevance() Marcador judges.is_context_relevant() ou RetrievalRelevance()
Verificar a integridade do contexto judges.context_sufficiency() Marcador judges.is_context_sufficient() ou RetrievalSufficiency()
Lógica personalizada complexa O avaliador direto chama @metric Marcadores predefinidos ou @scorer com chamadas de avaliador

Comentários humanos

MLflow 2.x MLflow 3.x
databricks.agents.review_app mlflow.genai.labeling
databricks.agents.datasets mlflow.genai.datasets
review_app.label_schemas.* mlflow.genai.label_schemas.*
app.create_labeling_session() labeling.create_labeling_session()

Comandos comuns de migração

# Find old evaluate calls
grep -r "mlflow.evaluate" . --include="*.py"

# Find old metric decorators
grep -r "@metric" . --include="*.py"

# Find old data fields
grep -r '"request":\|"response":\|"expected_response":' . --include="*.py"

# Find old imports
grep -r "databricks.agents" . --include="*.py"

Recursos adicionais

Para obter suporte adicional durante a migração, consulte a documentação do MLflow ou entre em contato com sua equipe de suporte do Databricks.