MLflow 3 para GenAI

O MLflow 3 para GenAI é uma plataforma aberta que unifica o acompanhamento, a avaliação e a observabilidade de aplicativos e agentes do GenAI em todo o ciclo de vida de desenvolvimento e produção. Ele inclui registro em log de rastreamento em tempo real, pontuadores internos e personalizados, incorporação de comentários humanos e acompanhamento de versão para ajudá-lo a avaliar e melhorar a qualidade do aplicativo com eficiência durante o desenvolvimento e continuar acompanhando e melhorando a qualidade na produção.

O MLflow gerenciado no Databricks expande o MLflow de código aberto com capacidades projetadas para aplicativos GenAI de produção, incluindo governança pronta para empresas, hospedagem totalmente gerenciada, escalonamento em nível de produção e integração com seus dados no Databricks Lakehouse e Unity Catalog.

Para obter informações sobre a avaliação do agente no MLflow 2, consulte a Avaliação do Agente de IA do Mosaico (MLflow 2) e o guia de migração. Para o MLflow 3, os métodos do SDK de Avaliação do Agente foram integrados ao MLflow gerenciado pelo Databricks.

Para obter um conjunto de tutoriais para começar, consulte Introdução.

Como o MLflow 3 ajuda a otimizar a qualidade do aplicativo GenAI

Avaliar aplicativos e agentes do GenAI é mais complexo do que avaliar o software tradicional. Entradas e saídas geralmente são texto de forma livre e muitas saídas diferentes podem ser consideradas corretas. A qualidade depende não apenas da correção, mas também de fatores como precisão, comprimento, integridade, adequação e outros critérios específicos para o caso de uso. Como as LLMs são inerentemente não determinísticas e os agentes do GenAI incluem componentes adicionais, como recuperadores e ferramentas, suas respostas podem variar de execução para execução.

Os desenvolvedores precisam de métricas concretas de qualidade, avaliação automatizada e monitoramento contínuo para criar e implantar aplicativos de IA robustos. O MLflow 3 para GenAI fornece estas peças-chave para desenvolvimento eficiente, implantação e melhoria contínua:

O rastreamento registra automaticamente entradas, etapas intermediárias e saídas e fornece a base de dados para avaliação e monitoramento.
Os juízes e pontuadores de LLM internos e personalizados permitem definir vários aspectos da qualidade e personalizar as métricas para seu caso de uso.
Os aplicativos de revisão para comentários de especialistas permitem coletar e rotular conjuntos de dados para avaliação e alinhar juízes e pontuadores automatizados com o julgamento de especialistas.
A avaliação e o monitoramento automatizados aproveitam os mesmos juízes e pontuadores durante o desenvolvimento e a produção.
O controle de versão de aplicativo e prompt permite que você compare versões e acompanhe melhorias em relação às iterações.

Usando o MLflow 3 no Databricks, você pode levar a IA aos seus dados para ajudá-lo a entender profundamente e melhorar a qualidade. O Catálogo do Unity fornece governança consistente para prompts, aplicativos e rastreamentos. O MLflow oferece suporte a você usando qualquer modelo ou framework, em todo o loop de desenvolvimento, como também na produção.

Introdução

Comece a criar melhores aplicativos GenAI com ferramentas abrangentes de observabilidade e avaliação.

Tarefa	Descrição
Guia de início rápido	Comece a funcionar em minutos com instruções passo a passo para instrumentar seu primeiro aplicativo com rastreamento, execução de avaliação e coleta de comentários humanos.
Comece: Rastreamento de MLflow para GenAI (Databricks Notebook)	Instrumentar um aplicativo GenAI elementar para capturar automaticamente rastreamentos detalhados para depuração e otimização.
Tutorial: Avaliar e melhorar um aplicativo GenAI	Conduz você pelo processo de avaliação de um aplicativo de geração de e-mails que utiliza geração aumentada por recuperação (RAG).
Demonstração de 10 minutos: Coletar comentários humanos	Colete comentários do usuário final, adicione anotações do desenvolvedor, crie sessões de revisão de especialistas e use esses comentários para avaliar a qualidade do aplicativo GenAI.

Rastreamento

O Rastreamento de MLflow fornece observabilidade e registra os dados de rastreamento necessários para avaliação e monitoramento.

Característica	Descrição
Rastreamento do MLflow	Observabilidade de ponta a ponta para aplicativos de Inteligência Artificial Generativa (GenAI), incluindo sistemas complexos baseados em agentes. Acompanhe entradas, saídas, etapas intermediárias e metadados para uma imagem completa de como seu aplicativo se comporta.
O que é rastreamento?	Introdução aos conceitos de rastreamento.
Examinar o comportamento e o desempenho do aplicativo	A visibilidade de execução completa permite capturar prompts, recuperações, chamadas de ferramenta, respostas, latência e custos.
Observabilidade de produção	Use a mesma instrumentação em ambientes de desenvolvimento e produção para avaliação consistente.
Construir conjuntos de dados de avaliação	Analise rastreamentos para identificar problemas de qualidade, selecione rastreamentos representativos, crie conjuntos de dados de avaliação e melhore sistematicamente seu aplicativo.
Integrações de rastreamento	O Rastreamento do MLflow é integrado a muitas bibliotecas e estruturas para rastreamento automático que permite que você obtenha observabilidade imediata em seus aplicativos GenAI com configuração mínima.

Avaliação e monitoramento

Substitua o teste manual pela avaliação automatizada usando juízes e pontuadores de LLM internos e personalizados que correspondam à experiência humana e podem ser aplicados tanto no desenvolvimento quanto na produção. Cada interação de produção se torna uma oportunidade para melhorar com fluxos de trabalho de avaliação e comentários integrados.

Característica	Descrição
Avaliar e monitorar agentes do GenAI	Visão geral da avaliação e monitoramento de agentes usando o MLflow 3 no Databricks.
Juízes e pontuadores do LLM	O MLflow 3 inclui juízes de LLM internos para segurança, relevância, correção, qualidade de recuperação e muito mais. Você também pode criar juízes LLM personalizados e pontuadores baseados em código para seus requisitos de negócios específicos.
Avaliação	Execute a avaliação durante o desenvolvimento ou como parte de um processo de lançamento.
Monitoramento de produção	Monitore continuamente uma amostra do tráfego de produção usando juízes e pontuadores de LLM.
Coletar comentários humanos	Colete e use comentários de especialistas de domínio e usuários finais durante o desenvolvimento e durante a produção para melhoria contínua.

Gerenciar o ciclo de vida do aplicativo GenAI

Controle e controle de versão de todo o aplicativo GenAI com ferramentas de governança e gerenciamento de ciclo de vida de nível empresarial.

Característica	Descrição
Controle de versão do aplicativo	Acompanhe o código, os parâmetros e as métricas de avaliação para cada versão.
Registro de prompt	Gerenciamento centralizado para controle de versão e compartilhamento de prompts em toda a sua organização com recursos de teste A/B e integração do Catálogo do Unity.
Integração empresarial	Catálogo do Unity. Governança unificada para todos os ativos de IA com recursos de segurança, controle de acesso e conformidade corporativos. Inteligência de dados. Conecte seus dados do GenAI aos seus dados de negócios no Databricks Lakehouse e forneça análises personalizadas aos seus stakeholders de negócios. Agente de IA do Mosaico servindo. Implantar agentes na produção com escala e rigor operacional.

Comentários

Esta página foi útil?

Last updated on 2025-11-26