Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O MLflow 3 para GenAI é uma plataforma aberta que unifica o acompanhamento, a avaliação e a observabilidade de aplicativos e agentes do GenAI em todo o ciclo de vida de desenvolvimento e produção. Ele inclui registro em log de rastreamento em tempo real, pontuadores internos e personalizados, incorporação de comentários humanos e acompanhamento de versão para ajudá-lo a avaliar e melhorar a qualidade do aplicativo com eficiência durante o desenvolvimento e continuar acompanhando e melhorando a qualidade na produção.
O MLflow gerenciado no Databricks expande o MLflow de código aberto com capacidades projetadas para aplicativos GenAI de produção, incluindo governança pronta para empresas, hospedagem totalmente gerenciada, escalonamento em nível de produção e integração com seus dados no Databricks Lakehouse e Unity Catalog.
Para obter informações sobre a avaliação do agente no MLflow 2, consulte a Avaliação do Agente de IA do Mosaico (MLflow 2) e o guia de migração. Para o MLflow 3, os métodos do SDK de Avaliação do Agente foram integrados ao MLflow gerenciado pelo Databricks.
Para obter um conjunto de tutoriais para começar, consulte Introdução.
Como o MLflow 3 ajuda a otimizar a qualidade do aplicativo GenAI
Avaliar aplicativos e agentes do GenAI é mais complexo do que avaliar o software tradicional. Entradas e saídas geralmente são texto de forma livre e muitas saídas diferentes podem ser consideradas corretas. A qualidade depende não apenas da correção, mas também de fatores como precisão, comprimento, integridade, adequação e outros critérios específicos para o caso de uso. Como as LLMs são inerentemente não determinísticas e os agentes do GenAI incluem componentes adicionais, como recuperadores e ferramentas, suas respostas podem variar de execução para execução.
Os desenvolvedores precisam de métricas concretas de qualidade, avaliação automatizada e monitoramento contínuo para criar e implantar aplicativos de IA robustos. O MLflow 3 para GenAI fornece estas peças-chave para desenvolvimento eficiente, implantação e melhoria contínua:
- O rastreamento registra automaticamente entradas, etapas intermediárias e saídas e fornece a base de dados para avaliação e monitoramento.
- Os juízes e pontuadores de LLM internos e personalizados permitem definir vários aspectos da qualidade e personalizar as métricas para seu caso de uso.
- Os aplicativos de revisão para comentários de especialistas permitem coletar e rotular conjuntos de dados para avaliação e alinhar juízes e pontuadores automatizados com o julgamento de especialistas.
- A avaliação e o monitoramento automatizados aproveitam os mesmos juízes e pontuadores durante o desenvolvimento e a produção.
- O controle de versão de aplicativo e prompt permite que você compare versões e acompanhe melhorias em relação às iterações.
Usando o MLflow 3 no Databricks, você pode levar a IA aos seus dados para ajudá-lo a entender profundamente e melhorar a qualidade. O Catálogo do Unity fornece governança consistente para prompts, aplicativos e rastreamentos. O MLflow oferece suporte a você usando qualquer modelo ou framework, em todo o loop de desenvolvimento, como também na produção.
Introdução
Comece a criar melhores aplicativos GenAI com ferramentas abrangentes de observabilidade e avaliação.
| Tarefa | Descrição |
|---|---|
| Guia de início rápido | Comece a funcionar em minutos com instruções passo a passo para instrumentar seu primeiro aplicativo com rastreamento, execução de avaliação e coleta de comentários humanos. |
| Comece: Rastreamento de MLflow para GenAI (Databricks Notebook) | Instrumentar um aplicativo GenAI elementar para capturar automaticamente rastreamentos detalhados para depuração e otimização. |
| Tutorial: Avaliar e melhorar um aplicativo GenAI | Conduz você pelo processo de avaliação de um aplicativo de geração de e-mails que utiliza geração aumentada por recuperação (RAG). |
| Demonstração de 10 minutos: Coletar comentários humanos | Colete comentários do usuário final, adicione anotações do desenvolvedor, crie sessões de revisão de especialistas e use esses comentários para avaliar a qualidade do aplicativo GenAI. |
Rastreamento
O Rastreamento de MLflow fornece observabilidade e registra os dados de rastreamento necessários para avaliação e monitoramento.
| Característica | Descrição |
|---|---|
| Rastreamento do MLflow | Observabilidade de ponta a ponta para aplicativos de Inteligência Artificial Generativa (GenAI), incluindo sistemas complexos baseados em agentes. Acompanhe entradas, saídas, etapas intermediárias e metadados para uma imagem completa de como seu aplicativo se comporta. |
| O que é rastreamento? | Introdução aos conceitos de rastreamento. |
| Examinar o comportamento e o desempenho do aplicativo | A visibilidade de execução completa permite capturar prompts, recuperações, chamadas de ferramenta, respostas, latência e custos. |
| Observabilidade de produção | Use a mesma instrumentação em ambientes de desenvolvimento e produção para avaliação consistente. |
| Construir conjuntos de dados de avaliação | Analise rastreamentos para identificar problemas de qualidade, selecione rastreamentos representativos, crie conjuntos de dados de avaliação e melhore sistematicamente seu aplicativo. |
| Integrações de rastreamento | O Rastreamento do MLflow é integrado a muitas bibliotecas e estruturas para rastreamento automático que permite que você obtenha observabilidade imediata em seus aplicativos GenAI com configuração mínima. |
Avaliação e monitoramento
Substitua o teste manual pela avaliação automatizada usando juízes e pontuadores de LLM internos e personalizados que correspondam à experiência humana e podem ser aplicados tanto no desenvolvimento quanto na produção. Cada interação de produção se torna uma oportunidade para melhorar com fluxos de trabalho de avaliação e comentários integrados.
| Característica | Descrição |
|---|---|
| Avaliar e monitorar agentes do GenAI | Visão geral da avaliação e monitoramento de agentes usando o MLflow 3 no Databricks. |
| Juízes e pontuadores do LLM | O MLflow 3 inclui juízes de LLM internos para segurança, relevância, correção, qualidade de recuperação e muito mais. Você também pode criar juízes LLM personalizados e pontuadores baseados em código para seus requisitos de negócios específicos. |
| Avaliação | Execute a avaliação durante o desenvolvimento ou como parte de um processo de lançamento. |
| Monitoramento de produção | Monitore continuamente uma amostra do tráfego de produção usando juízes e pontuadores de LLM. |
| Coletar comentários humanos | Colete e use comentários de especialistas de domínio e usuários finais durante o desenvolvimento e durante a produção para melhoria contínua. |
Gerenciar o ciclo de vida do aplicativo GenAI
Controle e controle de versão de todo o aplicativo GenAI com ferramentas de governança e gerenciamento de ciclo de vida de nível empresarial.
| Característica | Descrição |
|---|---|
| Controle de versão do aplicativo | Acompanhe o código, os parâmetros e as métricas de avaliação para cada versão. |
| Registro de prompt | Gerenciamento centralizado para controle de versão e compartilhamento de prompts em toda a sua organização com recursos de teste A/B e integração do Catálogo do Unity. |
| Integração empresarial |
Catálogo do Unity. Governança unificada para todos os ativos de IA com recursos de segurança, controle de acesso e conformidade corporativos. Inteligência de dados. Conecte seus dados do GenAI aos seus dados de negócios no Databricks Lakehouse e forneça análises personalizadas aos seus stakeholders de negócios. Agente de IA do Mosaico servindo. Implantar agentes na produção com escala e rigor operacional. |