Avaliar o desempenho do modelo.
Avaliar o desempenho do modelo em fases diferentes é crucial para garantir sua eficácia e confiabilidade. Antes de explorar as várias opções que você tem para avaliar seu modelo, vamos explorar os aspectos do seu aplicativo que você pode avaliar.
Ao desenvolver um aplicativo de IA generativa, você usa um modelo de linguagem em seu aplicativo de chat para gerar uma resposta. Para ajudar você a decidir qual modelo deseja integrar ao seu aplicativo, você pode avaliar o desempenho de um modelo de linguagem individual:
Uma entrada (1) é fornecida a um modelo de idioma (2) e uma resposta é gerada como saída (3). Em seguida, o modelo é avaliado analisando a entrada, a saída e, opcionalmente, comparando-o com a saída esperada predefinida.
Ao desenvolver um aplicativo de IA gerativo, você pode integrar um modelo de linguagem a um fluxo de chat:
Um fluxo de chat permite orquestrar fluxos executáveis que podem combinar vários modelos de linguagem e código Python. O fluxo espera uma entrada (1), a processa por meio da execução de vários nós (2) e gera uma saída (3). Você pode avaliar um fluxo de chat completo e seus componentes individuais.
Ao avaliar sua solução, você pode começar a testar um modelo individual e, eventualmente, testar um fluxo de chat completo para validar se o aplicativo de IA generativa está funcionando conforme o esperado.
Vamos explorar várias abordagens para avaliar seu modelo e fluxo de chat ou aplicativo de IA generativa.
Parâmetro de comparação de modelos
Os parâmetros de comparação de modelo são métricas publicamente disponíveis entre modelos e conjuntos de dados. Esses parâmetros de comparação ajudam você a entender o desempenho do modelo em relação a outras pessoas. Alguns parâmetros de comparação comumente usados incluem:
- Precisão: Compara o texto gerado pelo modelo com a resposta correta de acordo com o conjunto de dados. O resultado é um se o texto gerado corresponder exatamente à resposta e zero caso contrário.
- Coerência: Mede se a saída do modelo flui suavemente, lê naturalmente e se assemelha à linguagem humana
- Fluência: Avalia até que ponto o texto gerado adere a regras gramaticais, estruturas sintáticas e uso apropriado do vocabulário, resultando em respostas linguisticamente corretas e de som natural.
- Similaridade de GPT: Quantifica a similaridade semântica entre uma frase de verdade básica (ou documento) e a sentença de previsão gerada por um modelo de IA.
No portal do Microsoft Foundry, você pode explorar os parâmetros de comparação de modelo para todos os modelos disponíveis antes de implantar um modelo:
Avaliação manual
As avaliações manuais envolvem avaliadores humanos que avaliam a qualidade das respostas do modelo. Essa abordagem fornece insights sobre aspectos que as métricas automatizadas podem perder, como relevância do contexto e satisfação do usuário. Os avaliadores humanos podem classificar as respostas com base em critérios como relevância, informativa e engajamento.
Métricas assistidas por IA
As métricas assistidas por IA usam técnicas avançadas para avaliar o desempenho do modelo. Essas métricas podem incluir:
Métricas de qualidade de geração: Essas métricas avaliam a qualidade geral do texto gerado, considerando fatores como criatividade, coerência e adesão ao estilo ou tom desejados.
Métricas de risco e segurança: Essas métricas avaliam os riscos potenciais e as preocupações de segurança associadas às saídas do modelo. Eles ajudam a garantir que o modelo não gere conteúdo prejudicial ou tendencioso.
Métricas de processamento de idioma natural
As métricas de NLP (processamento de linguagem natural) também são valiosas na avaliação do desempenho do modelo. Uma dessas métricas é a pontuação F1, que mede a proporção do número de palavras compartilhadas entre as respostas geradas e a verdade fundamental. A pontuação F1 é útil para tarefas como classificação de texto e recuperação de informações, em que a precisão e o recall são importantes. Outras métricas comuns do NLP incluem:
- BLEU: Métrica Bilingual Evaluation Understudy
- METEOR: Métrica para avaliação de tradução com ordenação explícita
- ROUGE: Métrica de Abrangência para Avaliação de Essência
Todas essas métricas são usadas para quantificar o nível de sobreposição na resposta gerada pelo modelo e na verdade básica (resposta esperada).