Avaliar o desempenho do modelo

Concluído

Avaliar o desempenho do seu modelo em diferentes fases é crucial para garantir a sua eficácia e fiabilidade. Antes de explorar as várias opções que você tem para avaliar seu modelo, vamos explorar os aspetos do seu aplicativo que você pode avaliar.

Ao desenvolver um aplicativo de IA generativa, você usa um modelo de linguagem em seu aplicativo de bate-papo para gerar uma resposta. Para ajudá-lo a decidir qual modelo deseja integrar ao seu aplicativo, você pode avaliar o desempenho de um modelo de idioma individual:

Diagrama de uma interação com um modelo de linguagem.

Uma entrada (1) é fornecida a um modelo de linguagem (2), e uma resposta é gerada como saída (3). O modelo é então avaliado analisando a entrada, a saída e, opcionalmente, comparando-a com a saída esperada predefinida.

Ao desenvolver um aplicativo de IA generativa, você pode integrar um modelo de linguagem em um fluxo de bate-papo:

Diagrama de um fluxo de bate-papo usando um modelo de linguagem.

Um fluxo de chat permite orquestrar fluxos executáveis que podem combinar vários modelos de linguagem e código Python. O fluxo espera uma entrada (1), processa-a através da execução de vários nós (2) e gera uma saída (3). Você pode avaliar um fluxo de bate-papo completo e seus componentes individuais.

Ao avaliar sua solução, você pode começar testando um modelo individual e, eventualmente, testar um fluxo de bate-papo completo para validar se seu aplicativo de IA generativa está funcionando conforme o esperado.

Vamos explorar várias abordagens para avaliar seu modelo e fluxo de bate-papo, ou aplicativo de IA generativa.

Referências de Modelos

Os benchmarks de modelos são métricas disponíveis publicamente em modelos e conjuntos de dados. Esses benchmarks ajudam você a entender o desempenho do seu modelo em relação aos outros. Alguns parâmetros de referência comummente utilizados incluem:

  • Precisão: Compara o texto gerado pelo modelo com a resposta correta de acordo com o conjunto de dados. O resultado é um se o texto gerado corresponder exatamente à resposta e zero caso contrário.
  • Coerência: Mede se a saída do modelo flui suavemente, lê naturalmente e se assemelha a uma linguagem semelhante à humana
  • Fluência: Avalia o quão bem o texto gerado adere às regras gramaticais, estruturas sintáticas e uso adequado do vocabulário, resultando em respostas linguisticamente corretas e com sonoridade natural.
  • Semelhança GPT: Quantifica a semelhança semântica entre uma sentença de verdade fundamental (ou documento) e a sentença de previsão gerada por um modelo de IA.

No portal Microsoft Foundry, pode explorar os benchmarks de modelos para todos os modelos disponíveis, antes de implementar um modelo:

Captura de ecrã dos benchmarks de modelos no portal Microsoft Foundry.

Avaliações manuais

As avaliações manuais envolvem avaliadores humanos que avaliam a qualidade das respostas do modelo. Essa abordagem fornece informações sobre aspetos que as métricas automatizadas podem perder, como relevância do contexto e satisfação do usuário. Os avaliadores humanos podem classificar as respostas com base em critérios como relevância, informatividade e envolvimento.

Métricas assistidas por IA

As métricas assistidas por IA usam técnicas avançadas para avaliar o desempenho do modelo. Essas métricas podem incluir:

  • Métricas de qualidade de geração: essas métricas avaliam a qualidade geral do texto gerado, considerando fatores como criatividade, coerência e aderência ao estilo ou tom desejado.

  • Métricas de risco e segurança: essas métricas avaliam os riscos potenciais e as preocupações de segurança associadas aos resultados do modelo. Eles ajudam a garantir que o modelo não gere conteúdo prejudicial ou tendencioso.

Métricas de processamento de linguagem natural

As métricas de processamento de linguagem natural (NLP) também são valiosas na avaliação do desempenho do modelo. Uma dessas métricas é a pontuação F1, que mede a proporção de palavras compartilhadas entre as respostas geradas e as respostas verdadeiras. A pontuação F1 é útil para tarefas como classificação de texto e recuperação de informações, onde a precisão e a recuperação são importantes. Outras métricas comuns de PNL incluem:

  • BLEU: Métrica de apoio à avaliação bilingue
  • METEOR: Métrica para Avaliação da Tradução com Ordenação Explícita
  • ROUGE: Recall-Oriented Substituto para Avaliação de Sumário

Todas essas métricas são usadas para quantificar o nível de sobreposição na resposta gerada pelo modelo e a verdade no terreno (resposta esperada).