Escolha métodos de avaliação

[Este artigo é uma documentação de pré-lançamento e está sujeito a alterações.]

No Copilot Studio, pode criar um conjunto de testes de casos para avaliar o desempenho dos seus agentes. Os casos de teste permitem simular cenários do mundo real para seu agente, para que você possa medir a precisão, a relevância e a qualidade das respostas às perguntas feitas ao agente, com base nas informações que o agente pode acessar. Ao utilizar os resultados do conjunto de testes, pode otimizar o comportamento do seu agente e validar que cumpre os requisitos de negócio e qualidade.

Importante

Este artigo contém a documentação de visualização do Microsoft Copilot Studio e está sujeito a alterações.

As funcionalidades de pré-visualização não se destinam a utilização em produção e podem ter funcionalidades restritas. Esses recursos estão disponíveis antes de um lançamento oficial para que você possa obter acesso antecipado e fornecer feedback.

Se você estiver criando um agente pronto para produção, consulte Visão geral do Microsoft Copilot Studio.

Métodos de teste

Ao criar conjuntos de teste, pode escolher entre diferentes métodos para avaliar as respostas do seu agente: correspondência de texto, similaridade e qualidade. Cada método de teste tem os seus próprios pontos fortes e é adequado para diferentes tipos de avaliações.

Métodos de teste de correspondência de texto

Os métodos de teste de correspondência de texto comparam as respostas do agente com as respostas esperadas definidas no conjunto de testes. Existem dois testes de correspondência:

A correspondência exata verifica se a resposta do agente corresponde exatamente à resposta esperada no teste: caractere por caractere, palavra por palavra. Se for igual, passa. Se alguma coisa difere, reprova. A correspondência exata é útil para respostas curtas e precisas, como números, códigos ou frases fixas. Não se adequa a respostas que as pessoas podem formular de várias maneiras corretas.

A correspondência parcial verifica se a resposta do agente contém algumas das palavras ou expressões da resposta esperada que define. Se assim for, é aprovado. Se não o fizer, falha. A correspondência parcial é útil quando uma resposta pode ser formulada de diferentes maneiras corretas, mas termos-chave ou ideias ainda precisam de ser incluídos na resposta.

Métodos de teste de semelhança

O método de teste de similaridade compara a semelhança das respostas do agente com as respostas esperadas definidas em seu conjunto de testes. É útil quando uma resposta pode ser formulada de diferentes maneiras corretas, mas o significado geral ou a intenção ainda tem de ser revelada.

Ele usa uma métrica de similaridade cosseno para avaliar o quão semelhante a resposta do agente é em relação à redação e ao significado da resposta esperada para determinar uma pontuação. A classificação varia entre 0 e 1, em que 1 indica que a resposta corresponde e 0 indica que não. Pode definir um limiar de classificação de aprovação para determinar o que constitui uma classificação de aprovação para uma resposta.

Métodos de teste de qualidade

Os métodos de teste de qualidade ajudam-no a decidir se as respostas do seu agente atendem aos seus padrões. Esta abordagem garante que os resultados sejam fiáveis e fáceis de explicar.

Esses métodos usam um modelo de linguagem grande (LLM) para avaliar a eficácia com que um agente responde às perguntas do usuário. São especialmente úteis quando não há uma resposta exata esperada, oferecendo uma maneira flexível e dimensionável de avaliar as respostas com base nos documentos recuperados e no fluxo de conversação.

Os métodos de teste de qualidade incluem dois métodos de teste:

A qualidade geral avalia as respostas dos agentes. Utiliza estes critérios-chave e aplica um prompt consistente para orientar a pontuação:

Relevância: Em que medida a resposta do agente responde à pergunta. Por exemplo, a resposta do agente permanece no assunto e responde diretamente à pergunta?
Fundamentação: Em que medida a resposta do agente se baseia no contexto fornecido. Por exemplo, a resposta do agente faz referência ou baseia-se nas informações fornecidas no contexto, em vez de introduzir informações não relacionadas ou sem suporte?
Integridade: Até que ponto a resposta do agente fornece todas as informações necessárias. Por exemplo, a resposta do agente abrange todos os aspetos da à pergunta e fornece detalhes suficientes?
Abstenção: Se o agente tentou responder à pergunta.

Para ser considerada de alta qualidade, uma resposta deve cumprir todos estes critérios-chave. Se um critério não for cumprido, a resposta é assinalada para melhoria. Este método de classificação garante que apenas as respostas completas e bem suportadas recebam as melhores notas. Em contrapartida, as respostas incompletas ou sem provas de apoio recebem pontuações mais baixas.

Comparar significado avalia o quão bem a resposta do agente reflete o significado pretendido da resposta esperada. Em vez de se focar na redação exata, usa a semelhança de intenção, ou seja, compara as ideias e o significado por trás das palavras, para avaliar quão próxima a resposta se alinha do que era esperado.

Pode definir um limiar de classificação de aprovação para determinar o que constitui uma classificação de aprovação para uma resposta. A nota padrão de aprovação é 50. O método de teste de comparação de significados é útil quando uma resposta pode ser formulada de diferentes maneiras corretas, mas o significado geral ou a intenção ainda tem de ser revelada.

Limiares e taxas de aprovação

O sucesso de um caso de teste depende do método de teste selecionado e do limite definido para aprovação nas pontuações.

Cada método de teste, exceto a correspondência exata, produz uma classificação numérica baseada num conjunto de critérios de avaliação que reflete o quão bem a resposta do agente atende a esses critérios. O limiar é a classificação mínima que separa a aprovação da reprovação. Pode definir as classificações de aprovação para semelhança e comparar casos de teste de significado.

A correspondência exata é um método de teste rigoroso que não produz uma classificação numérica; a resposta deve corresponder exatamente para ser aprovada. Ao escolher o limiar para um caso de teste, decide o quão rigorosa ou branda é a avaliação. Cada método de teste avalia a resposta do agente de forma diferente, por isso é importante escolher a que melhor se adapta aos seus critérios de avaliação.

Feedback

Esta página foi útil?

Last updated on 2025-11-19