Compartilhar via


Crie conjuntos de testes para avaliações

[Este artigo faz parte da documentação de pré-lançamento e está sujeito a alterações.]

No Copilot Studio, você pode criar um conjunto de casos de teste para avaliar o desempenho dos seus agentes. Os casos de teste permitem que você simule cenários reais para seu agente, para que você possa medir a precisão, a relevância e a qualidade das respostas às perguntas que o agente é feito, com base nas informações que o agente pode acessar. Utilizando os resultados do conjunto de testes, você pode otimizar o comportamento do seu agente e validar que ele atende aos requisitos de negócio e qualidade.

Importante

Este artigo contém a documentação de versão prévia do Microsoft Copilot Studio e está sujeito a alterações.

Os recursos de visualização não são destinados ao uso de produção e podem ter funcionalidade restrita. Esses recursos estão disponíveis antes de um lançamento oficial para que você possa obter acesso antecipado e fornecer comentários.

Se você estiver criando um agente pronto para produção, confira a visão geral do Microsoft Copilot Studio.

As avaliações funcionam enviando mensagens ao seu agente, registrando as respostas e comparando essas respostas com as esperadas ou com um padrão de qualidade. Mais mensagens, usadas como casos de teste, podem te dar uma ideia melhor de como seu agente lida com vários casos de uso.

Você pode criar casos de teste manualmente, importá-los usando uma planilha ou usar IA para gerar mensagens baseadas no design e conhecimento do seu agente. Você pode então escolher como quer medir a qualidade das respostas do seu agente para cada caso de teste dentro de um conjunto de testes. Para mais informações sobre como criar casos de teste, veja Criar um conjunto de teste.

Importante

Os resultados dos testes estão disponíveis no Copilot Studio por 89 dias. Para salvar os resultados dos seus testes por um período mais longo, exporte os resultados para um arquivo CSV.

Criar um novo conjunto de testes

  1. Acesse a página de Avaliação do seu agente.

  2. Selecione novo conjunto de teste.

    Captura de tela mostrando o botão Criar novo teste na página de Avaliação.

  3. Na página Novo conjunto de testes, escolha o método que você deseja usar para criar seu conjunto de testes:

    • Pergunta rápida configurada para que o Copilot Studio crie casos de teste automaticamente com base na descrição, instruções e capacidades do seu agente. Essa opção gera 10 perguntas para realizar avaliações pequenas e rápidas ou para começar a construir um conjunto de testes maior.
    • Conjunto completo de perguntas para que o Copilot Studio gere casos de teste usando as fontes de conhecimento ou tópicos do seu agente.
    • Use a conversa do chat do teste para preencher automaticamente o conjunto de perguntas que você forneceu no chat do teste. Esse método utiliza perguntas do chat de teste mais recente. Você também pode iniciar uma avaliação pelo chat de teste usando o botão de avaliação . Captura de tela mostrando o botão Criar novo teste no chat de teste.
    • Importe casos de teste de um arquivo arrastando seu arquivo para a área designada, selecionando Navegar para enviar um arquivo ou selecionando uma das outras opções de upload.
    • Ou, escreva algumas perguntas você mesmo para criar manualmente um conjunto de testes. Siga os passos para editar um conjunto de testes para adicionar e editar casos de teste.
  4. Edite os detalhes dos casos de teste. Todos os casos de teste que utilizam métodos exceto qualidade geral exigem respostas esperadas. Para mais informações sobre edição, veja Modificar um conjunto de teste.

  5. Em Nome, insira um nome para o conjunto de testes.

  6. Selecione o perfil de usuário, depois selecione ou adicione a conta que deseja usar para esse conjunto de testes, ou continue sem autenticação. A avaliação utiliza essa conta para se conectar a fontes de conhecimento e ferramentas durante os testes. Para informações sobre como adicionar e gerenciar perfis de usuário, veja Gerenciar perfis e conexões de usuários.

Observação

Testes automatizados utilizam a autenticação da conta de teste selecionada. Se seu agente possui fontes de conhecimento ou conexões que exigem autenticação específica, selecione a conta apropriada para seu teste.

  1. Selecione Salvar para atualizar o conjunto de teste sem rodar os casos de teste ou Avaliar para rodar o conjunto imediatamente.

Limitação de geração de casos de teste

Quando você gera um grupo de casos de teste, a geração pode falhar porque uma ou mais perguntas violam as configurações de moderação de conteúdo do seu agente. Os motivos incluem:

  • As instruções ou tópicos do agente levam o modelo a gerar conteúdo que é sinalizado
  • A fonte de conhecimento conectada inclui conteúdo sensível ou restrito
  • As configurações de moderação de conteúdo do agente são excessivamente rígidas

Você pode precisar tentar diferentes ações para resolver o problema, como ajustar fontes de conhecimento, atualizar instruções ou modificar configurações de moderação.

Gerar um conjunto de testes a partir de conhecimento ou tópicos

Você pode testar seu agente gerando perguntas usando as informações e fontes de conversa que ele já possui. Esse método de teste é bom para testar como seu agente usa o conhecimento e os tópicos que já possui, mas não é bom para testar lacunas de informação.

Você pode gerar casos de teste usando estas fontes de conhecimento:

  • Texto
  • Microsoft Word
  • Microsoft Excel

Você pode usar arquivos de até 293 KB para gerar questões de prova.

Para gerar um conjunto de teste:

  1. Na página do novo conjunto de testes , escolha Conjunto completo de perguntas.

  2. Selecione Conhecimento ou Tópicos.

    • O conhecimento funciona melhor para agentes que usam orquestração generativa. Esse método gera perguntas utilizando uma seleção das fontes de conhecimento do seu agente.
    • Tópicos funciona melhor para agentes que usam orquestração clássica. Esse método gera perguntas usando os temas do seu agente.
  3. Para o Conhecimento, selecione as fontes de conhecimento que deseja incluir na geração da questão.

Captura de tela mostrando a seleção de fontes de conhecimento a serem incluídas na geração do caso de teste.

  1. Para Conhecimento e Tópicos, selecione e arraste o controle deslizante para escolher o número de perguntas a serem geradas.

Captura de tela mostrando o controle deslizante para selecionar quantas perguntas gerar.

  1. Selecione Gerar.

  2. Edite os detalhes dos casos de teste. Todos os casos de teste que utilizam métodos exceto qualidade geral exigem respostas esperadas. Para mais informações sobre edição, veja Modificar um conjunto de teste.

  3. Selecione Gerenciar perfil para selecionar ou conectar a conta que deseja usar neste conjunto de testes. Você também pode continuar sem adicionar uma conta para autenticação.

Observação

Testes automatizados utilizam a autenticação da conta de teste selecionada. Se seu agente possui fontes de conhecimento ou conexões que exigem autenticação específica, selecione a conta apropriada para seu teste.

Quando o Copilot Studio gera casos de teste, ele usa as credenciais de autenticação de uma conta conectada para acessar as fontes de conhecimento e ferramentas do seu agente. Os casos de teste gerados ou resultados podem incluir informações sensíveis às quais a conta conectada tem acesso, e essas informações são visíveis para todos os criadores que podem acessar o conjunto de teste.

  1. Selecione Salvar para atualizar o conjunto de teste sem rodar os casos de teste ou Avaliar para rodar o conjunto imediatamente.

Crie um arquivo de conjunto de teste para importar

Em vez de criar seus casos de teste diretamente no Copilot Studio, você pode criar um arquivo de planilha com todos os casos de teste e importá-los para criar seu conjunto de testes. Você pode compor cada pergunta de teste, determinar o método de teste que deseja usar e declarar as respostas esperadas para cada pergunta. Quando terminar de criar o arquivo, salve-o como um arquivo .csv ou .txt e importe-o para o Copilot Studio.

Importante

  • O arquivo pode conter até 100 perguntas.
  • Cada pergunta pode ter até 1.000 caracteres, incluindo espaços.
  • O arquivo deve estar em formato de texto ou CSV (valores separados por vírgulas).

Para criar o arquivo de importação:

  1. Abra um aplicativo de planilha (por exemplo, Microsoft Excel).

  2. Adicione os seguintes cabeçalhos, nesta ordem, na primeira linha:

    • Pergunta
    • Resposta esperada
    • Método de teste
  3. Insira suas perguntas de teste na coluna Pergunta. Cada pergunta pode ter 1.000 caracteres ou menos, incluindo espaços.

  4. Insira um dos seguintes métodos de teste para cada pergunta na coluna Método de teste:

    • Qualidade geral
    • Comparar significado
    • Similaridade
    • Correspondência exata
    • Correspondência parcial
  5. Insira as respostas esperadas para cada pergunta na coluna Resposta esperada. As respostas esperadas são opcionais para importar um conjunto de testes. No entanto, você precisa de respostas esperadas para executar correspondência, similaridade e comparar casos de teste de significado.

  6. Salve o arquivo como .csv ou .txt.

  7. Importe o arquivo seguindo os passos em Criar um novo conjunto de teste.