Compartilhar via


Configurar testes no Copilot Studio Kit

O teste é essencial para garantir que seus agentes personalizados no Copilot Studio Kit respondam e se comportem conforme o esperado. Este artigo explica como criar, gerenciar e validar diferentes tipos de testes, incluindo cenários de várias voltas, executar operações em massa com o Excel e conjuntos de testes duplicados.

Tipos de teste

Você pode criar vários tipos de testes para validar seus agentes.

Tipo de teste Description
Correspondência de Resposta Este teste é o tipo de teste mais simples. Ele compara a resposta do agente com a resposta esperada usando o operador de comparação selecionado.
Por padrão, a correspondência exata ("igual a") é usada. Outros operadores de comparação disponíveis são "Não é igual", "Contém", "Não contém", "Começa com", "Não começa com", "Termina com" e "Não termina com".
Anexos (cartões adaptáveis etc.) Compara a resposta JSON de anexos do agente com os anexos esperados JSON (matriz completa de anexos).
Por padrão, a correspondência exata ("igual a") é usada. Outros operadores de comparação disponíveis são "Não é igual", "Contém", "Não contém". Um operador de comparação especial chamado "Validação de IA" usa modelos de linguagem para validar o anexo com base nas instruções de validação fornecidas pelo fabricante, semelhantes às respostas generativas.
Correspondência de Tópicos Disponível somente quando o enriquecimento do Dataverse (Enriquecer com Transcrições de Conversa) estiver configurado.
Quando a etapa de enriquecimento do Dataverse for concluída, esse teste comparará o nome do tópico esperado e o nome do tópico disparado. O teste de correspondência de tópicos também suporta a correspondência de múltiplos tópicos com agentes personalizados que têm a orquestração generativa habilitada. Na correspondência de vários tópicos, os tópicos são separados por vírgulas; por exemplo: "Tópico1,Tópico2".
Respostas generativas Disponível somente se o enriquecimento do AI Builder (Analisar Respostas Geradas) estiver configurado.
Usa um modelo de linguagem grande para avaliar se a resposta gerada por IA está próxima de uma resposta de exemplo ou respeita as instruções de validação.
Quando Enrich With Azure Application Insights está configurado, testes negativos, como moderação e nenhum resultado da pesquisa, também podem ser testados.
Várias rodadas Consiste em um ou mais casos de teste de outros tipos, como correspondência de respostas, anexos, correspondência de tópicos e respostas generativas. Todos os testes filho em um teste de várias rodadas são executados no mesmo contexto de conversa na ordem especificada. Use testes de vários turnos para testar um cenário de ponta a ponta e testar agentes personalizados com orquestração generativa. Saiba mais em Teste de várias rodadas.
Validação do plano Permite que o criador valide se o plano dinâmico do agente personalizado inclui as ferramentas esperadas. Esse tipo de teste destina-se a agentes personalizados do Copilot Studio que têm a orquestração generativa habilitada. Saiba mais em Teste de Validação de Plano.

Criar um novo conjunto de testes

Use conjuntos de teste para agrupar vários testes. Ao executar testes, selecione um conjunto de testes para executar todos os testes nesse conjunto.

  1. Acesse o aplicativo Copilot Studio Kit.
  2. Vá para Conjuntos de Testes.
  3. Crie um novo registro do Conjunto de Testes do Agente.
  4. Insira um Nome.
  5. Clique em Salvar.

Criar um novo teste

Depois de criar um conjunto de testes, você pode adicionar testes a ele. Na subgrid de Testes, selecione + Novo Teste do Agente.

Captura de tela da interface Criar Teste do Agente no Copilot Studio Kit com o botão Novo Teste do Agente realçado.

A tabela a seguir descreve os campos.

Nome da coluna Obrigatório Description
Nome Yes Nome do teste. Esse nome pode ser uma ID de referência interna, como TST-001.
Conjunto de Testes de Agente Yes Conjunto de testes pai para o teste.
Tipo de teste Yes Um dos tipos de teste disponíveis.
Enviar evento "startConversation" Não Se habilitado, o agente receberá o evento startConversation para que ele inicie proativamente a conversa e o enunciado de teste será enviado depois. Essa configuração normalmente é necessária quando o tópico Início da Conversa inclui a lógica que deve ser executada antes de responder ao usuário ou ao enunciado de teste.
Posição esperada da mensagem de resposta Não Não defina um valor se você não tiver certeza. Essa opção permite capturar uma resposta de agente específica quando ela envia várias mensagens. Por exemplo, se o agente primeiro disser "Olá" e depois "Como posso ajudá-lo?", e você quiser testar a segunda mensagem, defina o valor como 1. A ordem é baseada em 0, portanto, a primeira mensagem é indexada como 0, a segunda resposta como 1 e assim por diante.
Testar enunciado Yes A mensagem que você deseja enviar ao agente como parte do teste.
Resposta esperada Depende Obrigatório para o tipo de teste de Correspondência de Resposta. Resposta esperada do agente. Para um teste de Respostas Generativas, defina uma resposta de exemplo ou suas próprias instruções de validação para o modelo de linguagem grande.
JSON de variáveis externas Não Registro JSON para qualquer valor externo ou contextual que você deseja passar para o agente como parte do teste. Por exemplo: { "Language": "fr" }
Segundos antes de obter resposta Não Número de segundos para aguardar antes de avaliar a resposta do bot. Na maioria dos casos, você pode deixar esse valor vazio, mas ele é útil em situações em que o agente chama uma API e a resposta pode levar mais tempo do que o normal.
Resultado das respostas generativas esperadas Depende Obrigatório para o tipo de teste Respostas Generativas. Deve ser respondida ou não respondida. Quando o enriquecimento do Azure Application Insights está habilitado, você pode escolher Moderado ou Sem Resultados de Pesquisa.
Nome do tópico esperado Depende Obrigatório para o tipo de teste de correspondência de tópicos. Nome do tópico que você espera que seja acionado. É oferecido suporte à correspondência de múltiplos tópicos para agentes personalizados que têm a orquestração generativa habilitada. Para correspondência de vários tópicos, use uma lista separada por vírgulas; por exemplo: "Tópico1,Tópico2". Não adicione espaço em branco extra. A correspondência de vários tópicos garante que os tópicos esperados estejam entre os tópicos do plano.
JSON de anexos esperados Depende Obrigatório para o tipo de teste de Anexos (Cartões Adaptáveis, etc.). Matriz JSON de anexos completos que você espera da resposta do agente.
Ferramentas esperadas Depende Obrigatório para o tipo de teste de validação de plano. Lista separada por vírgulas de ferramentas esperadas (ferramentas, ações e agentes conectados). Não adicione espaço em branco extra. A ordem não é relevante. Exemplo: "Clima, Mudanças climáticas"
Percentual de Limite de Aprovação Depende Obrigatório para o tipo de teste "Validação de Plano". O percentual de ferramentas esperadas que devem estar no plano dinâmico para que o teste seja aprovado. Se o percentual for 100, todas as ferramentas esperadas precisarão estar no plano dinâmico para que o teste seja bem-sucedido. Ferramentas extras no plano dinâmico não afetam o resultado do teste.

Teste de várias rodadas

Para o Tipo de teste de várias rodadas, você pode especificar um ou mais testes filho dos tipos regulares. Cada teste filho tem uma ordem e uma criticidade. A ordem define a ordem de execução dentro do mesmo contexto de conversa (dentro do caso de teste de várias rodadas). A criticidade define se o caso de teste filho deve ser aprovado para que a execução do teste de várias rodadas continue.

Captura de tela da configuração de teste de vários turnos no Copilot Studio Kit.

Todos os testes filhos que exigem avaliação pós-teste, como Correspondência de Tópicos ou Respostas Generativas, são deixados em status pendente, e a execução do teste continua independentemente do status de criticidade. Se algum dos testes críticos falhar, a execução do teste de vários turnos será interrompida e seu resultado será considerado com falha. Se todos os casos de teste filho críticos forem bem-sucedidos, o resultado de várias rodadas também será bem-sucedido.

Captura de tela do modo de exibição de Resultados de várias rodadas no Kit do Copilot Studio.

Use casos de teste não críticos de filhos para "alimentar" informações a agentes personalizados com orquestração generativa. Você também pode usar esses casos de teste quando a resposta não importa e você quer se preparar para testes críticos.

Planejar o teste de validação

A Validação de Plano se concentra na precisão da ferramenta. Em vez de avaliar o que o agente diz, esse tipo de teste verifica se as ferramentas esperadas foram usadas durante o plano.

Ao definir um teste de validação de plano, especifique:

  • Um enunciado de teste
  • Uma lista separada por vírgulas das ferramentas esperadas para incluir no plano dinâmico
  • Um limite de passagem, que representa quanto desvio tolerar da lista

Esse teste usa transcrições de conversa e é avaliado após a execução real do teste como uma atividade de enriquecimento.

Observe o seguinte:

  • Ferramentas esperadas: você pode incluir ferramentas, ações e agentes conectados na lista separada por vírgulas. Nenhum espaço em branco extra é permitido, e a ordem não importa.

  • Limite de Aprovação %: O limite de aprovação especifica a porção requerida das ferramentas esperadas que precisam estar dentro do plano dinâmico para que o teste seja bem-sucedido.

A validação do plano é um teste determinístico: calcula o desvio das ferramentas reais das ferramentas esperadas e compara-o com o limite de aprovação. Se o desvio estiver dentro do limite, o teste será aprovado; caso contrário, ele falhará.

Captura de tela do tipo de teste de validação de plano no Copilot Studio Kit.

Saiba mais: Orquestrar o comportamento do agente com IA generativa.

Usar o Excel para criar ou atualizar testes em massa

Depois de criar um conjunto de testes, você pode usar o Excel para criar ou atualizar testes em massa.

  1. No registro do conjunto de testes, mude a exibição de subgrade de Testes para Exportar/Importar Exibição.
  2. Selecione Testes do Agente de Exportação no Excel Online.
  3. Adicione e modifique os testes conforme necessário.
  4. Clique em Salvar.

Se você estiver importando testes filho de várias rodadas, primeiro deverá criar ou importar o teste de várias rodadas pai. Em seguida, importe os casos de teste filho.

Saiba mais sobre a importação e exportação do Excel em aplicativos baseados em modelos do Power Apps.

Testes duplicados e conjuntos de testes

Você pode duplicar conjuntos de testes e testes individuais.

  • Para duplicar um único caso de teste, abra o registro de teste do agente e selecione Duplicar Caso de Teste. Essa ação é útil quando você cria variantes de um caso de teste, como alterar o local, a hora ou a quantidade.

  • Para duplicar um conjunto de testes inteiro, abra o registro do conjunto de testes e selecione Duplicar Conjunto de Testes na barra de comandos. Essa ação cria uma cópia do conjunto de testes e de todos os seus testes filho.

Próxima etapa