Compartilhar via


Planeje e crie um teste de desempenho conversacional para agentes

Agentes conversacionais construídos com o Copilot Studio operam em uma plataforma que escala automaticamente para suportar aumento de demanda e carga. No entanto, agentes conversacionais frequentemente usam lógica personalizada ou chamadas para APIs backend, o que introduz latência porque a lógica personalizada é ineficiente ou as APIs subjacentes e os sistemas backend não escalam bem.

Testes de desempenho avaliam o desempenho e a estabilidade de um agente sob diferentes padrões de carga. Ele identifica potenciais problemas à medida que a base de usuários cresce, garantindo que o agente permaneça funcional e responsivo. Se você não testar seu agente conversacional sob carga, ele pode funcionar bem durante o desenvolvimento e testes, mas falhar com tráfego real de usuários.

Antes de abordar os aspectos técnicos dos testes de desempenho, defina critérios de aceitação que capturem a experiência do usuário desejada e identifique casos de uso conversacionais que gerem padrões de carga distintos. Este artigo aborda brevemente a fase de planejamento dos testes de desempenho e fornece orientações sobre os detalhes técnicos para gerar carga para seus agentes conversacionais.

Planeje seu teste de desempenho

Um plano de teste de desempenho deve ter uma meta definida e critérios específicos de aceitação. Por exemplo, alguns testes medem o desempenho de um sistema sob carga padrão, enquanto outros geram estresse mais extremo que intencionalmente faz com que o sistema fique não responsivo. Ao medir o desempenho de agentes conversacionais construídos com o Copilot Studio, projete testes para medir tanto o desempenho base do agente quanto a carga pesada esperada, mas não configure testes para gerar estresse excessivo.

Aviso

Uma carga gerada que excede o comportamento esperado do usuário pode levar a excesso de consumo de mensagens e a uma redução indesejada dos ambientes. Para evitar limitação e excesso de consumo, certifique-se de que:

  • Seus testes imitam o comportamento realista do usuário.
  • Seu inquilino e ambientes têm licenças e políticas de cobrança suficientes atribuídas.

Entenda o comportamento do usuário

Comece seu plano de teste analisando como os usuários devem se comportar em diferentes casos de uso conversacionais. Do ponto de vista do teste de carga, o comportamento do usuário pode variar entre os casos de uso em termos do que dizem ou perguntam (por exemplo, "Quero reservar uma passagem" ou "Qual é a sua política de devolução?"), o número de usuários que impulsiona um caso de uso específico e os padrões de engajamento dos usuários (por exemplo, usuários conectando todos ao meio-dia versus um aumento gradual ao longo do dia).

A tabela a seguir descreve o comportamento esperado do usuário para um agente de conversação bancária.

Caso de Uso Enunciados comuns de usuários Padrão de engajamento
Solicitação de empréstimo Preciso de um novo empréstimo
, gostaria de solicitar um novo empréstimo
...
1.000 usuários simultâneos, em média, ao longo do dia
Consulta de saldo Qual é o saldo da minha conta?
Mostrar o saldo
da minha conta...
10.000 usuários simultâneos, todos conectados por volta do meio-dia
Casos de uso adicionais

Criar um plano de deste

Depois de definir o comportamento do usuário em termos de casos de uso e padrões de engajamento, pense nos detalhes do seu plano de teste de desempenho. No mínimo, um plano de teste de desempenho para um agente conversacional deve especificar um objetivo, cenários de teste, indicadores-chave de desempenho, dados detalhados de teste e critérios de sucesso.

Se sua equipe já definiu cenários conversacionais para avaliações, seja criando casos de teste dentro do produto ou usando o kit Copilot Studio, você pode reutilizar esses cenários para começar a criar seu plano de teste.

O seguinte exemplo de plano de teste é para um agente de conversação bancária. O plano utiliza os casos de uso conversacionais previamente identificados para definir um cenário de teste de linha de base e um cenário de teste de carga. Testar a linha de base avalia o desempenho normal, identificando problemas durante o uso regular, enquanto uma carga maior pode revelar como o sistema lida com a atividade máxima dos usuários.

Seção Detalhes
Objective Avalie o desempenho do agente de conversação bancária sob condições de base e de carga.
Scope No escopo: Teste de linha de base e de carga.
Fora do escopo: Teste de estresse.
KPIs (indicadores chave de desempenho)
  • Tempo de resposta: Tempo para responder às dúvidas dos usuários.
  • Taxa de erro: Percentual de respostas falhadas.
Cenários de teste Testes de linha de base
  • Solicitação de empréstimo
    • Carga de usuários: 1.000 usuários simultâneos
    • Duração: 15 minutos.
Teste de carga
  • Solicitação de empréstimo
    • Carga de usuários: 1.000 usuários simultâneos
    • Duração: 15 minutos.
  • Consulta de saldo
    • Carga de usuários: 10.000 usuários simultâneos
    • Duração: 5 minutos
Dados de teste
  • Enunciados multi-turnos em pedidos de empréstimo
  • Enunciados multi-turno de pergunta de equilíbrio
Tools
  • Ferramenta de teste de desempenho: Apache JMeter
  • Relatórios: Relatórios incorporados do JMeter
Critérios de sucesso
  • Linha de base: 95% respostas em menos de 2 segundos; taxa <de erro 0,5%
  • Carga: 90% respostas em menos de 3 segundos; taxa de erro <1%

Trabalhe com partes interessadas técnicas e de negócios para desenvolver um plano de teste que atenda às necessidades da sua organização. Concorde com os parâmetros-chave descritos no exemplo. Aprenda sobre o uso de ferramentas como o Apache JMeter para criar scripts de teste em amostras de referência de teste de desempenho e diretrizes.

Simule conversas com múltiplas voltas

Os dados de teste especificados no plano implicam que o teste de desempenho planejado conduz conversas de múltiplas voltas. Conversas com múltiplas voltas são uma série de mensagens de ida e volta enviadas entre os usuários simulados e o agente conversacional. Testes de desempenho devem conduzir conversas com múltiplas voltas para que a carga gerada se assemelhe ao comportamento real do usuário. Além disso, algumas ações longas ou chamadas de API só são acionadas quando os usuários fazem uma série específica de escolhas ou enviam um padrão específico de mensagens dentro de uma conversa.

No exemplo a seguir, a API de backend do banco só é acionada após o usuário selecionar a conta poupança. O tempo de resposta para a primeira mensagem é menor que a segunda porque apenas o motor de reconhecimento de intenção do agente está envolvido. A última mensagem espera uma resposta de uma API backend, que introduz latência extra. Sem simular uma conversa com múltiplas curvas, problemas de desempenho não teriam surgido.

Captura de tela de um script de teste simulando uma conversa com múltiplos turnos, exibindo entradas do usuário e respostas do agente com tempos de resposta variados.

Simular conversas com múltiplas voltas exige planejamento tanto ao preparar dados de teste quanto ao construir scripts de teste. Inclua uma série de enunciados do usuário em seus dados de teste que invocam fluxos conversacionais completos, como mostrado no exemplo. Certifique-se de que seus scripts de teste enviem múltiplas enunciações em uma única conversa.