Planeie e crie um teste de desempenho conversacional para agentes

Os agentes conversacionais construídos com o Copilot Studio funcionam numa plataforma que escala automaticamente para suportar o aumento da procura e da carga. No entanto, agentes conversacionais frequentemente usam lógica personalizada ou chamadas para APIs backend, que introduzem latência porque a lógica personalizada é ineficiente ou as APIs subjacentes e os sistemas backend não escalam bem.

O teste de desempenho avalia o desempenho e a estabilidade de um agente sob diferentes padrões de carga. Identifica potenciais problemas à medida que a base de utilizadores cresce, garantindo que o agente se mantém funcional e responsivo. Se não testares o teu agente conversacional sob carga, pode funcionar bem durante o desenvolvimento e testes, mas falhar com tráfego real de utilizadores.

Antes de abordar os aspetos técnicos dos testes de desempenho, defina critérios de aceitação que captem a experiência do utilizador desejada e identifique casos de uso conversacionais que gerem padrões de carga distintos. Este artigo aborda brevemente a fase de planeamento dos testes de desempenho e fornece orientações sobre os detalhes técnicos da geração de carga para os seus agentes conversacionais.

Planeie o seu teste de desempenho

Um plano de teste de desempenho deve ter um objetivo definido e critérios específicos de aceitação. Por exemplo, alguns testes medem o desempenho de um sistema sob carga padrão, enquanto outros geram um stress mais extremo que faz com que o sistema se torne propositadamente não responsivo. Ao medir o desempenho de agentes conversacionais construídos com o Copilot Studio, projete testes para medir o desempenho base do agente ou a carga pesada antecipada, mas não configure testes para gerar stress excessivo.

Advertência

Uma carga gerada que excede o comportamento esperado do utilizador pode levar a excesso de consumo de mensagens e a uma limitação indesejada dos ambientes. Para evitar limitação e excesso de consumo, certifique-se de que:

Os teus testes imitam o comportamento realista do utilizador.
O seu inquilino e os ambientes têm licenças e políticas de faturação suficientes atribuídas.

Compreender o comportamento do utilizador

Comece o seu plano de teste analisando como se espera que os utilizadores se comportem em diferentes casos de uso conversacionais. Do ponto de vista dos testes de carga, o comportamento dos utilizadores pode variar entre casos de uso em termos do que dizem ou perguntam (por exemplo, "Quero reservar um voo" ou "Qual é a sua política de devoluções?"), o número de utilizadores que impulsiona um determinado caso de uso e os padrões de envolvimento dos utilizadores (por exemplo, utilizadores a ligar-se todos ao meio-dia em vez de um aumento gradual ao longo do dia).

A tabela seguinte descreve o comportamento antecipado do utilizador para um agente conversacional bancário.

Caso de uso	Enunciados comuns do utilizador	Padrão de engajamento
Pedido de empréstimo	Preciso de um novo empréstimo , gostaria de pedir um novo empréstimo ...	1.000 utilizadores simultâneos, em média, ao longo do dia
Inquérito de saldo	Qual é o saldo da minha conta? Mostra o saldo da minha conta...	10.000 utilizadores em simultâneo, todos ligados por volta do meio-dia
Casos de uso adicionais	…	…

Criar um plano de teste

Depois de definir o comportamento do utilizador em termos de casos de uso e padrões de envolvimento, pense nos detalhes do seu plano de teste de desempenho. No mínimo, um plano de teste de desempenho para um agente conversacional deve especificar um objetivo, cenários de teste, indicadores-chave de desempenho, dados detalhados dos testes e critérios de sucesso.

Se a sua equipa já definiu cenários conversacionais para avaliações, seja através da criação de casos de teste no produto ou utilizando o kit Copilot Studio, pode reutilizar esses cenários para começar a criar o seu plano de teste.

O seguinte exemplo de plano de teste é para um agente de conversação bancária. O plano utiliza os casos de uso conversacionais previamente identificados para definir um cenário de teste de referência e um cenário de teste de carga. Testar a linha de base avalia o desempenho normal, identificando problemas durante o uso regular, enquanto maior carga pode revelar como o sistema lida com a atividade máxima dos utilizadores.

Seção	Detalhes
Objective	Avalie o desempenho do agente conversacional bancário sob condições de base e de carga.
Scope	No âmbito: testes de referência e de carga. Fora do âmbito: Testes de esforço.
Indicadores-chave de desempenho (KPIs)	Tempo de resposta: Tempo para responder às perguntas dos utilizadores. Taxa de erro: percentagem de respostas falhadas.
Cenários de teste	Testes de referência Pedido de empréstimo Carga de utilizadores: 1.000 utilizadores simultâneos Duração: 15 minutos. Testes de carga Pedido de empréstimo Carga de utilizadores: 1.000 utilizadores simultâneos Duração: 15 minutos. Inquérito de saldo Carga de utilizadores: 10.000 utilizadores simultâneos Duração: 5 minutos
Dados de teste	Enunciados multi-turnos de pedido de empréstimo Enunciados multi-turnos de inquérito de equilíbrio
Tools	Ferramenta de teste de desempenho: Apache JMeter Relatórios: relatórios incorporados do JMeter
Critérios de êxito	Linha de base: 95% respostas em menos de 2 segundos; taxa <de erro 0,5% Carga: 90% respostas em menos de 3 segundos; taxa de erro <1%

Trabalhe com partes interessadas técnicas e empresariais para desenvolver um plano de testes que se adeque às necessidades da sua organização. Concordem com os parâmetros-chave descritos no exemplo. Aprenda sobre o uso de ferramentas como o Apache JMeter para criar scripts de teste em exemplos de referência de teste de desempenho e diretrizes.

Simular conversas com múltiplos turnos

Os dados de teste especificados no plano implicam que o teste de desempenho planeado conduz conversas com múltiplas voltas. Conversas com múltiplas voltas são uma série de mensagens de ida e volta enviadas entre os utilizadores simulados e o agente conversacional. Os testes de desempenho devem gerar conversas com múltiplas voltas para que a carga gerada se assemelhe ao comportamento real do utilizador. Além disso, algumas ações ou chamadas de API de longa duração só são ativadas quando os utilizadores fazem uma série específica de escolhas ou enviam um padrão específico de mensagens dentro de uma conversa.

No exemplo seguinte, a API de backend do banco só é ativada depois de o utilizador selecionar a conta poupança. O tempo de resposta para a primeira mensagem é inferior a uma segunda porque apenas o motor de reconhecimento de intenções do agente está envolvido. A última mensagem aguarda uma resposta de uma API backend, o que introduz latência adicional. Sem simular uma conversa com várias voltas, não teriam surgido problemas de desempenho.

Captura de ecrã de um script de teste a simular uma conversa com vários turnos, exibindo entradas do utilizador e respostas do agente com tempos de resposta variados.

Simular conversas com múltiplos turnos requer planeamento tanto ao preparar dados de teste como ao construir scripts de teste. Inclua uma série de enunciados do utilizador nos seus dados de teste que evoquem fluxos conversacionais completos, como mostrado no exemplo. Certifica-te de que os teus scripts de teste enviam múltiplas enunciações numa única conversa.

Feedback

Esta página foi útil?

Last updated on 2025-12-15