Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Os agentes conversacionais construídos com o Copilot Studio funcionam numa plataforma que escala automaticamente para suportar o aumento da procura e da carga. No entanto, agentes conversacionais frequentemente usam lógica personalizada ou chamadas para APIs backend, que introduzem latência porque a lógica personalizada é ineficiente ou as APIs subjacentes e os sistemas backend não escalam bem.
O teste de desempenho avalia o desempenho e a estabilidade de um agente sob diferentes padrões de carga. Identifica potenciais problemas à medida que a base de utilizadores cresce, garantindo que o agente se mantém funcional e responsivo. Se não testares o teu agente conversacional sob carga, pode funcionar bem durante o desenvolvimento e testes, mas falhar com tráfego real de utilizadores.
Antes de abordar os aspetos técnicos dos testes de desempenho, defina critérios de aceitação que captem a experiência do utilizador desejada e identifique casos de uso conversacionais que gerem padrões de carga distintos. Este artigo aborda brevemente a fase de planeamento dos testes de desempenho e fornece orientações sobre os detalhes técnicos da geração de carga para os seus agentes conversacionais.
Planeie o seu teste de desempenho
Um plano de teste de desempenho deve ter um objetivo definido e critérios específicos de aceitação. Por exemplo, alguns testes medem o desempenho de um sistema sob carga padrão, enquanto outros geram um stress mais extremo que faz com que o sistema se torne propositadamente não responsivo. Ao medir o desempenho de agentes conversacionais construídos com o Copilot Studio, projete testes para medir o desempenho base do agente ou a carga pesada antecipada, mas não configure testes para gerar stress excessivo.
Advertência
Uma carga gerada que excede o comportamento esperado do utilizador pode levar a excesso de consumo de mensagens e a uma limitação indesejada dos ambientes. Para evitar limitação e excesso de consumo, certifique-se de que:
- Os teus testes imitam o comportamento realista do utilizador.
- O seu inquilino e os ambientes têm licenças e políticas de faturação suficientes atribuídas.
Compreender o comportamento do utilizador
Comece o seu plano de teste analisando como se espera que os utilizadores se comportem em diferentes casos de uso conversacionais. Do ponto de vista dos testes de carga, o comportamento dos utilizadores pode variar entre casos de uso em termos do que dizem ou perguntam (por exemplo, "Quero reservar um voo" ou "Qual é a sua política de devoluções?"), o número de utilizadores que impulsiona um determinado caso de uso e os padrões de envolvimento dos utilizadores (por exemplo, utilizadores a ligar-se todos ao meio-dia em vez de um aumento gradual ao longo do dia).
A tabela seguinte descreve o comportamento antecipado do utilizador para um agente conversacional bancário.
| Caso de uso | Enunciados comuns do utilizador | Padrão de engajamento |
|---|---|---|
| Pedido de empréstimo | Preciso de um novo empréstimo , gostaria de pedir um novo empréstimo ... |
1.000 utilizadores simultâneos, em média, ao longo do dia |
| Inquérito de saldo | Qual é o saldo da minha conta? Mostra o saldo da minha conta... |
10.000 utilizadores em simultâneo, todos ligados por volta do meio-dia |
| Casos de uso adicionais | … | … |
Criar um plano de teste
Depois de definir o comportamento do utilizador em termos de casos de uso e padrões de envolvimento, pense nos detalhes do seu plano de teste de desempenho. No mínimo, um plano de teste de desempenho para um agente conversacional deve especificar um objetivo, cenários de teste, indicadores-chave de desempenho, dados detalhados dos testes e critérios de sucesso.
Se a sua equipa já definiu cenários conversacionais para avaliações, seja através da criação de casos de teste no produto ou utilizando o kit Copilot Studio, pode reutilizar esses cenários para começar a criar o seu plano de teste.
O seguinte exemplo de plano de teste é para um agente de conversação bancária. O plano utiliza os casos de uso conversacionais previamente identificados para definir um cenário de teste de referência e um cenário de teste de carga. Testar a linha de base avalia o desempenho normal, identificando problemas durante o uso regular, enquanto maior carga pode revelar como o sistema lida com a atividade máxima dos utilizadores.
| Seção | Detalhes |
|---|---|
| Objective | Avalie o desempenho do agente conversacional bancário sob condições de base e de carga. |
| Scope |
No âmbito: testes de referência e de carga. Fora do âmbito: Testes de esforço. |
| Indicadores-chave de desempenho (KPIs) |
|
| Cenários de teste |
Testes de referência
|
| Dados de teste |
|
| Tools |
|
| Critérios de êxito |
|
Trabalhe com partes interessadas técnicas e empresariais para desenvolver um plano de testes que se adeque às necessidades da sua organização. Concordem com os parâmetros-chave descritos no exemplo. Aprenda sobre o uso de ferramentas como o Apache JMeter para criar scripts de teste em exemplos de referência de teste de desempenho e diretrizes.
Simular conversas com múltiplos turnos
Os dados de teste especificados no plano implicam que o teste de desempenho planeado conduz conversas com múltiplas voltas. Conversas com múltiplas voltas são uma série de mensagens de ida e volta enviadas entre os utilizadores simulados e o agente conversacional. Os testes de desempenho devem gerar conversas com múltiplas voltas para que a carga gerada se assemelhe ao comportamento real do utilizador. Além disso, algumas ações ou chamadas de API de longa duração só são ativadas quando os utilizadores fazem uma série específica de escolhas ou enviam um padrão específico de mensagens dentro de uma conversa.
No exemplo seguinte, a API de backend do banco só é ativada depois de o utilizador selecionar a conta poupança. O tempo de resposta para a primeira mensagem é inferior a uma segunda porque apenas o motor de reconhecimento de intenções do agente está envolvido. A última mensagem aguarda uma resposta de uma API backend, o que introduz latência adicional. Sem simular uma conversa com várias voltas, não teriam surgido problemas de desempenho.
Simular conversas com múltiplos turnos requer planeamento tanto ao preparar dados de teste como ao construir scripts de teste. Inclua uma série de enunciados do utilizador nos seus dados de teste que evoquem fluxos conversacionais completos, como mostrado no exemplo. Certifica-te de que os teus scripts de teste enviam múltiplas enunciações numa única conversa.