Partilhar via


Configurar recursos de voz

Este artigo descreve as caraterísticas disponíveis no Copilot Studio para a resposta vocal interativa com o Dynamics 365 Customer Service.

Para preparar o seu agente para serviços de voz, consulte Integrar um agente com capacidade de voz com o Dynamics 365 Customer Service.

Para obter uma descrição geral dos serviços de voz, consulte Utilizar a resposta vocal interativa nos seus agentes.

Modalidade de Voz e DTMF

Um agente com capacidade de voz é diferente de um agente baseado em chat. O agente com capacidade de voz inclui tópicos de sistema de voz específicos para lidar com cenários de voz. Um agente baseado em chat usa a modalidade de texto como a predefinição. Um agente com capacidade de voz usa a modalidade de Voz e DTMF. As duas modalidades não são compatíveis entre elas.

Otimizar para voz permite criar agentes com capacidade de voz em diferentes modalidades e garante que as caraterísticas relacionadas com a voz são criadas corretamente.

Otimizar para voz

Se não iniciou seu agente com o Modelo de voz, tem de ativar a opção Otimizar para voz nas Definições do agente.

  1. Com um agente aberto, aceda a Definições>Voz.

  2. Selecione Otimizar para voz. A opção Utilizar voz como o modo de criação principal também está predefinida.

O seu agente recebe as seguintes atualizações quando ativa as opções Otimizar para voz e Utilizar voz como o modo de criação principal:

  • A capacidade de criar caraterísticas de voz quando mudado de texto para Voz e DTMF.
  • Os Tópicos do sistema de voz Deteção de silêncio, Voz não reconhecida e Pressão desconhecida do teclado de marcação são adicionados automaticamente para lidar com cenários relacionados com voz.
  • Aumente a precisão com os dados do agente (ativado por predefinição), o que melhora a precisão do reconhecimento de voz.
  • O fluxo de agente existente não é alterado (como o tópico Menu Principal para iniciar conversas com acionadores DTMF mapeados).

Importante

  • A definição Otimizar para voz altera apenas as capacidades de criação de voz, não a definição do canal. Ative o canal Telefonia para um agente com capacidade total de voz.
  • Além disso, definir Otimizar para voz num agente que não foi originalmente configurado para caraterísticas de voz significa que o agente não tem o tópico Menu Principal (pré-visualização). Tem de recriar esse tópico, se necessário.
  • Se não conseguir ativar Otimizar para voz, verifique o ambiente do Power Platform que aloja o seu agente e certifique-se de que Obter novas caraterísticas antecipadamente está desativado para esse ambiente. Para obter mais informações, consulte Não é possível ativar Otimizar para voz.

Desativar a otimização para voz

Pode desativar Otimizar para voz na criação de agentes se não usar o canal de Telefonia. Depois de desativar Otimizar para voz, obtém as seguintes alterações:

  • Nenhuma criação de agente para caraterísticas de voz, como DTMF e interrupção.
  • A modalidade de texto está predefinida.
  • Nenhuma melhoria ao reconhecimento de voz, uma vez que não há reconhecimento de voz.
  • Sem tópicos do sistema de voz ou tópico DTMF global.

    Observação

    Alguns tópicos poderão reportar erros durante a publicação se ainda referenciarem o tópico DTMF (agora desativado).

  • Nenhuma alteração ao seu fluxo de agente e à definição do canal, já que desativar a otimização não remove o canal de Telefonia.
  • Ativar ou desativar Otimizar para voz não terá efeito até que publique o seu agente. Se o ativar ou desativar acidentalmente, e o agente alternar entre as modalidades, tem tempo para corrigi-lo.

Importante

Se os seus canais de Telefonia estiverem ativados, desativar Otimizar para voz pode quebrar o seu agente, já que todos os acionadores DTMF são desativados automaticamente.

Usar a voz como o modo de criação principal

A modalidade Voz e DTMF deve ser selecionada para cada nó na criação de caraterísticas de voz. Pode selecionar a preferência de criação do agente como usar voz como modo de criação principal. Esta definição garante que todos os campos de entrada têm a modalidade certa. Se já ativou Otimizar para voz, a opção Utilizar voz como modo de criação principal está ativada por predefinição.

Disponibilidade de mensagens

Utilizar a modalidade de texto ou voz pode afetar o seu canal de forma diferente.

Modalidade de texto Modalidade de voz Texto do agente e canal de voz
Mensagem disponível Mensagem vazia Mensagem disponível
Mensagem vazia Mensagem disponível Mensagem não disponível

Reconhecimento de voz automático personalizado

Os agentes com capacidade de voz para um domínio específico, como médico ou financeiro, podem ver os utilizadores usarem termos financeiros ou jargão médico. Alguns termos e jargões são difíceis para o agente com capacidade de voz converter de voz em texto.

Para garantir que a entrada de voz é reconhecida com precisão, pode melhorar o reconhecimento de voz:

  1. Com o agente aberto, selecione Definições>Voz.

  2. Selecione Aumentar a precisão com dados do agente para ativar as predefinições de reconhecimento de voz automáticas personalizadas do agente.

  3. Selecione Guardar para consolidar as alterações.

  4. Publique o seu agente para ver as novas alterações.

Referência de opções de voz ao nível do agente

A página de definições Detalhes do agente permite-lhe configurar tempos limite para várias caraterísticas relacionadas com voz. As definições aplicadas nesta página tornam-se a predefinição para tópicos criados no seu agente.

Para fazer alterações às opções de tempo limite ao nível do agente:

  1. Com um agente aberto, selecione Definições>Voz.

    Captura de ecrã das definições de Voz para um agente com capacidade de voz.

  2. Selecione as definições pretendidas e ajuste as predefinições do agente.

  3. Selecione Guardar para consolidar as alterações.

Definições ao nível do agente

A tabela a seguir lista cada opção e como esta se relaciona com as definições ao nível do nó.

Secção ao nível do agente com capacidade de voz Configuração Description Valor predefinido Substituição ao nível do nó
DTMF Tempo limite entre dígitos Tempo máximo (milissegundos) permitido enquanto aguarda a próxima entrada de chave DTMF. Aplica entrada DTMF de vários dígitos só quando os utilização não atingem o comprimento máximo de entrada. 3000 ms Nó de pergunta com propriedades de voz para Entrada DTMF de vários dígitos
DTMF Tempo limite de cessação Duração máxima (milissegundos) a aguardar por uma chave de cessação DTMF. O limite aplica-se quando o utilizador atinge o comprimento máximo de entrada e não pressiona a tecla de cessação. Aplica-se apenas à entrada DTMF de vários dígitos.

Depois de o limite expirar e a chave DTMF de término não chegar, o agente termina o reconhecimento e devolve o resultado até esse ponto.

Se definido como "continuar sem esperar", o agente não aguarda a chave de cessação. O agente retorna imediatamente após o utilizador inserir o comprimento máximo.
2000 ms Nó de pergunta com propriedades de voz para Entrada DTMF de vários dígitos
Deteção de silêncio Tempo limite da deteção de silêncio Silêncio máximo (milissegundos) permitido enquanto aguarda a entrada de utilizador. O limite aplica-se quando o agente não deteta nenhuma entrada de utilizador. A predefinição é "sem limite de tempo de silêncio". O agente aguarda infinitamente a entrada de utilizador.

A deteção de silêncio para voz vezes o período após a voz terminar de falar.
Sem tempo limite de silêncio Nó de pergunta com propriedades de voz para Entrada DTMF de vários dígitos

Tópico de sistema (propriedades do acionador de deteção de silêncio) para Configurar deteção de silêncio e tempos limite
Recolha de voz Tempo limite de término de expressão O limite aplica-se quando o utilizador faz uma pausa durante ou após a fala. Se a pausa for superior ao tempo limite, o agente assume que o utilizador terminou de falar.

O valor máximo para o tempo limite de término de expressão é 3000 ms. Qualquer coisa acima de 3000 ms é reduzido para 3000 ms.
1500 ms Nó de pergunta com propriedades de voz
Recolha de voz Tempo limite do reconhecimento de voz Determina quanto tempo o agente permite a entrada do utilizador quando este começa a falar. O valor predefinido é 12000 milissegundos (cerca de 12 segundos). Nenhum tempo limite de reconhecimento significa tempo infinito. O agente reinicia a pergunta. Se não houver resposta, a voz está para além do Tempo limite de reconhecimento de voz. 12.000 ms Nó de pergunta com propriedades de voz
Mensagens de latência Atraso no envio da mensagem Determina quanto tempo o agente aguarda antes de entregar a mensagem de latência após o início de uma pedido de operação de fundo. O tempo é definido em milissegundos. 500 ms Propriedades do nó de ação para operação de longa duração
Mensagens de latência Tempo mínimo de reprodução A mensagem de latência é reproduzida por um período mínimo de tempo, mesmo que a operação de fundo seja concluída enquanto a mensagem está a ser reproduzida. O tempo é definido em milissegundos. 5000 ms Propriedades do modo de ação para operação de longa duração
Sensibilidade da voz Sensibilidade Controla como o sistema equilibra a deteção de voz e o ruído de fundo. Diminua a sensibilidade para ambientes ruidosos, espaços públicos e operações sem mãos. Aumente a sensibilidade para ambientes sossegados, utilizadores de fala suave ou deteção de comandos de voz. A predefinição é 0,5. 0,5 Não há substituições ao nível do nó para este controlo.

Ativar a interrupção

Ativar a interrupção permite aos utilizadores do agente interromperem o agente. Esta caraterística pode ser útil quando não precisa que o utilizador do agente ouça a mensagem inteira. Por exemplo, os chamadores poderão já conhecer as opções do menu, porque as ouviram no passado. Com a interrupção, o utilizador do agente pode introduzir a opção que quiser, mesmo que o agente não tenha terminado de listar todas as opções.

Cenários de desativação da interrupção

  • Desative a interrupção se atualizou recentemente uma mensagem de agente ou se a mensagem de conformidade não deva ser interrompida.
  • Desative a interrupção para a primeira mensagem de agente para garantir que os utilizadores do agente estão cientes de informações novas ou essenciais.

Especificações

  • A interrupção suporta interrupções baseadas em DTMF e voz por parte do utilizador do agente.

  • A interrupção pode ser controlada com cada mensagem, num lote. Coloque os nós barge-in-disabled em sequência antes de cada nó onde a interrupção é permitida. Caso contrário, barge-in-disabled é tratado como uma mensagem allow-barge-in.

    Captura de ecrã dos posicionamentos de barge-in e barge-in-disabled em nós de mensagem.

    Quando uma fila de lote é concluída, a definição automática de interrupção é reposta para o próximo lote e controlada pelo sinalizador de interrupção em cada mensagem subsequente. Pode colocar nós desabilitados de interrupção à medida que a sequência começa novamente.

Gorjeta

Se houver nós de mensagem consecutivos, seguidos por um nó de pergunta, as mensagens de voz para estes nós serão definidas como um lote. Um lote começa com um nó de mensagem e para no nó de pergunta, o qual está a aguardar a entrada do utilizador.

Evite desativar a interrupção para mensagens longas, especialmente se espera que os utilizadores do agente interajam com o agente com frequência. Se o utilizador do seu agente já conhece as opções do menu, deixe-o ir autonomamente para onde ele quer ir.

Configurar a interrupção

  1. Com um nó de Mensagem ou de Pergunta selecionado, defina a modalidade pretendida como Voz ou DTMF.

  2. Selecione os três pontos (...) do nó e depois selecione Propriedades.

    1. Para nós de Mensagem , o painel Propriedades da atividade de envio é aberto na lateral da tela de criação.

      Selecione Permitir interrupção.

    2. Para os nós de Pergunta , o painel Propriedades da pergunta abre-se e, em seguida, pode selecionar Voz.

      Nas propriedades de Voz , selecione Permitir interrupção.

  3. Guarde o tópico.

Configurar a deteção de silêncio e os tempos limite

A deteção de silêncio permite configurar quanto tempo o agente aguarda pela entrada do utilizador e a ação que este efetua se nenhuma entrada for recebida. A deteção de silêncio é mais útil em resposta a uma pergunta ao nível do nó ou quando o agente espera por uma frase acionadora para iniciar um novo tópico.

Pode configurar os tempos limite predefinidos para tópicos.

Para substituir as predefinições de um nó:

  1. Selecione os três pontos (...) do nó e depois selecione Propriedades.

    O painel Propriedades da pergunta abre-se.

  2. Selecione Voz e faça ajustes nas seguintes definições:

    Opção de tempo limite da deteção de silêncio Description
    Utilizar a definição de agente O nó usa a definição global para deteção de silêncio.
    Desativar para este nó O agente aguarda indefinidamente por uma resposta.
    Personalizar em milissegundos O agente aguarda um tempo especificado antes de repetir a pergunta.

Ação de contingência

Pode configurar alguns comportamentos como uma ação de contingência:

  • Quantas vezes o agente deve repetir uma pergunta
  • O que a mensagem de novo pedido deve dizer
  • O que o agente deve fazer após um número especificado de repetições

Entrada de voz

Para entrada de voz, pode especificar:

  • Tempo limite de término de expressão: quanto tempo o agente espera depois de o utilizador terminar de falar
  • Tempo limite de reconhecimento de voz: quanto tempo o agente dá ao utilizador quando este começa a responder

Para configurar o comportamento de deteção de silêncio quando o agente aguarda por uma frase acionadora, ajuste as definições no tópico de sistema Em silêncio.

Adicionar uma mensagem de latência para operações de longa duração

Para operações de back-end longas, o seu agente pode enviar uma mensagem aos utilizadores para notificá-los sobre os processos mais longos. Os agentes num canal de mensagens também podem enviar uma mensagem de latência.

Reprodução de áudio da mensagem de latência Mensagem de latência no chat
Continua em ciclo até que a operação seja concluída. Enviado apenas uma vez quando a latência especificada é atingida.

No Copilot Studio, o seu agente pode repetir uma mensagem depois de acionar um fluxo do Power Automate:

  1. Adicione um nó de Ação que aciona um fluxo.

  2. Selecione os três pontos (...) do nó e depois selecione Propriedades. O painel Propriedades da ação abre-se.

  3. Selecione Enviar uma mensagem.

  4. Na secção Mensagem, introduza aquilo que quer que o agente diga. Pode usar SSML para modificar o som da mensagem. O agente repete a mensagem até que o fluxo seja concluído.

Pode ajustar quanto tempo o agente deve esperar antes de repetir a mensagem na secção Atraso. Pode definir uma quantidade mínima de tempo de espera, mesmo que o fluxo seja concluído.

Configurar o encerramento de chamadas

Para configurar o seu agente para encerrar a chamada e desligar, adicione um novo nó (+) e, em seguida, selecione Gestão de tópicos>Terminar conversa.

Captura de ecrã de um novo menu de nós com a Gestão de tópicos e Terminar conversa realçados.

Formatar a síntese de voz com SSML

Pode usar a linguagem de markup de síntese de voz (SSML) para alterar o som do agente quando lê mensagens em voz alta. Por exemplo, pode alterar o tom ou a frequência da linguagem falada, a velocidade e o volume.

SSML usa etiquetas para incluir o texto que deseja modificar, semelhante a HTML. Pode usar as seguintes etiquetas no Copilot Studio:

Etiqueta SSML Description Ligação para a documentação do serviço de voz
<audio src="_URL to an audio file_"/> Adicione o URL a um ficheiro de áudio dentro da etiqueta. O ficheiro tem de estar acessível pelo utilizador do agente. Adicionar áudio gravado
<break /> Insira pausas ou interrupções entre palavras. Insira opções de interrupção na etiqueta. Adicionar uma interrupção
<emphasis> O texto que pretende modificar</emphasis> Adicione níveis de stress a palavras ou frases. Adicione opções de ênfase na etiqueta de abertura. Adicione a etiqueta de encerramento após o texto que pretende modificar. Ajustar opções de ênfase
<prosody> O texto que pretende modificar</prosody> Especifique as alterações de tom, contorno, intervalo, taxa e volume. Adicione opções de prosódia na etiqueta de abertura. Adicione a etiqueta de encerramento após o texto que pretende modificar. Ajustar opções de prosódia
<lang xml:lang="xx-XX"> O texto que pretende modificar</lang> Ajuste o idioma de fala dentro da mesma mensagem ao usar uma voz neural multilingue. Ajustar os idiomas de fala

Observação

Ao usar a etiqueta <audio src="_URL to an audio file_"/>, se o URL estiver armazenado numa variável, o URL terá de ser codificado antes de ser inserido na etiqueta SSML da origem do áudio na mensagem. Recomendamos a utilização da função EncodeHTML do PowerFx para codificar o URL ao atribuí-lo a uma variável na ação de atribuição.

Captura de ecrã de uma mensagem de voz com etiquetas SSML adicionadas.

Encontrar e utilizar uma etiqueta

SSML usa etiquetas para incluir o texto que deseja modificar, como HTML.

Pode usar as seguintes etiquetas no Copilot Studio:

  1. Com um nó de Mensagem ou de Pergunta selecionado, altere o modo para Voz ou DTMF.

  2. Selecione o menu Etiquetas SSML e selecione uma etiqueta.

    A caixa de mensagem é preenchida com a etiqueta. Se já tiver texto na caixa de mensagem, o código da etiqueta será anexado ao final da mensagem.

  3. Envolva o texto que pretende modificar com as etiquetas de abertura e encerramento. Pode combinar várias etiquetas e personalizar partes individuais da mensagem com etiquetas individuais.

Gorjeta

Pode introduzir manualmente etiquetas SSML que não aparecem no menu auxiliar. Para obter mais informações sobre outras etiquetas que pode usar, consulte Melhorar a síntese com a Linguagem de Markup de Síntese de Voz.

Transferir uma chamada para um representante ou número de telefone externo

Pode fazer com que o agente transfira a chamada para um número de telefone externo. O Copilot Studio suporta transferência cega para um número de telefone PSTN e o número de Encaminhamento direto.

Para transferir para um número de telefone externo:

  1. No tópico que pretende modificar, adicione um novo nó (+). No menu do nó, selecione Gestão de tópicos e, em seguida, Transferir conversa.

  2. Em Tipo de transferência, selecione Transferência de número de telefone externo e introduza o número de transferência.

  3. (Opcionalmente) Adicione um cabeçalho SIP UUI à chamada telefónica.

    Este cabeçalho é uma cadeia de pares key=value, sem espaços nem carateres especiais, apresentado para os sistemas externos lerem.

    1. Selecione os três pontos (...) do nó e depois selecione Propriedades. O painel Transferir propriedades da conversa abre-se.

    2. Em Cabeçalho UUI SIP, introduza as informações que pretende enviar com a transferência de chamada. As variáveis não são suportadas ao transferir para um número de telefone externo.

    Atenção

    Apenas os primeiros 128 carateres na cadeia são enviados.

    O cabeçalho só aceita números, letras, sinais de igual (=) e pontos-e-vírgula (;). Todos os outros carateres, incluindo espaços, chavetas e parênteses, ou fórmulas, não são suportados e podem fazer com que a transferência falhe.

Gorjeta

Inclua um + no seu número de telefone para o indicativo correspondente.

A saída da transferência com SIP UUI para o número de telefone de destino tem de usar o encaminhamento direto. Os números de telefone da Rede telefónica pública comutada (PSTN) não suportam transferências de cabeçalho SIP UUI.

Para transferir para um representante, consulte Acionadores explícitos.

Utilizar variáveis de voz

O Copilot Studio suporta o preenchimento de variáveis. Pode usar variáveis predefinidas ou criar variáveis personalizadas.

Observação

Um agente com capacidade de voz no Copilot Studio suporta variáveis de contexto. Estas variáveis ajudam a integrar as conversas do agente com o Dynamics 365 Customer Service quando transferir uma chamada.

Para obter mais informações sobre variáveis de contexto no Dynamics 365 Customer Service, consulte Variáveis de contexto para bots do Copilot Studio.

Esta integração suporta estes cenários com as seguintes variáveis quando transfere:

Variable Tipo Description
System.Activity.From.Name Cordão O ID do chamador do utilizador do agente
System.Activity.Recipient.Name Cordão O número usado para chamar ou ligar-se ao agente
System.Conversation.SipUuiHeaderValue Cordão Valor do cabeçalho SIP quando transfere através de um número de telefone de encaminhamento direto
System.Activity.UserInputType Cordão Se o utilizador do agente usou DTMF ou voz na conversa
System.Activity.InputDTMFKey Cordão A entrada DTMF não processada do utilizador do agente
System.Conversation.OnlyAllowDTMF booleano A voz ignora a entrada de voz quando definida como true
System.Activity.SpeechRecognition.Confidence Número O valor de confiança (entre 0 e 1) do último evento de reconhecimento de voz
System.Activity.SpeechRecognition.MinimalFormattedText Cordão Resultados do reconhecimento de voz (como texto não processado) antes de o Copilot Studio aplicar o respetivo modelo dedicado de compreensão de linguagem natural dedicado

Observação

  • Um agente com grandes frases acionadores e dimensionamento de entidade leva mais tempo a ser publicado.
  • Se vários utilizadores publicarem o mesmo agente ao mesmo tempo, a sua ação de publicação será bloqueada. Precisa de publicar novamente o agente depois de os outros terminarem as suas edições de agente existentes.

Para obter mais informações sobre os fundamentos da publicação, consulte Conceitos-chave — Publicar e implementar o seu agente.