Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Importante
- Azure Content Understanding no Foundry Tools está disponível em pré-visualização. As versões de visualização pública fornecem acesso antecipado a recursos que estão em desenvolvimento ativo.
- Recursos, abordagens e processos podem mudar ou ter recursos limitados, antes da Disponibilidade Geral (GA).
- Para obter mais informações, consulte Termos de uso suplementares para visualizações do Microsoft Azure.
Os analisadores de áudio permitem a transcrição e diarização de áudio conversacional, extraindo campos estruturados, como resumos, sentimentos e tópicos-chave. Personalize um modelo de analisador de áudio às necessidades do seu negócio usando o portal Microsoft Foundry para começar a gerar resultados.
Aqui estão os cenários comuns para o processamento de dados de áudio conversacional:
- Obtenha insights do cliente por meio de sumarização e análise de sentimento.
- Avaliar e verificar a qualidade e conformidade das chamadas em call centers.
- Crie resumos e metadados automatizados para publicação de podcasts.
Recursos do analisador de áudio
O Entendimento de Conteúdo serve como uma pedra angular para as soluções de Análise de Fala, permitindo os seguintes recursos para arquivos de áudio:
Extração de conteúdo
A extração de conteúdo de áudio é o processo de transcrição de arquivos de áudio. Esse processo inclui a separação de transcrições por orador e pode envolver recursos opcionais, como deteção de função, para atualizar os resultados do orador para funções significativas de orador. Também pode envolver resultados detalhados, incluindo carimbos de data/hora no nível da palavra.
Tratamento linguístico
Suportamos diferentes opções para lidar com o processamento de linguagem durante a transcrição.
A tabela a seguir fornece uma visão geral das opções controladas por meio da configuração 'localidades':
| Configuração de localidade | Tamanho do ficheiro | Processamento suportado | Localidades suportadas | Latência dos resultados |
|---|---|---|---|---|
| automático ou vazio | ≤ 300 MB e/ou ≤ 2 horas | Transcrição multilingue |
de-DE, en-AU, en-CA, en-GB, en-IN, en-US, es-ES, es-MX, fr-CA, fr-FR, hi-IN, it-IT, ja-JP, ko-KR e zh-CN |
Quase em tempo real |
| automático ou vazio | > 300 MB e >2 HR ≤ 4 horas | Transcrição multilingue |
en-US, es-ES, , es-MX, fr-FR, hi-INit-IT, ja-JP, ko-KRpt-BR,zh-CN |
Regular |
| localidade única | ≤ 1 GB e/ou ≤ 4 horas | Transcrição em língua única | Todas as localidades suportadas[^1] | • ≤ 300 MB e/ou ≤ 2 horas: quase em tempo real >• 300 MB e >2 HR ≤ 4 horas: Regular |
| várias localidades | ≤ 1 GB e/ou ≤ 4 horas | Transcrição de idioma único (com base na deteção de idioma) | Todas as localidades suportadas[^1] | • ≤ 300 MB e/ou ≤ 2 horas: quase em tempo real >• 300 MB e >2 HR ≤ 4 horas: Regular |
[^1]: A Compreensão de Conteúdo suporta o conjunto completo de Azure Speech nas linguagens de transcrição de voz para texto das ferramentas Foundry. Para idiomas com suporte a transcrições rápidas e para arquivos ≤ 300 MB e/ou ≤ 2 horas, o tempo de transcrição é reduzido substancialmente.
Transcrição. Converte áudio conversacional em transcrições baseadas em texto pesquisáveis e analisáveis no formato WebVTT. Campos personalizáveis podem ser gerados a partir de dados de transcrição. Carimbos de data/hora no nível da frase e da palavra estão disponíveis mediante solicitação.
Diarização. Distingue entre oradores numa conversa, atribuindo partes da transcrição a oradores específicos.
Deteção de função de alto-falante. Identifica as funções do agente e do cliente nos dados de chamada do contact center.
Transcrição multilingue. Gera transcrições multilingues, aplicando idioma/localidade por frase. Desviando-se da deteção de idioma, esse recurso é habilitado quando nenhum idioma/localidade é especificado ou o idioma está definido como
auto.
Observação
Quando a transcrição multilíngue é usada, todos os arquivos com localidades sem suporte produzem um resultado com base na localidade suportada mais próxima, o que provavelmente está incorreto. Este resultado é um comportamento conhecido. Evite problemas de qualidade de transcrição, garantindo que você configure localidades quando não estiver usando uma localidade com suporte de transcrição multilíngue!
- Deteção de idioma. Deteta automaticamente o idioma/localidade dominante que é usado para transcrever o arquivo. Defina vários idiomas/localidades para habilitar a deteção de idioma.
Extração de campo
A extração de campo permite extrair dados estruturados de arquivos de áudio, como resumos, sentimentos e entidades mencionadas de registros de chamadas. Você pode começar personalizando um modelo de analisador sugerido ou criando um do zero.
Principais benefícios
Recursos avançados de áudio, incluindo:
Extração de dados personalizável. Adapte a saída às suas necessidades específicas, modificando o esquema de campo, permitindo a geração e extração de dados precisas.
Modelos generativos. Utilize modelos de IA generativa para especificar em linguagem natural o conteúdo que você deseja extrair e o serviço gera a saída desejada.
Pré-processamento integrado. Beneficie-se das etapas de pré-processamento integradas, como transcrição, diarização e deteção de funções, fornecendo contexto rico para modelos generativos.
Adaptabilidade de cenários. Adapte o serviço às suas necessidades, gerando campos personalizados e extraindo dados relevantes.
Analisadores de áudio pré-construídos
Os analisadores pré-construídos permitem extrair informações valiosas para o conteúdo de áudio sem a necessidade de criar uma configuração do analisador.
Todos os analisadores de áudio geram transcrições no formato padrão WEBVTT separadas por alto-falante.
Observação
Os analisadores pré-definidos são configurados para usar transcrição multilíngue e têm returnDetails habilitado.
Os seguintes analisadores pré-construídos estão disponíveis:
Análise pós-chamada (centro de atendimento pré-construído). Analise gravações de chamadas para gerar:
- Transcrições de conversas com resultado de deteção de função de orador
- Resumo da chamada
- Sentimento de Chamada
- Os cinco principais artigos mencionados
- Lista de empresas mencionadas
- Lista de pessoas (nome e cargo/função) mencionadas
- Lista de categorias de chamadas relevantes
Exemplo de resultado:
{
"id": "bc36da27-004f-475e-b808-8b8aead3b566",
"status": "Succeeded",
"result": {
"analyzerId": "prebuilt-callCenter",
"apiVersion": "2025-05-01-preview",
"createdAt": "2025-05-06T22:53:28Z",
"stringEncoding": "utf8",
"warnings": [],
"contents": [
{
"markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Agent>Good day.\n\n00:00.960 --> 00:02.240\n<v Agent>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Agent>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Agent>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Agent>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Agent>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Agent>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Agent>No problem.\n\n00:12.880 --> 00:13.920\n<v Agent>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Agent>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Agent>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Agent>Great.\n\n00:20.800 --> 00:24.160\n<v Agent>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Agent>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Agent>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Agent>That was all.\n\n00:28.720 --> 00:29.280\n<v Agent>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Agent>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Agent>Goodbye at Contoso.\n```",
"fields": {
"Summary": {
"type": "string",
"valueString": "Maria Smith contacted Contoso to inquire about her current point balance. After confirming her identity with her date of birth, the agent, John Doe, informed her that her balance was 599 points. Maria did not require any further assistance, and the call concluded politely."
},
"Topics": {
"type": "array",
"valueArray": [
{
"type": "string",
"valueString": "Point balance inquiry"
},
{
"type": "string",
"valueString": "Identity confirmation"
},
{
"type": "string",
"valueString": "Customer service"
}
]
},
"Companies": {
"type": "array",
"valueArray": [
{
"type": "string",
"valueString": "Contoso"
}
]
},
"People": {
"type": "array",
"valueArray": [
{
"type": "object",
"valueObject": {
"Name": {
"type": "string",
"valueString": "John Doe"
},
"Role": {
"type": "string",
"valueString": "Agent"
}
}
},
{
"type": "object",
"valueObject": {
"Name": {
"type": "string",
"valueString": "Maria Smith"
},
"Role": {
"type": "string",
"valueString": "Customer"
}
}
}
]
},
"Sentiment": {
"type": "string",
"valueString": "Positive"
},
"Categories": {
"type": "array",
"valueArray": [
{
"type": "string",
"valueString": "Business"
}
]
}
},
"kind": "audioVisual",
"startTimeMs": 0,
"endTimeMs": 32183,
"transcriptPhrases": [
{
"speaker": "Agent",
"startTimeMs": 80,
"endTimeMs": 640,
"text": "Good day.",
"words": []
}, ...
{
"speaker": "Customer",
"startTimeMs": 5440,
"endTimeMs": 6320,
"text": "Yes, good day.",
"words": []
}, ...
]
}
]
}
}
Análise de conversa (pré-configurado audioSearch). Analise gravações para gerar:
- Transcrições de conversas
- Resumo da conversa
Exemplo de resultado:
{
"id": "9624cc49-b6b3-4ce5-be6c-e895d8c2484d",
"status": "Succeeded",
"result": {
"analyzerId": "prebuilt-audioSearch",
"apiVersion": "2025-05-01-preview",
"createdAt": "2025-05-06T23:00:12Z",
"stringEncoding": "utf8",
"warnings": [],
"contents": [
{
"markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Speaker 1>Good day.\n\n00:00.960 --> 00:02.240\n<v Speaker 1>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Speaker 1>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Speaker 1>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Speaker 1>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Speaker 1>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Speaker 1>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Speaker 1>No problem.\n\n00:12.880 --> 00:13.920\n<v Speaker 1>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Speaker 1>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Speaker 1>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Speaker 1>Great.\n\n00:20.800 --> 00:24.160\n<v Speaker 1>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Speaker 1>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Speaker 1>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Speaker 1>That was all.\n\n00:28.720 --> 00:29.280\n<v Speaker 1>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Speaker 1>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Speaker 1>Goodbye at Contoso.\n```",
"fields": {
"Summary": {
"type": "string",
"valueString": "Maria Smith contacted Contoso to inquire about her current point balance. John Doe assisted her by confirming her identity using her date of birth and informed her that her balance was 599 points. Maria expressed no further inquiries, and the conversation concluded politely."
}
},
"kind": "audioVisual",
"startTimeMs": 0,
"endTimeMs": 32183,
"transcriptPhrases": [
{
"speaker": "Speaker 1",
"startTimeMs": 80,
"endTimeMs": 640,
"text": "Good day.",
"words": []
}, ...
{
"speaker": "Speaker 2",
"startTimeMs": 5440,
"endTimeMs": 6320,
"text": "Yes, good day.",
"words": []
}, ...
]
}
]
}
}
Você também pode personalizar analisadores pré-construídos para um controle mais refinado da saída definindo campos personalizados. A personalização permite que você use todo o poder dos modelos generativos para extrair insights profundos do áudio. Por exemplo, a personalização permite:
- Gere outros insights.
- Controle o idioma do resultado da extração de campo.
- Configure o comportamento de transcrição.
Acelerador de solução de mineração de conhecimento conversacional
Para obter um início rápido de ponta a ponta para soluções de Análise de Fala, consulte o acelerador de solução de mineração de conhecimento em conversação.
Obtenha insights acionáveis a partir de grandes volumes de dados de conversação identificando temas, padrões e relacionamentos importantes. Ao utilizar Microsoft Foundry, Azure Content Understanding em Foundry Tools, Azure OpenAI em Microsoft Foundry Models e Azure AI Search, esta solução analisa diálogos não estruturados e mapeia-os para insights significativos e estruturados.
Recursos como modelagem de tópicos, extração de frases-chave, transcrição de fala para texto e bate-papo interativo permitem que os usuários explorem dados naturalmente e tomem decisões mais rápidas e informadas.
Os analistas que trabalham com grandes volumes de dados de conversação podem usar essa solução para extrair insights por meio da interação em linguagem natural. Ele suporta tarefas como identificar tendências de suporte ao cliente, melhorar a qualidade do contact center e descobrir inteligência operacional, permitindo que as equipes identifiquem padrões, ajam de acordo com o feedback e tomem decisões informadas mais rapidamente.
Requisitos de entrada
Para obter uma lista detalhada dos formatos de áudio suportados, consulteLimites de serviço e codecs.
Idiomas e regiões suportados
Para obter uma lista completa das regiões, idiomas e localidades suportados, consulte Suporte a idiomas e regiões.
Privacidade e segurança dos dados
Os programadores que utilizam este serviço devem rever as políticas da Microsoft sobre dados de clientes. Para obter mais informações, consulteDados, proteção e privacidade.
Próximos passos
- Tente processar o seu conteúdo áudio no portal Microsoft Foundry.
- Saiba como analisar conteúdo de áudio com modelos de analisador.
- Exemplos de código de revisão: