Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Importante
- Azure Content Understanding en Foundry Tools está disponible en versión preliminar. Las versiones preliminares públicas proporcionan acceso anticipado a las características que están en desarrollo activo.
- Las características, los enfoques y los procesos pueden cambiar o tener funcionalidades limitadas, antes de la disponibilidad general (GA).
- Para obtener más información, consulteTérminos de uso complementarios para las versiones preliminares de Microsoft Azure.
Los analizadores de audio permiten la transcripción y la diarización del audio conversacional, extrayendo campos estructurados como resúmenes, opiniones y temas clave. Personalice una plantilla de analizador de audio para sus necesidades empresariales mediante el portal de Microsoft Foundry para empezar a generar resultados.
Estos son escenarios comunes para el procesamiento de datos de audio conversacional:
- Obtenga información de los clientes a través del resumen y el análisis de sentimiento.
- Evalúe y compruebe la calidad y el cumplimiento de las llamadas en los centros de llamadas.
- Cree resúmenes y metadatos automatizados para la publicación de podcasts.
Funcionalidades del analizador de audio
Content Understanding actúa como piedra angular para las soluciones de Speech Analytics, lo que permite las siguientes funcionalidades para los archivos de audio:
Extracción de contenido
La extracción de contenido de audio es el proceso de transcribir archivos de audio. Este proceso incluye separar las transcripciones por ponente y puede implicar características opcionales como la detección de roles para actualizar los resultados del ponente a roles de ponente significativos. También puede implicar resultados detallados, incluidas las marcas de tiempo de nivel de palabra.
Control de idioma
Se admiten diferentes opciones para controlar el procesamiento del lenguaje durante la transcripción.
En la tabla siguiente se proporciona información general sobre las opciones controladas a través de la configuración de "configuraciones regionales":
| Configuración regional | Tamaño de archivo | Procesamiento admitido | Configuraciones regionales admitidas | Latencia de resultados |
|---|---|---|---|---|
| automático o vacío | ≤ 300 MB o ≤ 2 horas | Transcripción multilingüe |
de-DE, en-AU, en-CA, en-GB, en-IN, en-US, es-ES, es-MX, fr-CA, fr-FR, hi-IN, it-IT, ja-JP, y ko-KR, zh-CN |
Casi en tiempo real |
| automático o vacío | > 300 MB y >2 HORAS ≤ 4 horas | Transcripción multilingüe |
en-US, es-ES, es-MX, fr-FR, hi-IN, it-IT, ja-JP, ko-KR, pt-BR, zh-CN |
Normal |
| configuración regional única | ≤ 1 GB o ≤ 4 horas | Transcripción de un solo idioma | Todas las configuraciones regionales admitidas[^1] | • ≤ 300 MB o ≤ 2 horas: Casi en tiempo real • > 300 MB y >2 HR ≤ 4 horas: Normal |
| varias configuraciones regionales | ≤ 1 GB o ≤ 4 horas | Transcripción de un solo idioma (basada en la detección de idioma) | Todas las configuraciones regionales admitidas[^1] | • ≤ 300 MB o ≤ 2 horas: Casi en tiempo real • > 300 MB y >2 HR ≤ 4 horas: Normal |
[^1]: Content Understanding admite el conjunto completo de idiomas de conversión de voz a texto de Azure Speech en Foundry Tools. En el caso de los idiomas compatibles con transcripciones rápidas y para archivos ≤ 300 MB o ≤ 2 horas, el tiempo de transcripción se reduce considerablemente.
Transcripción. Convierte el audio conversacional en transcripciones basadas en texto que se pueden buscar y analizar en formato WebVTT. Los campos personalizables se pueden generar a partir de datos de transcripción. Las marcas de tiempo de nivel de oración y de nivel de palabra están disponibles bajo petición.
Diarización. Distingue entre los hablantes de una conversación, atribuyendo partes de la transcripción a hablantes específicos.
Detección de roles de Speaker. Identifica los roles de agente y cliente dentro de los datos de llamadas del centro de contactos.
Transcripción multilingüe. Genera transcripciones multilingües, aplicando idioma o configuración regional por frase. Cuando se desvía de la detección de idioma, esta función se habilita cuando no se especifica ningún idioma o configuración regional, o cuando el idioma se establece en
auto.
Nota:
Cuando se usa la transcripción multilingüe, los archivos con configuraciones regionales no admitidas producen un resultado basado en la configuración regional más cercana admitida, lo que probablemente es incorrecto. Este resultado es un comportamiento conocido. Evite problemas de calidad de transcripción asegurándose de configurar configuraciones regionales cuando no use una configuración regional compatible con la transcripción multilingüe.
- Detección de idioma. Detecta automáticamente el idioma o la configuración regional dominantes que se usa para transcribir el archivo. Establezca varios idiomas o configuraciones regionales para habilitar la detección de idioma.
Extracción de campos
La extracción de campos permite extraer datos estructurados de archivos de audio, como resúmenes, opiniones y entidades mencionadas de registros de llamadas. Puede empezar personalizando una plantilla de analizador sugerida o creando una desde cero.
Ventajas clave
Funcionalidades avanzadas de audio, entre las que se incluyen:
Extracción de datos personalizable. Adapte la salida a sus necesidades específicas modificando el esquema de campo, lo que permite generar y extraer datos precisos.
Modelos generativos. Use modelos de IA generativos para especificar en lenguaje natural el contenido que desea extraer y el servicio genera la salida deseada.
Procesamiento previo integrado. Benefíciese de los pasos de preprocesamiento integrados, como la transcripción, la diarización y la detección de roles, lo que proporciona un contexto enriquecido para los modelos generativos.
Capacidad de adaptación del escenario. Adapte el servicio a sus requisitos mediante la generación de campos personalizados y extraiga los datos pertinentes.
Analizadores de audio creados previamente
Los analizadores creados previamente permiten extraer información valiosa en el contenido de audio sin necesidad de crear una configuración del analizador.
Todos los analizadores de audio generan transcripciones en formato WEBVTT estándar separados por altavoz.
Nota:
Los analizadores predefinidos están configurados para usar la transcripción multilingüe y con returnDetails habilitado.
Los siguientes analizadores creados previamente están disponibles:
Análisis posterior a la llamada (callCenter precompilado). Analice las grabaciones de llamadas para generar:
- transcripciones de conversación con el resultado de detección de rol de ponente
- resumen de llamadas
- opinión de llamada
- cinco artículos principales mencionados
- lista de empresas mencionadas
- lista de personas (nombre y título/rol) mencionados
- lista de categorías de llamadas pertinentes
Resultado de ejemplo:
{
"id": "bc36da27-004f-475e-b808-8b8aead3b566",
"status": "Succeeded",
"result": {
"analyzerId": "prebuilt-callCenter",
"apiVersion": "2025-05-01-preview",
"createdAt": "2025-05-06T22:53:28Z",
"stringEncoding": "utf8",
"warnings": [],
"contents": [
{
"markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Agent>Good day.\n\n00:00.960 --> 00:02.240\n<v Agent>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Agent>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Agent>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Agent>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Agent>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Agent>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Agent>No problem.\n\n00:12.880 --> 00:13.920\n<v Agent>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Agent>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Agent>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Agent>Great.\n\n00:20.800 --> 00:24.160\n<v Agent>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Agent>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Agent>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Agent>That was all.\n\n00:28.720 --> 00:29.280\n<v Agent>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Agent>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Agent>Goodbye at Contoso.\n```",
"fields": {
"Summary": {
"type": "string",
"valueString": "Maria Smith contacted Contoso to inquire about her current point balance. After confirming her identity with her date of birth, the agent, John Doe, informed her that her balance was 599 points. Maria did not require any further assistance, and the call concluded politely."
},
"Topics": {
"type": "array",
"valueArray": [
{
"type": "string",
"valueString": "Point balance inquiry"
},
{
"type": "string",
"valueString": "Identity confirmation"
},
{
"type": "string",
"valueString": "Customer service"
}
]
},
"Companies": {
"type": "array",
"valueArray": [
{
"type": "string",
"valueString": "Contoso"
}
]
},
"People": {
"type": "array",
"valueArray": [
{
"type": "object",
"valueObject": {
"Name": {
"type": "string",
"valueString": "John Doe"
},
"Role": {
"type": "string",
"valueString": "Agent"
}
}
},
{
"type": "object",
"valueObject": {
"Name": {
"type": "string",
"valueString": "Maria Smith"
},
"Role": {
"type": "string",
"valueString": "Customer"
}
}
}
]
},
"Sentiment": {
"type": "string",
"valueString": "Positive"
},
"Categories": {
"type": "array",
"valueArray": [
{
"type": "string",
"valueString": "Business"
}
]
}
},
"kind": "audioVisual",
"startTimeMs": 0,
"endTimeMs": 32183,
"transcriptPhrases": [
{
"speaker": "Agent",
"startTimeMs": 80,
"endTimeMs": 640,
"text": "Good day.",
"words": []
}, ...
{
"speaker": "Customer",
"startTimeMs": 5440,
"endTimeMs": 6320,
"text": "Yes, good day.",
"words": []
}, ...
]
}
]
}
}
Análisis de conversación (audioSearch pre compilado). Analice las grabaciones para generar:
- transcripciones de conversación
- resumen de conversación
Resultado de ejemplo:
{
"id": "9624cc49-b6b3-4ce5-be6c-e895d8c2484d",
"status": "Succeeded",
"result": {
"analyzerId": "prebuilt-audioSearch",
"apiVersion": "2025-05-01-preview",
"createdAt": "2025-05-06T23:00:12Z",
"stringEncoding": "utf8",
"warnings": [],
"contents": [
{
"markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Speaker 1>Good day.\n\n00:00.960 --> 00:02.240\n<v Speaker 1>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Speaker 1>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Speaker 1>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Speaker 1>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Speaker 1>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Speaker 1>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Speaker 1>No problem.\n\n00:12.880 --> 00:13.920\n<v Speaker 1>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Speaker 1>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Speaker 1>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Speaker 1>Great.\n\n00:20.800 --> 00:24.160\n<v Speaker 1>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Speaker 1>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Speaker 1>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Speaker 1>That was all.\n\n00:28.720 --> 00:29.280\n<v Speaker 1>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Speaker 1>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Speaker 1>Goodbye at Contoso.\n```",
"fields": {
"Summary": {
"type": "string",
"valueString": "Maria Smith contacted Contoso to inquire about her current point balance. John Doe assisted her by confirming her identity using her date of birth and informed her that her balance was 599 points. Maria expressed no further inquiries, and the conversation concluded politely."
}
},
"kind": "audioVisual",
"startTimeMs": 0,
"endTimeMs": 32183,
"transcriptPhrases": [
{
"speaker": "Speaker 1",
"startTimeMs": 80,
"endTimeMs": 640,
"text": "Good day.",
"words": []
}, ...
{
"speaker": "Speaker 2",
"startTimeMs": 5440,
"endTimeMs": 6320,
"text": "Yes, good day.",
"words": []
}, ...
]
}
]
}
}
También puede personalizar analizadores creados previamente para un control más específico de la salida mediante la definición de campos personalizados. La personalización permite usar toda la potencia de los modelos generativos para extraer información detallada del audio. Por ejemplo, la personalización le permite:
- Genere otras conclusiones.
- Controlar el idioma de la salida de extracción de campo.
- Configure el comportamiento de la transcripción.
Acelerador de soluciones de minería de conocimiento conversacional
Para obtener una guía de inicio rápido de un extremo a otro para soluciones de Speech Analytics, consulte el acelerador de soluciones de minería del conocimiento de conversación.
Obtenga información útil a partir de grandes volúmenes de datos conversacionales mediante la identificación de temas, patrones y relaciones clave. Con Microsoft Foundry, Azure Content Understanding en Foundry Tools, Azure OpenAI en Microsoft Foundry Models y Azure AI Search, esta solución analiza el diálogo no estructurado y lo asigna a conclusiones significativas y estructuradas.
Las funcionalidades como el modelado de temas, la extracción de frases clave, la transcripción de voz a texto y el chat interactivo permiten a los usuarios explorar datos de forma natural y tomar decisiones más rápidas e informadas.
Los analistas que trabajan con grandes volúmenes de datos conversacionales pueden usar esta solución para extraer información a través de la interacción del lenguaje natural. Admite tareas como identificar tendencias de soporte al cliente, mejorar la calidad del centro de contactos y descubrir inteligencia operativa, lo que permite a los equipos detectar patrones, actuar sobre los comentarios y tomar decisiones fundamentadas más rápido.
Requisitos de entrada
Para obtener una lista detallada de los formatos de audio admitidos, consulteLímites de servicio y códecs.
Idiomas y regiones admitidos
Para obtener una lista completa de las regiones, idiomas y configuraciones regionales admitidos, consulte Compatibilidad con idiomas y regiones.
Seguridad y privacidad de datos
Los desarrolladores que usan este servicio deben revisar las directivas de Microsoft en los datos de los clientes. Para obtener más información, consulteDatos, protección y privacidad.
Pasos siguientes
- Pruebe a procesar el contenido de audio en el portal de Microsoft Foundry.
- Obtenga información sobre cómo analizar el contenido de audio con plantillas de analizador.
- Revise los ejemplos de código: