Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Importante
Azure Content Understanding está disponible en versión preliminar. Las versiones preliminares públicas proporcionan acceso anticipado a las características que están en desarrollo activo. Las características, los enfoques y los procesos pueden cambiar o tener funcionalidades limitadas antes de la disponibilidad general (GA). Para más información, consulte Términos de uso complementarios para las versiones preliminares de Microsoft Azure.
Azure Content Understanding permite generar un conjunto estándar de metadatos de vídeo y crear campos personalizados para su caso de uso específico mediante modelos generativos. Content Understanding le ayuda a administrar, clasificar, recuperar y compilar flujos de trabajo para recursos de vídeo. Mejora la biblioteca de recursos multimedia, admite características como la generación de resaltado, clasifica el contenido y facilita aplicaciones como la generación aumentada de recuperación (RAG).
El analizador de vídeo precompilado (prebuilt-videoAnalysis) genera resultados listos para RAG. En Markdown, genera lo siguiente:
- Transcripción: Transcripciones insertadas en formato WEBVTT estándar
- Fotogramas clave: Miniaturas de fotograma clave ordenadas que permiten un análisis más profundo
Y el esquema JSON contiene más detalles del análisis visual.
- Descripción: Descripciones de segmentos de lenguaje natural con contexto visual y de voz
- Segmentación: Segmentación automática de escena que divide el vídeo en fragmentos lógicos en función de las categorías que defina
Este formato puede colocarse directamente en un almacén de vectores para habilitar un flujo de trabajo de agente o RAG; no se requiere procesamiento posterior.
Desde allí puede personalizar el analizador para un control más específico de la salida. Puede definir campos y segmentos personalizados. La personalización permite usar toda la eficacia de los modelos generativos para extraer información detallada de los detalles visuales y de audio del vídeo.
Por ejemplo, la personalización le permite:
- Definir campos personalizados: para identificar qué productos y marcas se ven o se mencionan en el vídeo.
- Generar segmentos personalizados: para segmentar una difusión de noticias en capítulos basados en los temas o noticias que se describen.
-
Identificar personas destacadas mediante la descripción de la cara: permitir que un cliente etiquete celebridades en imágenes con nombre y título en función del conocimiento mundial del modelo generativo, por ejemplo,
Satya Nadella.
¿Por qué usar Content Understanding para vídeo?
La comprensión del contenido para el vídeo tiene un amplio potencial de uso. Por ejemplo, puede personalizar los metadatos para etiquetar escenas específicas en un vídeo de entrenamiento, lo que facilita a los empleados localizar y volver a consultar secciones importantes. También puede usar la personalización de metadatos para identificar la ubicación del producto en vídeos promocionales, lo que ayuda a los equipos de marketing a analizar la exposición de la marca. Los otros casos de uso son:
- Medios de difusión y entretenimiento: Administre bibliotecas grandes de programas, películas y clips mediante la generación de metadatos detallados para cada recurso.
- Educación y aprendizaje electrónico: Indexe y recupere momentos específicos en vídeos educativos o conferencias.
- Formación corporativa: Organice vídeos de entrenamiento por temas clave, escenas o momentos importantes.
- Marketing y publicidad: Analice vídeos promocionales para extraer ubicaciones de productos, apariencias de marca y mensajes clave.
Ejemplo de analizador de vídeo precompilado
Con el analizador de vídeo preconstruido (prebuilt-videoSearch), puede cargar un vídeo y obtener un activo de conocimiento de uso inmediato. El servicio empaqueta el contenido en Markdown y JSON con formato enriquecido. Este proceso permite que el índice de búsqueda o el agente de chat ingiera el contenido sin código de pegar personalizado.
Por ejemplo, llame al analizador diseñado para la generación aumentada de recuperación para vídeo
prebuilt-videoSearch. Consulte la guía de inicio rápido de la API REST para obtener más información.A continuación, analizar un vídeo publicitario de 30 segundos daría como resultado la siguiente salida:
# Video: 00:00.000 => 00:06.000 A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere. Transcript WEBVTT 00:03.600 --> 00:06.000 <Speaker 1>Get new years ready. Key Frames - 00:00.600  - 00:01.200  ## Video: 00:06.000 => 00:10.080 The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment. Transcript WEBVTT 00:03.600 --> 00:06.000 <Speaker 1>Go team! Key Frames - 00:06.200  - 00:07.080  *…additional data omitted for brevity…*
Walkthrough
Consulte el siguiente tutorial para RAG en vídeo mediante Content Understanding:
RAG en vídeo mediante Azure Content Understanding
Capacidades
Nota:
Las funcionalidades de identificación y agrupación de caras solo están disponibles en la versión preliminar de la API y no se incluyen en la versión de disponibilidad general.
En segundo plano, dos fases transforman píxeles sin procesar en información preparada para la empresa. En el diagrama siguiente se muestra cómo la extracción alimenta la generación, garantizando que cada paso descendente tenga el contexto que necesita.
El servicio funciona en dos fases. La primera fase, la extracción de contenido, implica capturar metadatos fundamentales, como transcripciones y capturas. La segunda fase, la extracción de campos, usa un modelo generativo para generar campos personalizados y realizar la segmentación.
Funcionalidades de extracción de contenido
El primer pase consiste en extraer un primer conjunto de detalles: quién habla y dónde están los cortes. Crea una base sólida de metadatos sobre la cual los pasos posteriores pueden basarse.
Transcripción: Convierte el audio conversacional en transcripciones basadas en texto que se pueden buscar y analizar en formato WebVTT. Las marcas de tiempo a nivel de oración están disponibles si se establece
"returnDetails": true. La comprensión de contenidos admite el conjunto completo de idiomas de voz a texto de Voz de Azure en Foundry Tools. Los detalles de la compatibilidad con idiomas para vídeo son los mismos que el audio, consulteControl de idioma de audio para obtener más información. Los siguientes detalles de transcripción son importantes tener en cuenta:Diarización: Distingue entre los hablantes de una conversación en el resultado final, asignando partes de la transcripción a hablantes específicos.
Transcripción multilingüe: Genera transcripciones multilingües. La configuración de idioma o regional se aplica a cada frase en la transcripción. Salida de frases cuando
"returnDetails": truese establece. Cuando se desvía de la detección de idioma, esta función se habilita cuando no se especifica ningún idioma o configuración regional, o cuando el idioma se establece enauto.Nota:
Cuando se usa la transcripción multilingüe, los archivos con configuraciones regionales no admitidas producen un resultado basado en la configuración regional más cercana admitida, lo que probablemente es incorrecto. Este resultado es un comportamiento conocido. Evite problemas de calidad de transcripción asegurándose de configurar configuraciones regionales cuando no use una configuración regional compatible con la transcripción multilingüe.
Extracción de fotogramas clave: Extrae fotogramas clave de vídeos para representar cada captura completamente, lo que garantiza que cada captura tenga suficientes fotogramas clave para permitir que la extracción de campos funcione de forma eficaz.
Detección de cortes: identifica los segmentos del vídeo alineados con los límites de captura siempre que sea posible, lo que permite editar y volver a empaquetar el contenido con interrupciones exactamente existentes. La salida es una lista de marcas de tiempo en milisegundos en
cameraShotTimesMs. La salida solo se devuelve cuando se establece"returnDetails": true.
Extracción y segmentación de campos
A continuación, el modelo generativo superpone significado: realiza etiquetado de escenas, resume acciones y segmenta el metraje en partes según su solicitud. Esta acción es donde las indicaciones se convierten en datos estructurados.
Campos personalizados
Dar forma a la salida para que coincida con el vocabulario empresarial. Use un fieldSchema objeto donde cada entrada define el nombre, el tipo y la descripción de un campo. En tiempo de ejecución, el modelo generativo rellena esos campos para cada segmento.
Administración de recursos multimedia:
- Categoría de vídeo: Ayuda a los editores y productores a organizar el contenido, clasificándolo como Noticias, Deportes, Entrevista, Documental, Anuncio, etc. Resulta útil para el etiquetado de metadatos y el filtrado y recuperación de contenido más rápidos.
- Combinación de colores: Transmite el estado de ánimo y la atmósfera, esencial para la coherencia narrativa y la interacción del espectador. La identificación de temas de color ayuda a buscar clips coincidentes para la edición acelerada de vídeo.
Publicidad:
- Marca: Identifica la presencia de marca, fundamental para analizar el impacto de los anuncios, la visibilidad de la marca y la asociación con los productos. Esta funcionalidad permite a los anunciantes evaluar la importancia de la marca y garantizar el cumplimiento de las directrices de personalización de marca.
- Categorías de anuncios: Clasifica los tipos de anuncios por sector, tipo de producto o segmento de audiencia, que admite estrategias de publicidad dirigidas, categorización y análisis de rendimiento.
Ejemplo:
"fieldSchema": {
"description": "Extract brand presence and sentiment per scene",
"fields": {
"brandLogo": {
"type": "string",
"method": "generate",
"description": "Brand being promoted in the video. Include the product name if available."
},
"Sentiment": {
"type": "string",
"method": "classify",
"description": "Ad categories",
"enum": [
"Consumer Packaged Goods",
"Groceries",
"Technology"
]
}
}
}
Campos de descripción de caras
Nota:
Esta característica tiene acceso limitado; Los clientes deben solicitar deshabilitar el desenfoque facial para los modelos de Azure OpenAI con una solicitud de soporte técnico de Azure. Obtenga más información sobre cómo administrar una solicitud de soporte técnico de Azure.
Opcionalmente, la funcionalidad de extracción de campos se puede mejorar para proporcionar descripciones detalladas de caras en el vídeo. Esta funcionalidad incluye atributos como el cabello facial, la expresión facial y la presencia de celebridades, que pueden ser cruciales para diversos propósitos analíticos e indizadores. Para habilitar las capacidades de descripción facial, configure disableFaceBlurring : true en la configuración del analizador.
Ejemplos:
-
Campo de ejemplo: facialHairDescription: Describe el tipo de cabello facial (por ejemplo,
beard,mustache,clean-shaven) -
Campo de ejemplo: nameOfProminentPerson: Proporciona un nombre si es posible de una celebridad en el vídeo (por ejemplo,
Satya Nadella) - Campo de ejemplo: faceSmilingFrowning: proporciona una descripción de si una persona está sonriendo o frunciendo el ceño
Modo de segmentación
Nota:
La configuración de segmentación usará el modelo generativo, consumiendo tokens incluso si no se define ningún campo.
Content Understanding ofrece dos maneras de segmentar un vídeo, lo que le permite obtener la salida que necesita para vídeos completos o clips cortos. Puede usar estas opciones estableciendo la enableSegment propiedad en un analizador personalizado.
Vídeo completo :
enableSegment : falseel servicio trata todo el archivo de vídeo como un único segmento y extrae metadatos durante toda su duración.Casos de uso:
- Comprobaciones de cumplimiento que buscan problemas específicos de seguridad de marca en cualquier lugar de un anuncio
- resúmenes descriptivos de longitud completa
Segmentación personalizada :
enableSegment : truedescribe la lógica en lenguaje natural y el modelo crea segmentos para que coincidan. EstablezcacontentCategoriescon una cadena que describa cómo desea segmentar el vídeo. Custom permite segmentos de longitud variable, desde segundos hasta minutos, dependiendo de la indicación. En esta versión, el vídeo solo admite uncontentCategoriesobjeto .Ejemplo: Divida una noticia en historias.
{ "config": { "enableSegment": true, "contentCategories": { "news-story": { "description": "Segment the video based on each distinct news segment. Use the timestamp of each image to identify the start and end time of each segment, no overlap segments. Ignore non-news segments like ads or promotion.", "analyzerId": "NewsAnalyzer" } } } }
Ventajas principales
La comprensión de contenidos proporciona varias ventajas clave en comparación con otras soluciones de análisis de vídeo:
- Análisis de varios fotogramas basados en segmentos: identificar acciones, eventos, temas y temas mediante el análisis de varios fotogramas de cada segmento de vídeo, en lugar de fotogramas individuales.
- Personalización: Personalice los campos y la segmentación que genere modificando el esquema de acuerdo con su caso de uso específico.
- Modelos generativos: Describir en lenguaje natural qué contenido desea extraer y Content Understanding usa modelos generativos para extraer esos metadatos.
- Preprocesamiento optimizado: Realice varios pasos de preprocesamiento de extracción de contenido, como la transcripción y la detección de escenas, optimizados para proporcionar un contexto enriquecido a los modelos generativos de IA.
Limitaciones y restricciones técnicas
Limitaciones específicas del procesamiento de vídeo que se debe tener en cuenta:
- Muestreo de fotogramas (~ 1 FPS): el analizador inspecciona aproximadamente un fotograma por segundo. Es posible que se pierdan movimientos rápidos o eventos de un solo fotograma.
- Resolución de fotogramas (512 × 512 px):los marcos muestreados se cambian de tamaño a 512 píxeles cuadrados. Se puede perder texto pequeño o objetos distantes.
- Voz: solo se transcriben las palabras habladas. Se omiten la música, los efectos de sonido y el ruido ambiente.
Requisitos de entrada
Para conocer los formatos admitidos, consulte Cuotas y límites de servicio.
Idiomas y regiones admitidos
Consulte Compatibilidad con idiomas y regiones.
Seguridad y privacidad de datos
Al igual que con todas las herramientas de Foundry, revise la documentación de datos, protección y privacidad de Microsoft.
Importante
Si procesa datos biométricos (por ejemplo, habilitar Face Description), debe cumplir todos los requisitos de aviso, consentimiento y eliminación en virtud de las leyes aplicables. Consulte Datos y privacidad de Face.
Contenido relacionado
Pruebe a analizar vídeos en Content Understanding Studio.
Consulte el inicio rápido de Content Understanding Studio.
Obtenga más información sobre el análisis del contenido de vídeo mediante plantillas de analizador.
Ejemplos: