你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Foundry Tools 视频解决方案中的 Azure 内容理解(预览版)

重要说明

Azure 内容理解目前处于预览状态。 通过公共预览版,可以提前访问当前处于正在开发状态的功能。 正式发布之前,功能、方法和流程可能会更改或具有有限的功能。 有关详细信息,请参阅 Azure 预览版Microsoft补充使用条款

Azure 内容理解允许使用生成模型生成一组标准视频元数据并为特定用例创建自定义字段。 内容理解可帮助你管理、分类、检索和生成视频资产的工作流。 它增强了媒体资产库,支持诸如生成突出片段、内容分类等功能,并促进检索增强生成(RAG)等应用的实施。

内容理解视频处理流的插图。

预生成的视频分析器 (prebuilt-videoAnalysis) 输出 RAG 就绪输出。 在 Markdown 中,输出以下内容:

  • 转录本: 标准 WEBVTT 格式的内嵌转录本
  • 关键帧: 有序的关键帧缩略图,可实现更深入的分析

JSON 架构包含可视化分析中的更多详细信息。

  • 描述: 具有视觉和语音上下文的自然语言段说明
  • 分割: 根据定义的类别,自动场景分段将视频分解成逻辑区块

此格式可以直接拖放到矢量存储中,以启用代理或 RAG 工作流 -- 不需要后期处理。

可以从那里自定义分析器,以便更精细地控制输出。 可以定义自定义字段和段。 通过自定义,可以使用生成模型的全部功能从视频的视觉和音频详细信息中提取深入见解。

例如,自定义允许你:

  • 定义自定义字段: 确定视频中看到或提及的产品和品牌。
  • 生成自定义段: 根据讨论的主题或新闻报道将新闻广播细分为章节。
  • 使用人脸描述识别知名人士:使客户能够根据生成式模型的世界知识,给视频片段中的名人标上姓名和职务,例如 Satya Nadella

为什么为视频使用内容理解技术?

视频的内容理解具有广泛的潜在用途。 例如,你可以自定义元数据来标记培训视频中的特定场景,从而让员工能更轻松地定位并回顾重要部分。 你还可以利用元数据自定义来识别宣传视频中的产品植入,这有助于营销团队分析品牌曝光度。 其他用例包括:

  • 广播媒体和娱乐: 通过为每个资产生成详细的元数据来管理大型放映、电影和剪辑库。
  • 教育和电子学习: 在教育视频或讲座中为特定时刻编制索引和检索。
  • 公司培训: 按关键主题、场景或重要时刻组织培训视频。
  • 营销和广告: 分析促销视频,提取产品位置、品牌外观和关键消息。

预生成视频分析器示例

使用预生成的视频分析器(预生成视频搜索),可以上传视频并立即获取可用知识资产。 该服务将内容打包为格式丰富的 Markdown 和 JSON。 此过程允许搜索索引或聊天代理引入内容,而无需自定义粘附代码。

  1. 例如,调用为视频检索增强生成而设计的分析器 prebuilt-videoSearch。 有关详细信息,请参阅 REST API 快速入门

  2. 接下来,分析 30 秒的广告视频将导致以下输出:

      # Video: 00:00.000 => 00:06.000
      A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Get new years ready.
    
      Key Frames
      - 00:00.600 ![](keyFrame.600.jpg)
      - 00:01.200 ![](keyFrame.1200.jpg)
    
      ## Video: 00:06.000 => 00:10.080
      The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Go team!
    
      Key Frames
      - 00:06.200 ![](keyFrame.6200.jpg)
      - 00:07.080 ![](keyFrame.7080.jpg)
    
         *…additional data omitted for brevity…*
    

Walkthrough

请参阅以下关于使用内容理解实现视频 RAG 的演练:

使用 Azure 内容理解实现视频 RAG

能力

注释

人脸识别和分组功能仅在预览版 API 版本中可用,并且不包括在 GA 版本中。

在底层,通过两个阶段将原始像素转换为业务就绪的见解。 下图展示了如何将提取结果用于生成,确保每个下游步骤具有其所需的上下文。

视频分析器流的屏幕截图。

该服务分两个阶段运行。 第一阶段的内容提取涉及捕获基础元数据,例如脚本和镜头。 第二阶段字段提取使用生成模型生成自定义字段和执行分段。

内容提取功能

第一阶段就是提取第一组细节 - 说话人和剪辑点。 它创建了一个坚实的元数据基础,后续步骤可以利用它进行推理。

  • 转录: 以 WebVTT 格式将对话音频转换为可搜索和分析的基于文本的脚本。 如果 "returnDetails": true 已设置,则句子级时间戳可用。 内容理解功能支持 Foundry Tools 中 Azure 语音的语音转文本语言的完整集。 视频语言支持的详细信息与音频相同, 有关详细信息,请参阅音频语言处理 。 有必要考虑以下听录细节:

    • Diarization: 区分输出中对话中的说话人,将脚本的某些部分归因于特定说话人。

    • 多语言听录:生成多语言脚本。 在口述文本中,语言/区域设置按短语进行应用。 设置 "returnDetails": true 时,系统会输出短语。 与语言检测不同,如果未指定语言/区域设置,或者语言设置为 auto,则会启用此功能。

      注释

      使用多语言听录时,任何具有不受支持的区域设置的文件都基于最接近支持的区域设置生成结果,但结果很可能是不正确的。 此结果是已知行为。 请确保在不使用多语言听录支持的区域设置时配置区域设置,避免听录质量问题!

    • 关键帧提取: 从视频中提取关键帧以完全表示每个镜头,确保每个镜头有足够的关键帧,使现场提取能够有效工作。

    • 镜头检测:尽可能识别与镜头边界对齐的视频片段,从而允许对内容进行精确编辑和重新打包,且剪辑点与现有位置完全一致。 输出是时间戳列表(以毫秒为单位 cameraShotTimesMs)。 仅当设置 "returnDetails": true 时,才会返回输出。

字段提取与分割

接下来,生成模型将意义分层,标记场景,汇总动作,并按您的请求将素材分段切片。 此操作是将提示信息转换为结构化数据。

自定义字段

调整输出以匹配业务词汇。 使用一个 fieldSchema 对象,其中每个条目定义字段的名称、类型和说明。 在运行时,生成模型会为每个段填充这些字段。

  • 媒体资产管理:

    • 视频类别: 通过将编辑和制作人分类为新闻、体育、采访、纪录片、广告等,帮助编辑和制作人组织内容。可用于元数据标记和更快速的内容筛选和检索。
    • 配色方案: 传达情绪和气氛,对叙事一致性和观众参与至关重要。 识别颜色主题有助于找到匹配的剪辑,以加快视频编辑速度。
  • 广告:

    • 品牌: 标识品牌状态,对分析广告影响、品牌可见性和与产品的关联至关重要。 此功能使广告商能够评估品牌的突出程度,并确保符合品牌推广指南。
    • 广告类别: 按行业、产品类型或受众细分对广告类型进行分类,支持有针对性的广告策略、分类和性能分析。

示例:

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

人脸描述字段

注释

此功能的访问权限有限;客户需要请求使用 Azure 支持请求为 Azure OpenAI 模型禁用人脸模糊。 详细了解 如何管理 Azure 支持请求

可以选择性地增强字段提取功能,以提供视频中人脸的详细描述。 此功能包括面部毛发、面部表情和名人的存在等属性,这对于各种分析和索引目的至关重要。 在分析器配置中设置 disableFaceBlurring : true 以启用人脸描述功能。

示例:

  • 示例字段:facialHairDescription:描述面部毛发的类型(例如,beardmustacheclean-shaven
  • 示例字段:nameOfProminentPerson:如果可能,请提供视频中名人的名字(例如,Satya Nadella
  • 示例字段:faceSmilingFrowning: 提供有关某人是微笑还是皱眉的说明

分段模式

注释

在设置分段时,将使用生成模型,即使未定义任何字段,也会消耗令牌。

"内容理解提供了两种切割视频的方法,使你可以获取完整视频或短片段所需的输出。" 可以通过在 enableSegment 自定义分析器上设置属性来使用这些选项。

  • 全视频enableSegment : false 该服务将整个视频文件视为单个段,并在整个持续时间内提取元数据。

    用例:

    • 合规性检查会针对广告中的任何位置,查找是否存在特定品牌安全问题
    • 完整描述性摘要
  • 自定义分段 - enableSegment : true 使用自然语言描述逻辑,模型创建要匹配的段。 设置 contentCategories 一个字符串,描述你希望如何对视频进行分段。 自定义模式允许根据提示生成时长从数秒到数分钟不等的片段。 在此版本中,视频仅支持一个 contentCategories 对象。

    例: 将新闻广播分成多个故事。

    {
      "config": {
        "enableSegment": true,
        "contentCategories": {
          "news-story": { 
          "description": "Segment the video based on each distinct news segment. Use the timestamp of each image to identify the start and end time of each segment, no overlap segments. Ignore non-news segments like ads or promotion.",
          "analyzerId": "NewsAnalyzer"
          }         
        }
      }
    }
    

主要优点

与其他视频分析解决方案相比,内容理解具有若干关键优势:

  • 基于段的多帧分析: 通过分析每个视频段的多个帧,而不是单个帧,来识别动作、事件、主题和议题。
  • 自定义:通过根据特定用例修改架构来自定义字段和分段。
  • 生成模型: 用自然语言描述要提取的内容,内容理解使用生成模型提取该元数据。
  • 优化的预处理: 执行多个内容提取预处理步骤,例如听录和场景检测,经过优化,为 AI 生成模型提供丰富的上下文。

技术约束和限制

要记住的视频处理的具体限制:

  • 帧采样(约 1 FPS):分析器每秒检查大约一帧。 可能会错过快速动作或单帧事件。
  • 帧分辨率(512 × 512 像素):采样帧的大小调整为 512 像素方形。 小型文本或遥远的对象可能会丢失。
  • 语音:只转录口语。 将忽略音乐、声音效果和环境噪音。

输入要求

有关支持的格式,请参阅 服务配额和限制

支持的语言和区域

请参阅 语言和区域支持

数据隐私和安全性

与所有 Foundry 工具一样,请查看Microsoft 的数据、保护和隐私 文档。

重要说明

如果处理 生物识别数据 (例如启用 人脸描述),则必须满足 GDPR 或其他适用法律下的所有通知、同意和删除要求。 请参阅 人脸数据和隐私