Azure 批处理语音转文本

以 100 多种语言和变体准确地将音频转录为文本。 作为 Azure AI 语音服务的一部分,Batch 听录使你能够转录存储中的大量音频。 你可以指向具有共享访问签名 (SAS) URI 的音频文件并异步接收听录结果。

此连接器在以下产品和区域中可用:

服务 Class 区域
Copilot Studio 标准 除以下各项外的所有 Power Automate 区域
     - 由世纪互联运营的中国云
逻辑应用程序 标准 除以下各项外的所有 逻辑应用区域
     - Azure 中国区域
Power Apps 标准 除以下各项外的所有 Power Apps 区域
     - 由世纪互联运营的中国云
Power Automate 标准 除以下各项外的所有 Power Automate 区域
     - 由世纪互联运营的中国云
联系人​​
Name 语音服务 Power Platform 团队
URL https://docs.microsoft.com/azure/cognitive-services/speech-service/support
Email speechpowerplatform@microsoft.com
连接器元数据
发布者 Microsoft
Website https://docs.microsoft.com/azure/cognitive-services/speech-service/
隐私策略 https://privacy.microsoft.com
类别 人工智能;网站

语音服务批量听录 API 是一种基于云的服务,通过提供的音频内容提供批量语音识别异步处理。 此连接器将这些函数公开为 Microsoft Power Automate 和 Power Apps 中的作。

先决条件

需要满足以下条件才能继续作:

正在创建连接

连接器支持以下身份验证类型:

Api 密钥 ApiKey(应用程序密钥) 所有区域 可共享
Microsoft Entra ID 集成 使用 Microsoft Entra ID 访问语音服务。 除 Azure 政府和国防部(DoD)以外的所有区域(Azure 政府和美国政府)(GCC-High) 不可共享
Microsoft Entra ID 集成(Azure 政府版) 使用 Microsoft Entra ID 访问语音服务。 Azure 政府和国防部(DoD)仅在 Azure 政府和美国政府(GCC-High) 不可共享
默认值 [已弃用] 此选项仅适用于没有显式身份验证类型的较旧连接,并且仅用于向后兼容性。 所有区域 不可共享

Api 密钥

身份验证 ID:keyBasedAuth

适用:所有区域

ApiKey(应用程序密钥)

这是可共享的连接。 如果 Power App 与其他用户共享,则连接也会共享。 有关详细信息,请参阅 画布应用的连接器概述 - Power Apps |Microsoft Docs

Name 类型 Description 必选
帐户密钥 securestring 语音服务密钥 True
区域 字符串 语音服务区域(示例:eastus) True

已集成 Microsoft Entra ID

身份验证 ID:tokenBasedAuth

适用:除 Azure 政府和国防部(DoD)以外的所有区域(Azure 政府和美国政府)(GCC-High)

使用 Microsoft Entra ID 访问语音服务。

这是不可共享的连接。 如果 Power App 与另一个用户共享,系统会提示其他用户显式创建新连接。

Name 类型 Description 必选
自定义子域 字符串 自定义子域终结点 URL (示例:contoso) True

Microsoft Entra ID 集成(Azure 政府版)

身份验证 ID:tokenBasedAuth

适用:Azure 政府和国防部(DoD)仅在 Azure 政府和美国政府(GCC-High)

使用 Microsoft Entra ID 访问语音服务。

这是不可共享的连接。 如果 Power App 与另一个用户共享,系统会提示其他用户显式创建新连接。

Name 类型 Description 必选
自定义子域 字符串 自定义子域终结点 URL (示例:contoso) True

默认值 [已弃用]

适用:所有区域

此选项仅适用于没有显式身份验证类型的较旧连接,并且仅用于向后兼容性。

这是不可共享的连接。 如果 Power App 与另一个用户共享,系统会提示其他用户显式创建新连接。

Name 类型 Description 必选
帐户密钥 securestring 用于 Batch 语音转文本帐户密钥的 Azure 认知服务 True
区域 字符串 语音服务区域(示例:eastus) True

限制

名称 调用 续订期
每个连接的 API 调用数 100 60 秒

操作

创建听录 (V3.1)

创建新的听录。

删除听录 (V3.1)

删除指定的听录任务。

更新听录 (V3.1)

更新其 ID 标识的听录的可变详细信息。

获取听录 (V3.1)

获取由给定 ID 标识的听录。

获取听录列表 (V3.1)

获取经过身份验证的订阅的听录列表。

获取听录列表文件(V3.1)

获取由给定 ID 标识的听录文件。

获取听录文件 (V3.1)

从听录中获取一个特定文件(使用 fileId 标识)。

获取支持的区域设置(V3.1)

获取脱机听录支持的区域设置的列表。

创建听录 (V3.1)

创建新的听录。

参数

名称 密钥 必需 类型 说明
contentUrls
contentUrls array of uri

你可以提供内容 URL 列表来获取要转录的音频文件。 最多允许 1000 个 URL。此属性不会在响应中返回。

contentContainerUrl
contentContainerUrl uri

或者,可以为包含音频文件的 Azure Blob 容器提供 URL。 允许容器的最大大小为 5GB,最大大小为 10000 个 blob。Blob 的最大大小为 2.5GB。容器 SAS 应包含“r”(读取)和“l”(列表)权限。此属性不会在响应中返回。

区域设置
locale True string

包含数据的区域设置。 如果使用语言标识,则此区域设置用于转录无法检测到任何语言的语音。

displayName
displayName True string

对象的显示名称。

模型
self uri

引用实体的位置。

diarizationEnabled
diarizationEnabled boolean

一个值,该值指示是否请求分割(说话人识别)。 默认值 false。如果只有此字段设置为 true,并且通过指定DiarizationProperties未启用改进的分割系统,则基本分割系统将区分最多两个扬声器。 在这种情况下,将应用 Noextra 费用。 改进的分割系统为可配置的扬声器范围提供分割。 可以在字段中配置 DiarizationProperties 它。 已弃用:基本分割系统已弃用,并将随diarizationEnabled 下一个主要版本的 API 中的设置一起删除。

wordLevelTimestampsEnabled
wordLevelTimestampsEnabled boolean

一个值,该值指示是否请求字级时间戳。 默认值为<

displayFormWordLevelTimestampsEnabled
displayFormWordLevelTimestampsEnabled boolean

一个值,该值指示是否请求显示窗体的字级时间戳。 默认值为 false

channels
channels array of integer

请求的通道编号的集合。在默认情况下,将考虑通道 0 和 1。

destinationContainerUrl
destinationContainerUrl uri

请求的目标容器.###备注 ###When 目标容器与一 timeToLive个目标容器结合使用,通常删除 atranscription 的元数据,但目标容器中存储的数据(包括转译结果)将保持不变,因为此容器不需要删除权限。
若要支持自动清理,请在容器上配置 Blob 生存期,或使用“自带存储(BYOS)”,而不是 destinationContainerUrl清理 Blob。

punctuationMode
punctuationMode string

用于标点的模式。

profanityFilterMode
profanityFilterMode string

不雅内容筛选模式。

timeToLive
timeToLive string

听录将在系统完成后保留多长时间。 一旦转录到达完成后生存时间(成功或失败),它将自动删除。 不设置此值或将其设置为 0 将禁用自动删除。 支持时间最长的为 31 天。持续时间编码为 ISO 8601 持续时间(“PnYnMnDTnHnMnS”,请参阅 https://en.wikipedia.org/wiki/ISO_8601#Durations)。

minCount
minCount integer

用于分割的最小扬声器数的提示。 必须小于或等于 maxSpeakers 属性。

maxCount
maxCount integer

用于分割的最大说话人数。 必须小于 36 且大于或等于 minSpeakers 属性。

candidateLocales
candidateLocales True array of string

语言标识的候选区域设置(例如 [“en-US”, “de-DE”, “es-ES”]) 。 至少支持 2 个和最多 10 个候选区域设置,包括听录的主要区域设置。

speechModelMapping
speechModelMapping object

区域设置到语音模型实体的可选映射。 如果未为区域设置提供模型,则使用默认基础模型。键必须是候选区域设置中包含的区域设置,值是相应区域设置模型的实体。

电子邮件
email string

要发送电子邮件通知的电子邮件地址,以防作完成。成功发送电子邮件后,将删除该值。

返回

删除听录 (V3.1)

删除指定的听录任务。

参数

名称 密钥 必需 类型 说明
Id
id True uuid

听录的标识符。

更新听录 (V3.1)

更新其 ID 标识的听录的可变详细信息。

参数

名称 密钥 必需 类型 说明
Id
id True uuid

听录的标识符。

自我
self True uri

引用实体的位置。

displayName
displayName string

对象的名称。

描述
description string

对象的说明。

customProperties
customProperties object

此实体的自定义属性。 允许的最大密钥长度为 64 个字符,最大值长度为 256 个字符,允许的条目计数为 10。

返回

获取听录 (V3.1)

获取由给定 ID 标识的听录。

参数

名称 密钥 必需 类型 说明
Id
id True uuid

听录的标识符。

返回

获取听录列表 (V3.1)

获取经过身份验证的订阅的听录列表。

参数

名称 密钥 必需 类型 说明
跳过
skip integer

将跳过的数据集数。

Top
top integer

跳过后将包含的数据集数。

过滤器
filter string

用于选择可用听录子集的筛选表达式。

  • 支持的属性: displayName、description、createdDateTime、lastActionDateTime、status、locale。
  • 运算符:
    - 所有属性都支持 eq、ne。
    - createdDateTime 和 lastActionDateTime 支持 ge、lt、le。
    - 和,或不支持。
  • 例:filter=createdDateTime gt 2022-02-01T11:00:00Z

返回

获取听录列表文件(V3.1)

获取由给定 ID 标识的听录文件。

参数

名称 密钥 必需 类型 说明
Id
id True uuid

听录的标识符。

Sas 有效性(以秒为单位)
sasValidityInSeconds integer

SAS URL 应有效的持续时间(以秒为单位)。 默认持续时间为 12 小时。 使用 BYOS 时(https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging):值为 0 表示将生成不带 SAS 令牌的纯 Blob URI。

跳过
skip integer

将跳过的数据集数。

Top
top integer

跳过后将包含的数据集数。

过滤器
filter string

用于选择可用文件的子集的筛选表达式。

  • 支持的属性: name、createdDateTime 和 kind。
  • 运算符:
    - 所有属性都支持 eq、ne。
    - createdDateTime 支持 ge、lt、le。
    - 和,或不支持。
  • 例:filter=name eq 'myaudio.wav.json' and kind eq 'Transcription'

返回

获取听录文件 (V3.1)

从听录中获取一个特定文件(使用 fileId 标识)。

参数

名称 密钥 必需 类型 说明
Id
id True uuid

听录的标识符。

文件 ID
fileId True uuid

文件的标识符。

Sas 有效性(以秒为单位)
sasValidityInSeconds integer

SAS URL 应有效的持续时间(以秒为单位)。 默认持续时间为 12 小时。 使用 BYOS 时(https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging):值为 0 表示将生成不带 SAS 令牌的纯 Blob URI。

返回

Body
File

获取支持的区域设置(V3.1)

获取脱机听录支持的区域设置的列表。

返回

名称 路径 类型 说明
array of string

定义

DiarizationProperties

名称 路径 类型 说明
扬声器
speakers DiarizationSpeakersProperties

DiarizationSpeakersProperties

名称 路径 类型 说明
minCount
minCount integer

用于分割的最小扬声器数的提示。 必须小于或等于 maxSpeakers 属性。

maxCount
maxCount integer

用于分割的最大说话人数。 必须小于 36 且大于或等于 minSpeakers 属性。

文件

名称 路径 类型 说明
kind
kind FileKind

数据类型。

链接
links FileLinks
createdDateTime
createdDateTime date-time

此文件的创建时间。时间戳编码为 ISO 8601 日期和时间格式(请参阅 https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations)。

属性
properties FileProperties
姓名
name string

此文件的名称。

FileKind

数据类型。

数据类型。

名称 路径 类型 说明
contentUrl
contentUrl uri

要检索此文件的内容的 URL。

FileProperties

名称 路径 类型 说明
size
size integer

数据的大小(以字节为单位)。

duration
duration string

如果此文件是音频文件,则持续时间。 持续时间编码为 ISO 8601duration(“PnYnMnDTnHnMnS”,请参阅 https://en.wikipedia.org/wiki/ISO_8601#Durations)。

LanguageIdentificationProperties

名称 路径 类型 说明
candidateLocales
candidateLocales array of string

语言标识的候选区域设置(例如 [“en-US”, “de-DE”, “es-ES”]) 。 至少支持 2 个和最多 10 个候选区域设置,包括听录的主要区域设置。

speechModelMapping
speechModelMapping object

区域设置到语音模型实体的可选映射。 如果未为区域设置提供模型,则使用默认基础模型。键必须是候选区域设置中包含的区域设置,值是相应区域设置模型的实体。

PaginatedFiles

名称 路径 类型 说明
values
values array of File

受传递的查询参数“skip”和“top”或其默认值限制的实体列表。 使用分页和并行删除实体循环访问列表时,将在结果中跳过某些实体。建议在客户端上生成列表,并在提取完整列表后将其删除。

@nextLink
@nextLink uri

如果有更多实体可用,则指向下一组分页结果的链接;否则为 null。

PaginatedTranscriptions

名称 路径 类型 说明
values
values array of Transcription

受传递的查询参数“skip”和“top”或其默认值限制的实体列表。 使用分页和并行删除实体循环访问列表时,将在结果中跳过某些实体。建议在客户端上生成列表,并在提取完整列表后将其删除。

@nextLink
@nextLink uri

如果有更多实体可用,则指向下一组分页结果的链接;否则为 null。

ProfanityFilterMode

不雅内容筛选模式。

不雅内容筛选模式。

标点符号Mode

用于标点的模式。

用于标点的模式。

转录

名称 路径 类型 说明
contentUrls
contentUrls array of uri

你可以提供内容 URL 列表来获取要转录的音频文件。 最多允许 1000 个 URL。此属性不会在响应中返回。

contentContainerUrl
contentContainerUrl uri

或者,可以为包含音频文件的 Azure Blob 容器提供 URL。 允许容器的最大大小为 5GB,最大大小为 10000 个 blob。Blob 的最大大小为 2.5GB。容器 SAS 应包含“r”(读取)和“l”(列表)权限。此属性不会在响应中返回。

区域设置
locale string

包含数据的区域设置。 如果使用语言标识,则此区域设置用于转录无法检测到任何语言的语音。

displayName
displayName string

对象的显示名称。

模型
model.self uri

引用实体的位置。

属性
properties TranscriptionProperties

TranscriptionProperties

名称 路径 类型 说明
diarizationEnabled
diarizationEnabled boolean

一个值,该值指示是否请求分割(说话人识别)。 默认值 false。如果只有此字段设置为 true,并且通过指定DiarizationProperties未启用改进的分割系统,则基本分割系统将区分最多两个扬声器。 在这种情况下,将应用 Noextra 费用。 改进的分割系统为可配置的扬声器范围提供分割。 可以在字段中配置 DiarizationProperties 它。 已弃用:基本分割系统已弃用,并将随diarizationEnabled 下一个主要版本的 API 中的设置一起删除。

wordLevelTimestampsEnabled
wordLevelTimestampsEnabled boolean

一个值,该值指示是否请求字级时间戳。 默认值为<

displayFormWordLevelTimestampsEnabled
displayFormWordLevelTimestampsEnabled boolean

一个值,该值指示是否请求显示窗体的字级时间戳。 默认值为 false

channels
channels array of integer

请求的通道编号的集合。在默认情况下,将考虑通道 0 和 1。

destinationContainerUrl
destinationContainerUrl uri

请求的目标容器.###备注 ###When 目标容器与一 timeToLive个目标容器结合使用,通常删除 atranscription 的元数据,但目标容器中存储的数据(包括转译结果)将保持不变,因为此容器不需要删除权限。
若要支持自动清理,请在容器上配置 Blob 生存期,或使用“自带存储(BYOS)”,而不是 destinationContainerUrl清理 Blob。

punctuationMode
punctuationMode PunctuationMode

用于标点的模式。

profanityFilterMode
profanityFilterMode ProfanityFilterMode

不雅内容筛选模式。

timeToLive
timeToLive string

听录将在系统完成后保留多长时间。 一旦转录到达完成后生存时间(成功或失败),它将自动删除。 不设置此值或将其设置为 0 将禁用自动删除。 支持时间最长的为 31 天。持续时间编码为 ISO 8601 持续时间(“PnYnMnDTnHnMnS”,请参阅 https://en.wikipedia.org/wiki/ISO_8601#Durations)。

diarization
diarization DiarizationProperties
语言识别 -
languageIdentification LanguageIdentificationProperties
电子邮件
email string

要发送电子邮件通知的电子邮件地址,以防作完成。成功发送电子邮件后,将删除该值。