Azure 批处理语音转文本
以 100 多种语言和变体准确地将音频转录为文本。 作为 Azure AI 语音服务的一部分,Batch 听录使你能够转录存储中的大量音频。 你可以指向具有共享访问签名 (SAS) URI 的音频文件并异步接收听录结果。
此连接器在以下产品和区域中可用:
| 服务 | Class | 区域 |
|---|---|---|
| Copilot Studio | 标准 | 除以下各项外的所有 Power Automate 区域 : - 由世纪互联运营的中国云 |
| 逻辑应用程序 | 标准 | 除以下各项外的所有 逻辑应用区域 : - Azure 中国区域 |
| Power Apps | 标准 | 除以下各项外的所有 Power Apps 区域 : - 由世纪互联运营的中国云 |
| Power Automate | 标准 | 除以下各项外的所有 Power Automate 区域 : - 由世纪互联运营的中国云 |
| 联系人 | |
|---|---|
| Name | 语音服务 Power Platform 团队 |
| URL | https://docs.microsoft.com/azure/cognitive-services/speech-service/support |
| speechpowerplatform@microsoft.com |
| 连接器元数据 | |
|---|---|
| 发布者 | Microsoft |
| Website | https://docs.microsoft.com/azure/cognitive-services/speech-service/ |
| 隐私策略 | https://privacy.microsoft.com |
| 类别 | 人工智能;网站 |
语音服务批量听录 API 是一种基于云的服务,通过提供的音频内容提供批量语音识别异步处理。 此连接器将这些函数公开为 Microsoft Power Automate 和 Power Apps 中的作。
先决条件
需要满足以下条件才能继续作:
- Azure 订阅 - 免费创建订阅
- 在 Azure 门户中创建语音资源。
- 获取语音资源密钥和区域。 部署语音资源后,选择“转到资源”以查看和管理密钥。 有关认知服务资源的详细信息,请参阅 获取资源的密钥。
- 上传自己的数据或使用通过公共 URI 或 共享访问签名 (SAS) URI 使用现有音频文件。 在此处了解详细信息
正在创建连接
连接器支持以下身份验证类型:
| Api 密钥 | ApiKey(应用程序密钥) | 所有区域 | 可共享 |
| Microsoft Entra ID 集成 | 使用 Microsoft Entra ID 访问语音服务。 | 除 Azure 政府和国防部(DoD)以外的所有区域(Azure 政府和美国政府)(GCC-High) | 不可共享 |
| Microsoft Entra ID 集成(Azure 政府版) | 使用 Microsoft Entra ID 访问语音服务。 | Azure 政府和国防部(DoD)仅在 Azure 政府和美国政府(GCC-High) | 不可共享 |
| 默认值 [已弃用] | 此选项仅适用于没有显式身份验证类型的较旧连接,并且仅用于向后兼容性。 | 所有区域 | 不可共享 |
Api 密钥
身份验证 ID:keyBasedAuth
适用:所有区域
ApiKey(应用程序密钥)
这是可共享的连接。 如果 Power App 与其他用户共享,则连接也会共享。 有关详细信息,请参阅 画布应用的连接器概述 - Power Apps |Microsoft Docs
| Name | 类型 | Description | 必选 |
|---|---|---|---|
| 帐户密钥 | securestring | 语音服务密钥 | True |
| 区域 | 字符串 | 语音服务区域(示例:eastus) | True |
已集成 Microsoft Entra ID
身份验证 ID:tokenBasedAuth
适用:除 Azure 政府和国防部(DoD)以外的所有区域(Azure 政府和美国政府)(GCC-High)
使用 Microsoft Entra ID 访问语音服务。
这是不可共享的连接。 如果 Power App 与另一个用户共享,系统会提示其他用户显式创建新连接。
| Name | 类型 | Description | 必选 |
|---|---|---|---|
| 自定义子域 | 字符串 | 自定义子域终结点 URL (示例:contoso) | True |
Microsoft Entra ID 集成(Azure 政府版)
身份验证 ID:tokenBasedAuth
适用:Azure 政府和国防部(DoD)仅在 Azure 政府和美国政府(GCC-High)
使用 Microsoft Entra ID 访问语音服务。
这是不可共享的连接。 如果 Power App 与另一个用户共享,系统会提示其他用户显式创建新连接。
| Name | 类型 | Description | 必选 |
|---|---|---|---|
| 自定义子域 | 字符串 | 自定义子域终结点 URL (示例:contoso) | True |
默认值 [已弃用]
适用:所有区域
此选项仅适用于没有显式身份验证类型的较旧连接,并且仅用于向后兼容性。
这是不可共享的连接。 如果 Power App 与另一个用户共享,系统会提示其他用户显式创建新连接。
| Name | 类型 | Description | 必选 |
|---|---|---|---|
| 帐户密钥 | securestring | 用于 Batch 语音转文本帐户密钥的 Azure 认知服务 | True |
| 区域 | 字符串 | 语音服务区域(示例:eastus) | True |
限制
| 名称 | 调用 | 续订期 |
|---|---|---|
| 每个连接的 API 调用数 | 100 | 60 秒 |
操作
| 创建听录 (V3.1) |
创建新的听录。 |
| 删除听录 (V3.1) |
删除指定的听录任务。 |
| 更新听录 (V3.1) |
更新其 ID 标识的听录的可变详细信息。 |
| 获取听录 (V3.1) |
获取由给定 ID 标识的听录。 |
| 获取听录列表 (V3.1) |
获取经过身份验证的订阅的听录列表。 |
| 获取听录列表文件(V3.1) |
获取由给定 ID 标识的听录文件。 |
| 获取听录文件 (V3.1) |
从听录中获取一个特定文件(使用 fileId 标识)。 |
| 获取支持的区域设置(V3.1) |
获取脱机听录支持的区域设置的列表。 |
创建听录 (V3.1)
创建新的听录。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
contentUrls
|
contentUrls | array of uri |
你可以提供内容 URL 列表来获取要转录的音频文件。 最多允许 1000 个 URL。此属性不会在响应中返回。 |
|
|
contentContainerUrl
|
contentContainerUrl | uri |
或者,可以为包含音频文件的 Azure Blob 容器提供 URL。 允许容器的最大大小为 5GB,最大大小为 10000 个 blob。Blob 的最大大小为 2.5GB。容器 SAS 应包含“r”(读取)和“l”(列表)权限。此属性不会在响应中返回。 |
|
|
区域设置
|
locale | True | string |
包含数据的区域设置。 如果使用语言标识,则此区域设置用于转录无法检测到任何语言的语音。 |
|
displayName
|
displayName | True | string |
对象的显示名称。 |
|
模型
|
self | uri |
引用实体的位置。 |
|
|
diarizationEnabled
|
diarizationEnabled | boolean |
一个值,该值指示是否请求分割(说话人识别)。 默认值 |
|
|
wordLevelTimestampsEnabled
|
wordLevelTimestampsEnabled | boolean |
一个值,该值指示是否请求字级时间戳。 默认值为 |
|
|
displayFormWordLevelTimestampsEnabled
|
displayFormWordLevelTimestampsEnabled | boolean |
一个值,该值指示是否请求显示窗体的字级时间戳。 默认值为 |
|
|
channels
|
channels | array of integer |
请求的通道编号的集合。在默认情况下,将考虑通道 0 和 1。 |
|
|
destinationContainerUrl
|
destinationContainerUrl | uri |
请求的目标容器.###备注 ###When 目标容器与一 |
|
|
punctuationMode
|
punctuationMode | string |
用于标点的模式。 |
|
|
profanityFilterMode
|
profanityFilterMode | string |
不雅内容筛选模式。 |
|
|
timeToLive
|
timeToLive | string |
听录将在系统完成后保留多长时间。 一旦转录到达完成后生存时间(成功或失败),它将自动删除。 不设置此值或将其设置为 0 将禁用自动删除。 支持时间最长的为 31 天。持续时间编码为 ISO 8601 持续时间(“PnYnMnDTnHnMnS”,请参阅 https://en.wikipedia.org/wiki/ISO_8601#Durations)。 |
|
|
minCount
|
minCount | integer |
用于分割的最小扬声器数的提示。 必须小于或等于 maxSpeakers 属性。 |
|
|
maxCount
|
maxCount | integer |
用于分割的最大说话人数。 必须小于 36 且大于或等于 minSpeakers 属性。 |
|
|
candidateLocales
|
candidateLocales | True | array of string |
语言标识的候选区域设置(例如 [“en-US”, “de-DE”, “es-ES”]) 。 至少支持 2 个和最多 10 个候选区域设置,包括听录的主要区域设置。 |
|
speechModelMapping
|
speechModelMapping | object |
区域设置到语音模型实体的可选映射。 如果未为区域设置提供模型,则使用默认基础模型。键必须是候选区域设置中包含的区域设置,值是相应区域设置模型的实体。 |
|
|
电子邮件
|
string |
要发送电子邮件通知的电子邮件地址,以防作完成。成功发送电子邮件后,将删除该值。 |
返回
- Body
- Transcription
删除听录 (V3.1)
删除指定的听录任务。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
Id
|
id | True | uuid |
听录的标识符。 |
更新听录 (V3.1)
更新其 ID 标识的听录的可变详细信息。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
Id
|
id | True | uuid |
听录的标识符。 |
|
自我
|
self | True | uri |
引用实体的位置。 |
|
displayName
|
displayName | string |
对象的名称。 |
|
|
描述
|
description | string |
对象的说明。 |
|
|
customProperties
|
customProperties | object |
此实体的自定义属性。 允许的最大密钥长度为 64 个字符,最大值长度为 256 个字符,允许的条目计数为 10。 |
返回
- Body
- Transcription
获取听录 (V3.1)
获取听录列表 (V3.1)
获取经过身份验证的订阅的听录列表。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
跳过
|
skip | integer |
将跳过的数据集数。 |
|
|
Top
|
top | integer |
跳过后将包含的数据集数。 |
|
|
过滤器
|
filter | string |
用于选择可用听录子集的筛选表达式。
|
返回
获取听录列表文件(V3.1)
获取由给定 ID 标识的听录文件。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
Id
|
id | True | uuid |
听录的标识符。 |
|
Sas 有效性(以秒为单位)
|
sasValidityInSeconds | integer |
SAS URL 应有效的持续时间(以秒为单位)。 默认持续时间为 12 小时。 使用 BYOS 时(https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging):值为 0 表示将生成不带 SAS 令牌的纯 Blob URI。 |
|
|
跳过
|
skip | integer |
将跳过的数据集数。 |
|
|
Top
|
top | integer |
跳过后将包含的数据集数。 |
|
|
过滤器
|
filter | string |
用于选择可用文件的子集的筛选表达式。
|
返回
- Body
- PaginatedFiles
获取听录文件 (V3.1)
从听录中获取一个特定文件(使用 fileId 标识)。
参数
| 名称 | 密钥 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
Id
|
id | True | uuid |
听录的标识符。 |
|
文件 ID
|
fileId | True | uuid |
文件的标识符。 |
|
Sas 有效性(以秒为单位)
|
sasValidityInSeconds | integer |
SAS URL 应有效的持续时间(以秒为单位)。 默认持续时间为 12 小时。 使用 BYOS 时(https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging):值为 0 表示将生成不带 SAS 令牌的纯 Blob URI。 |
返回
- Body
- File
获取支持的区域设置(V3.1)
获取脱机听录支持的区域设置的列表。
返回
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
|
array of string |
定义
DiarizationProperties
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
扬声器
|
speakers | DiarizationSpeakersProperties |
DiarizationSpeakersProperties
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
minCount
|
minCount | integer |
用于分割的最小扬声器数的提示。 必须小于或等于 maxSpeakers 属性。 |
|
maxCount
|
maxCount | integer |
用于分割的最大说话人数。 必须小于 36 且大于或等于 minSpeakers 属性。 |
文件
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
kind
|
kind | FileKind |
数据类型。 |
|
链接
|
links | FileLinks | |
|
createdDateTime
|
createdDateTime | date-time |
此文件的创建时间。时间戳编码为 ISO 8601 日期和时间格式(请参阅 https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations)。 |
|
属性
|
properties | FileProperties | |
|
姓名
|
name | string |
此文件的名称。 |
FileKind
FileLinks
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
contentUrl
|
contentUrl | uri |
要检索此文件的内容的 URL。 |
FileProperties
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
size
|
size | integer |
数据的大小(以字节为单位)。 |
|
duration
|
duration | string |
如果此文件是音频文件,则持续时间。 持续时间编码为 ISO 8601duration(“PnYnMnDTnHnMnS”,请参阅 https://en.wikipedia.org/wiki/ISO_8601#Durations)。 |
LanguageIdentificationProperties
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
candidateLocales
|
candidateLocales | array of string |
语言标识的候选区域设置(例如 [“en-US”, “de-DE”, “es-ES”]) 。 至少支持 2 个和最多 10 个候选区域设置,包括听录的主要区域设置。 |
|
speechModelMapping
|
speechModelMapping | object |
区域设置到语音模型实体的可选映射。 如果未为区域设置提供模型,则使用默认基础模型。键必须是候选区域设置中包含的区域设置,值是相应区域设置模型的实体。 |
PaginatedFiles
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
values
|
values | array of File |
受传递的查询参数“skip”和“top”或其默认值限制的实体列表。 使用分页和并行删除实体循环访问列表时,将在结果中跳过某些实体。建议在客户端上生成列表,并在提取完整列表后将其删除。 |
|
@nextLink
|
@nextLink | uri |
如果有更多实体可用,则指向下一组分页结果的链接;否则为 null。 |
PaginatedTranscriptions
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
values
|
values | array of Transcription |
受传递的查询参数“skip”和“top”或其默认值限制的实体列表。 使用分页和并行删除实体循环访问列表时,将在结果中跳过某些实体。建议在客户端上生成列表,并在提取完整列表后将其删除。 |
|
@nextLink
|
@nextLink | uri |
如果有更多实体可用,则指向下一组分页结果的链接;否则为 null。 |
ProfanityFilterMode
标点符号Mode
转录
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
contentUrls
|
contentUrls | array of uri |
你可以提供内容 URL 列表来获取要转录的音频文件。 最多允许 1000 个 URL。此属性不会在响应中返回。 |
|
contentContainerUrl
|
contentContainerUrl | uri |
或者,可以为包含音频文件的 Azure Blob 容器提供 URL。 允许容器的最大大小为 5GB,最大大小为 10000 个 blob。Blob 的最大大小为 2.5GB。容器 SAS 应包含“r”(读取)和“l”(列表)权限。此属性不会在响应中返回。 |
|
区域设置
|
locale | string |
包含数据的区域设置。 如果使用语言标识,则此区域设置用于转录无法检测到任何语言的语音。 |
|
displayName
|
displayName | string |
对象的显示名称。 |
|
模型
|
model.self | uri |
引用实体的位置。 |
|
属性
|
properties | TranscriptionProperties |
TranscriptionProperties
| 名称 | 路径 | 类型 | 说明 |
|---|---|---|---|
|
diarizationEnabled
|
diarizationEnabled | boolean |
一个值,该值指示是否请求分割(说话人识别)。 默认值 |
|
wordLevelTimestampsEnabled
|
wordLevelTimestampsEnabled | boolean |
一个值,该值指示是否请求字级时间戳。 默认值为 |
|
displayFormWordLevelTimestampsEnabled
|
displayFormWordLevelTimestampsEnabled | boolean |
一个值,该值指示是否请求显示窗体的字级时间戳。 默认值为 |
|
channels
|
channels | array of integer |
请求的通道编号的集合。在默认情况下,将考虑通道 0 和 1。 |
|
destinationContainerUrl
|
destinationContainerUrl | uri |
请求的目标容器.###备注 ###When 目标容器与一 |
|
punctuationMode
|
punctuationMode | PunctuationMode |
用于标点的模式。 |
|
profanityFilterMode
|
profanityFilterMode | ProfanityFilterMode |
不雅内容筛选模式。 |
|
timeToLive
|
timeToLive | string |
听录将在系统完成后保留多长时间。 一旦转录到达完成后生存时间(成功或失败),它将自动删除。 不设置此值或将其设置为 0 将禁用自动删除。 支持时间最长的为 31 天。持续时间编码为 ISO 8601 持续时间(“PnYnMnDTnHnMnS”,请参阅 https://en.wikipedia.org/wiki/ISO_8601#Durations)。 |
|
diarization
|
diarization | DiarizationProperties | |
|
语言识别 -
|
languageIdentification | LanguageIdentificationProperties | |
|
电子邮件
|
string |
要发送电子邮件通知的电子邮件地址,以防作完成。成功发送电子邮件后,将删除该值。 |