Azure 批处理语音转文本

以 100 多种语言和变体准确地将音频转录为文本。作为 Azure AI 语音服务的一部分，Batch 听录使你能够转录存储中的大量音频。你可以指向具有共享访问签名 (SAS) URI 的音频文件并异步接收听录结果。

此连接器在以下产品和区域中可用：

服务	Class	区域
Copilot Studio	标准	除以下各项外的所有 Power Automate 区域： - 由世纪互联运营的中国云
逻辑应用程序	标准	除以下各项外的所有逻辑应用区域： - Azure 中国区域
Power Apps	标准	除以下各项外的所有 Power Apps 区域： - 由世纪互联运营的中国云
Power Automate	标准	除以下各项外的所有 Power Automate 区域： - 由世纪互联运营的中国云

联系人
Name	语音服务 Power Platform 团队
URL	https://docs.microsoft.com/azure/cognitive-services/speech-service/support
Email	speechpowerplatform@microsoft.com

连接器元数据
发布者	Microsoft
Website	https://docs.microsoft.com/azure/cognitive-services/speech-service/
隐私策略	https://privacy.microsoft.com
类别	人工智能;网站

语音服务批量听录 API 是一种基于云的服务，通过提供的音频内容提供批量语音识别异步处理。此连接器将这些函数公开为 Microsoft Power Automate 和 Power Apps 中的作。

先决条件

需要满足以下条件才能继续作：

Azure 订阅 - 免费创建订阅
在 Azure 门户中创建语音资源。
获取语音资源密钥和区域。部署语音资源后，选择“转到资源”以查看和管理密钥。有关认知服务资源的详细信息，请参阅获取资源的密钥。
上传自己的数据或使用通过公共 URI 或共享访问签名（SAS） URI 使用现有音频文件。在此处了解详细信息

正在创建连接

连接器支持以下身份验证类型：


Api 密钥	ApiKey（应用程序密钥）	所有区域	可共享
Microsoft Entra ID 集成	使用 Microsoft Entra ID 访问语音服务。	除 Azure 政府和国防部（DoD）以外的所有区域（Azure 政府和美国政府）（GCC-High）	不可共享
Microsoft Entra ID 集成（Azure 政府版）	使用 Microsoft Entra ID 访问语音服务。	Azure 政府和国防部（DoD）仅在 Azure 政府和美国政府（GCC-High）	不可共享
默认值 [已弃用]	此选项仅适用于没有显式身份验证类型的较旧连接，并且仅用于向后兼容性。	所有区域	不可共享

Api 密钥

身份验证 ID：keyBasedAuth

适用：所有区域

ApiKey（应用程序密钥）

这是可共享的连接。如果 Power App 与其他用户共享，则连接也会共享。有关详细信息，请参阅画布应用的连接器概述 - Power Apps |Microsoft Docs

Name	类型	Description	必选
帐户密钥	securestring	语音服务密钥	True
区域	字符串	语音服务区域（示例：eastus）	True

已集成 Microsoft Entra ID

身份验证 ID：tokenBasedAuth

适用：除 Azure 政府和国防部（DoD）以外的所有区域（Azure 政府和美国政府）（GCC-High）

使用 Microsoft Entra ID 访问语音服务。

这是不可共享的连接。如果 Power App 与另一个用户共享，系统会提示其他用户显式创建新连接。

Name	类型	Description	必选
自定义子域	字符串	自定义子域终结点 URL （示例：contoso）	True

Microsoft Entra ID 集成（Azure 政府版）

身份验证 ID：tokenBasedAuth

适用：Azure 政府和国防部（DoD）仅在 Azure 政府和美国政府（GCC-High）

使用 Microsoft Entra ID 访问语音服务。

这是不可共享的连接。如果 Power App 与另一个用户共享，系统会提示其他用户显式创建新连接。

Name	类型	Description	必选
自定义子域	字符串	自定义子域终结点 URL （示例：contoso）	True

默认值 [已弃用]

适用：所有区域

此选项仅适用于没有显式身份验证类型的较旧连接，并且仅用于向后兼容性。

这是不可共享的连接。如果 Power App 与另一个用户共享，系统会提示其他用户显式创建新连接。

Name	类型	Description	必选
帐户密钥	securestring	用于 Batch 语音转文本帐户密钥的 Azure 认知服务	True
区域	字符串	语音服务区域（示例：eastus）	True

限制

名称	调用	续订期
每个连接的 API 调用数	100	60 秒

操作

创建听录（V3.1）	创建新的听录。
删除听录（V3.1）	删除指定的听录任务。
更新听录（V3.1）	更新其 ID 标识的听录的可变详细信息。
获取听录（V3.1）	获取由给定 ID 标识的听录。
获取听录列表（V3.1）	获取经过身份验证的订阅的听录列表。
获取听录列表文件（V3.1）	获取由给定 ID 标识的听录文件。
获取听录文件（V3.1）	从听录中获取一个特定文件（使用 fileId 标识）。
获取支持的区域设置（V3.1）	获取脱机听录支持的区域设置的列表。

创建听录（V3.1）

操作 ID:: CreateTranscriptions

创建新的听录。

参数

名称	密钥	必需	类型	说明
contentUrls	contentUrls		array of uri	你可以提供内容 URL 列表来获取要转录的音频文件。最多允许 1000 个 URL。此属性不会在响应中返回。
contentContainerUrl	contentContainerUrl		uri	或者，可以为包含音频文件的 Azure Blob 容器提供 URL。允许容器的最大大小为 5GB，最大大小为 10000 个 blob。Blob 的最大大小为 2.5GB。容器 SAS 应包含“r”（读取）和“l”（列表）权限。此属性不会在响应中返回。
区域设置	locale	True	string	包含数据的区域设置。如果使用语言标识，则此区域设置用于转录无法检测到任何语言的语音。
displayName	displayName	True	string	对象的显示名称。
模型	self		uri	引用实体的位置。
diarizationEnabled	diarizationEnabled		boolean	一个值，该值指示是否请求分割（说话人识别）。默认值 `false`。如果只有此字段设置为 true，并且通过指定`DiarizationProperties`未启用改进的分割系统，则基本分割系统将区分最多两个扬声器。在这种情况下，将应用 Noextra 费用。改进的分割系统为可配置的扬声器范围提供分割。可以在字段中配置 `DiarizationProperties` 它。已弃用：基本分割系统已弃用，并将随`diarizationEnabled` 下一个主要版本的 API 中的设置一起删除。
wordLevelTimestampsEnabled	wordLevelTimestampsEnabled		boolean	一个值，该值指示是否请求字级时间戳。默认值为<
displayFormWordLevelTimestampsEnabled	displayFormWordLevelTimestampsEnabled		boolean	一个值，该值指示是否请求显示窗体的字级时间戳。默认值为 `false`。
channels	channels		array of integer	请求的通道编号的集合。在默认情况下，将考虑通道 0 和 1。
destinationContainerUrl	destinationContainerUrl		uri	请求的目标容器.###备注 ###When 目标容器与一 `timeToLive`个目标容器结合使用，通常删除 atranscription 的元数据，但目标容器中存储的数据（包括转译结果）将保持不变，因为此容器不需要删除权限。若要支持自动清理，请在容器上配置 Blob 生存期，或使用“自带存储（BYOS）”，而不是 `destinationContainerUrl`清理 Blob。
punctuationMode	punctuationMode		string	用于标点的模式。
profanityFilterMode	profanityFilterMode		string	不雅内容筛选模式。
timeToLive	timeToLive		string	听录将在系统完成后保留多长时间。一旦转录到达完成后生存时间（成功或失败），它将自动删除。不设置此值或将其设置为 0 将禁用自动删除。支持时间最长的为 31 天。持续时间编码为 ISO 8601 持续时间（“PnYnMnDTnHnMnS”，请参阅 https://en.wikipedia.org/wiki/ISO_8601#Durations）。
minCount	minCount		integer	用于分割的最小扬声器数的提示。必须小于或等于 maxSpeakers 属性。
maxCount	maxCount		integer	用于分割的最大说话人数。必须小于 36 且大于或等于 minSpeakers 属性。
candidateLocales	candidateLocales	True	array of string	语言标识的候选区域设置（例如 [“en-US”， “de-DE”， “es-ES”]）。至少支持 2 个和最多 10 个候选区域设置，包括听录的主要区域设置。
speechModelMapping	speechModelMapping		object	区域设置到语音模型实体的可选映射。如果未为区域设置提供模型，则使用默认基础模型。键必须是候选区域设置中包含的区域设置，值是相应区域设置模型的实体。
电子邮件	email		string	要发送电子邮件通知的电子邮件地址，以防作完成。成功发送电子邮件后，将删除该值。

Body: Transcription

删除听录（V3.1）

操作 ID:: DeleteTranscriptions

删除指定的听录任务。

参数

名称	密钥	必需	类型	说明
Id	id	True	uuid	听录的标识符。

更新听录（V3.1）

操作 ID:: UpdateTranscriptions

更新其 ID 标识的听录的可变详细信息。

参数

名称	密钥	必需	类型	说明
Id	id	True	uuid	听录的标识符。
自我	self	True	uri	引用实体的位置。
displayName	displayName		string	对象的名称。
描述	description		string	对象的说明。
customProperties	customProperties		object	此实体的自定义属性。允许的最大密钥长度为 64 个字符，最大值长度为 256 个字符，允许的条目计数为 10。

Body: Transcription

获取听录（V3.1）

操作 ID:: GetTranscriptions

获取由给定 ID 标识的听录。

参数

名称	密钥	必需	类型	说明
Id	id	True	uuid	听录的标识符。

Body: Transcription

获取听录列表（V3.1）

操作 ID:: TranscriptionsList

获取经过身份验证的订阅的听录列表。

参数

名称密钥必需类型说明

名称	密钥	类型	说明
跳过	skip	integer	将跳过的数据集数。
Top	top	integer	跳过后将包含的数据集数。
过滤器	filter	string	用于选择可用听录子集的筛选表达式。支持的属性： displayName、description、createdDateTime、lastActionDateTime、status、locale。运算符： - 所有属性都支持 eq、ne。 - createdDateTime 和 lastActionDateTime 支持 ge、lt、le。 - 和，或不支持。例：`filter=createdDateTime gt 2022-02-01T11:00:00Z`

跳过

skip

integer

将跳过的数据集数。

Top

top

integer

跳过后将包含的数据集数。

过滤器

filter

string

用于选择可用听录子集的筛选表达式。

支持的属性： displayName、description、createdDateTime、lastActionDateTime、status、locale。
运算符：
- 所有属性都支持 eq、ne。
- createdDateTime 和 lastActionDateTime 支持 ge、lt、le。
- 和，或不支持。
例：filter=createdDateTime gt 2022-02-01T11:00:00Z

Body: PaginatedTranscriptions

获取听录列表文件（V3.1）

操作 ID:: TranscriptionsListFiles

获取由给定 ID 标识的听录文件。

参数

名称	密钥	必需	类型	说明
Id	id	True	uuid	听录的标识符。
Sas 有效性（以秒为单位）	sasValidityInSeconds		integer	SAS URL 应有效的持续时间（以秒为单位）。默认持续时间为 12 小时。使用 BYOS 时（https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging）：值为 0 表示将生成不带 SAS 令牌的纯 Blob URI。
跳过	skip		integer	将跳过的数据集数。
Top	top		integer	跳过后将包含的数据集数。
过滤器	filter		string	用于选择可用文件的子集的筛选表达式。支持的属性： name、createdDateTime 和 kind。运算符： - 所有属性都支持 eq、ne。 - createdDateTime 支持 ge、lt、le。 - 和，或不支持。例：`filter=name eq 'myaudio.wav.json' and kind eq 'Transcription'`

Body: PaginatedFiles

获取听录文件（V3.1）

操作 ID:: GetTranscriptionsFile

从听录中获取一个特定文件（使用 fileId 标识）。

参数

名称	密钥	必需	类型	说明
Id	id	True	uuid	听录的标识符。
文件 ID	fileId	True	uuid	文件的标识符。
Sas 有效性（以秒为单位）	sasValidityInSeconds		integer	SAS URL 应有效的持续时间（以秒为单位）。默认持续时间为 12 小时。使用 BYOS 时（https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging）：值为 0 表示将生成不带 SAS 令牌的纯 Blob URI。

Body: File

获取支持的区域设置（V3.1）

操作 ID:: SupportedTranscriptionLocalesList

获取脱机听录支持的区域设置的列表。

名称	路径	类型	说明
		array of string

定义

DiarizationProperties

名称	路径	类型	说明
扬声器	speakers	DiarizationSpeakersProperties

DiarizationSpeakersProperties

名称	路径	类型	说明
minCount	minCount	integer	用于分割的最小扬声器数的提示。必须小于或等于 maxSpeakers 属性。
maxCount	maxCount	integer	用于分割的最大说话人数。必须小于 36 且大于或等于 minSpeakers 属性。

文件

名称	路径	类型	说明
kind	kind	FileKind	数据类型。
链接	links	FileLinks
createdDateTime	createdDateTime	date-time	此文件的创建时间。时间戳编码为 ISO 8601 日期和时间格式（请参阅 https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations）。
属性	properties	FileProperties
姓名	name	string	此文件的名称。

FileKind

数据类型。

: string

FileLinks

名称	路径	类型	说明
contentUrl	contentUrl	uri	要检索此文件的内容的 URL。

FileProperties

名称	路径	类型	说明
size	size	integer	数据的大小（以字节为单位）。
duration	duration	string	如果此文件是音频文件，则持续时间。持续时间编码为 ISO 8601duration（“PnYnMnDTnHnMnS”，请参阅 https://en.wikipedia.org/wiki/ISO_8601#Durations）。

LanguageIdentificationProperties

名称	路径	类型	说明
candidateLocales	candidateLocales	array of string	语言标识的候选区域设置（例如 [“en-US”， “de-DE”， “es-ES”]）。至少支持 2 个和最多 10 个候选区域设置，包括听录的主要区域设置。
speechModelMapping	speechModelMapping	object	区域设置到语音模型实体的可选映射。如果未为区域设置提供模型，则使用默认基础模型。键必须是候选区域设置中包含的区域设置，值是相应区域设置模型的实体。

PaginatedFiles

名称	路径	类型	说明
values	values	array of File	受传递的查询参数“skip”和“top”或其默认值限制的实体列表。使用分页和并行删除实体循环访问列表时，将在结果中跳过某些实体。建议在客户端上生成列表，并在提取完整列表后将其删除。
@nextLink	@nextLink	uri	如果有更多实体可用，则指向下一组分页结果的链接;否则为 null。

PaginatedTranscriptions

名称	路径	类型	说明
values	values	array of Transcription	受传递的查询参数“skip”和“top”或其默认值限制的实体列表。使用分页和并行删除实体循环访问列表时，将在结果中跳过某些实体。建议在客户端上生成列表，并在提取完整列表后将其删除。
@nextLink	@nextLink	uri	如果有更多实体可用，则指向下一组分页结果的链接;否则为 null。

ProfanityFilterMode

不雅内容筛选模式。

: string

标点符号Mode

用于标点的模式。

: string

转录

名称	路径	类型	说明
contentUrls	contentUrls	array of uri	你可以提供内容 URL 列表来获取要转录的音频文件。最多允许 1000 个 URL。此属性不会在响应中返回。
contentContainerUrl	contentContainerUrl	uri	或者，可以为包含音频文件的 Azure Blob 容器提供 URL。允许容器的最大大小为 5GB，最大大小为 10000 个 blob。Blob 的最大大小为 2.5GB。容器 SAS 应包含“r”（读取）和“l”（列表）权限。此属性不会在响应中返回。
区域设置	locale	string	包含数据的区域设置。如果使用语言标识，则此区域设置用于转录无法检测到任何语言的语音。
displayName	displayName	string	对象的显示名称。
模型	model.self	uri	引用实体的位置。
属性	properties	TranscriptionProperties

TranscriptionProperties

名称	路径	类型	说明
diarizationEnabled	diarizationEnabled	boolean	一个值，该值指示是否请求分割（说话人识别）。默认值 `false`。如果只有此字段设置为 true，并且通过指定`DiarizationProperties`未启用改进的分割系统，则基本分割系统将区分最多两个扬声器。在这种情况下，将应用 Noextra 费用。改进的分割系统为可配置的扬声器范围提供分割。可以在字段中配置 `DiarizationProperties` 它。已弃用：基本分割系统已弃用，并将随`diarizationEnabled` 下一个主要版本的 API 中的设置一起删除。
wordLevelTimestampsEnabled	wordLevelTimestampsEnabled	boolean	一个值，该值指示是否请求字级时间戳。默认值为<
displayFormWordLevelTimestampsEnabled	displayFormWordLevelTimestampsEnabled	boolean	一个值，该值指示是否请求显示窗体的字级时间戳。默认值为 `false`。
channels	channels	array of integer	请求的通道编号的集合。在默认情况下，将考虑通道 0 和 1。
destinationContainerUrl	destinationContainerUrl	uri	请求的目标容器.###备注 ###When 目标容器与一 `timeToLive`个目标容器结合使用，通常删除 atranscription 的元数据，但目标容器中存储的数据（包括转译结果）将保持不变，因为此容器不需要删除权限。若要支持自动清理，请在容器上配置 Blob 生存期，或使用“自带存储（BYOS）”，而不是 `destinationContainerUrl`清理 Blob。
punctuationMode	punctuationMode	PunctuationMode	用于标点的模式。
profanityFilterMode	profanityFilterMode	ProfanityFilterMode	不雅内容筛选模式。
timeToLive	timeToLive	string	听录将在系统完成后保留多长时间。一旦转录到达完成后生存时间（成功或失败），它将自动删除。不设置此值或将其设置为 0 将禁用自动删除。支持时间最长的为 31 天。持续时间编码为 ISO 8601 持续时间（“PnYnMnDTnHnMnS”，请参阅 https://en.wikipedia.org/wiki/ISO_8601#Durations）。
diarization	diarization	DiarizationProperties
语言识别 -	languageIdentification	LanguageIdentificationProperties
电子邮件	email	string	要发送电子邮件通知的电子邮件地址，以防作完成。成功发送电子邮件后，将删除该值。

通过

Azure 批处理语音转文本

先决条件

正在创建连接

Api 密钥

已集成 Microsoft Entra ID

Microsoft Entra ID 集成（Azure 政府版）

默认值 [已弃用]

限制

操作

创建听录 （V3.1）

参数

返回

删除听录 （V3.1）

参数

更新听录 （V3.1）

参数

返回

获取听录 （V3.1）

参数

返回

获取听录列表 （V3.1）

参数

返回

获取听录列表文件（V3.1）

参数

返回

获取听录文件 （V3.1）

参数

返回

获取支持的区域设置（V3.1）

返回

定义

DiarizationProperties

DiarizationSpeakersProperties

文件

FileKind

FileLinks

FileProperties

LanguageIdentificationProperties

PaginatedFiles

PaginatedTranscriptions

ProfanityFilterMode

标点符号Mode

转录

TranscriptionProperties

创建听录（V3.1）

删除听录（V3.1）

更新听录（V3.1）

获取听录（V3.1）

获取听录列表（V3.1）

获取听录文件（V3.1）