Azure Batch 음성 텍스트 변환
100개 이상의 언어 및 변형으로 오디오를 텍스트로 정확하게 기록합니다. Azure AI Speech Service의 일부로 Batch Transcription을 사용하면 스토리지에서 많은 양의 오디오를 전사할 수 있습니다. SAS(공유 액세스 서명) URI가 있는 오디오 파일을 가리키고 비동기적으로 전사 결과를 받을 수 있습니다.
이 커넥터는 다음 제품 및 지역에서 사용할 수 있습니다.
| 서비스 | 클래스 | Regions |
|---|---|---|
| Copilot Studio | 스탠다드 | 다음을 제외한 모든 Power Automate 지역 : - 21Vianet에서 운영하는 중국 클라우드 |
| 논리 앱 | 스탠다드 | 다음을 제외한 모든 Logic Apps 지역 : - Azure 중국 지역 |
| Power Apps | 스탠다드 | 다음을 제외한 모든 Power Apps 지역 : - 21Vianet에서 운영하는 중국 클라우드 |
| Power Automate | 스탠다드 | 다음을 제외한 모든 Power Automate 지역 : - 21Vianet에서 운영하는 중국 클라우드 |
| 연락처 | |
|---|---|
| 이름 | Speech Service Power Platform 팀 |
| URL | https://docs.microsoft.com/azure/cognitive-services/speech-service/support |
| 전자 메일 | speechpowerplatform@microsoft.com |
| 커넥터 메타데이터 | |
|---|---|
| 게시자 | Microsoft |
| 웹 사이트 | https://docs.microsoft.com/azure/cognitive-services/speech-service/ |
| 개인 정보 보호 정책 | https://privacy.microsoft.com |
| 카테고리 | AI; 웹 사이트 |
Speech Services 일괄 처리 전사 API는 제공된 오디오 콘텐츠에 대한 일괄 처리 음성 인식 비동기 처리를 제공하는 클라우드 기반 서비스입니다. 이 커넥터는 Microsoft Power Automate 및 Power Apps에서 이러한 함수를 작업으로 노출합니다.
Pre-requisites
계속하려면 다음이 필요합니다.
- Azure 구독 - 체험 구독 만들기
- Azure Portal에서 Speech 리소스를 만듭니다.
- 음성 리소스 키 및 지역을 가져옵니다. 음성 리소스가 배포된 후, 리소스로 이동을 선택하여 키를 보고 관리합니다. Cognitive Services 리소스에 대한 자세한 내용은 리소스에 대한 키 가져오기를 참조하세요.
- 사용자 고유의 데이터를 업로드하거나 공용 URI 또는 SAS(공유 액세스 서명) URI를 통해 기존 오디오 파일을 사용합니다. 자세한 내용은 여기를 참조 하세요.
연결을 만드는 중
커넥터는 다음 인증 유형을 지원합니다.
| API 키 | API 키 | 모든 지역 | 공유 가능 |
| Microsoft Entra ID 통합 | Microsoft Entra ID를 사용하여 음성 서비스에 액세스합니다. | Azure Government 및 미국 정부(GCC-High)의 Azure Government 및 국방부(DoD)를 제외한 모든 지역 | 공유할 수 없음 |
| Microsoft Entra ID 통합(Azure Government) | Microsoft Entra ID를 사용하여 음성 서비스에 액세스합니다. | Azure Government 및 미국 정부(GCC-High)의 Azure Government 및 국방부(DoD)만 | 공유할 수 없음 |
| 기본값 [사용되지 않음] | 이 옵션은 명시적 인증 유형이 없는 이전 연결에만 해당되며 이전 버전과의 호환성을 위해서만 제공됩니다. | 모든 지역 | 공유할 수 없음 |
API 키
인증 ID: keyBasedAuth
적용 가능: 모든 지역
API 키
공유 가능한 연결입니다. 전원 앱이 다른 사용자와 공유되면 연결도 공유됩니다. 자세한 내용은 캔버스 앱에 대한 커넥터 개요를 참조하세요. - Power Apps | Microsoft Docs
| 이름 | 유형 | Description | 필수 |
|---|---|---|---|
| 계정 키 | 시큐어스트링 (보안 문자열) | Speech Service 키 | 진실 |
| 지역 | 문자열 | Speech Service 지역(예: eastus) | 진실 |
Microsoft Entra ID 통합
인증 ID: tokenBasedAuth
적용 가능: Azure Government 및 미국 정부의 Azure Government 및 국방부(DoD)를 제외한 모든 지역(GCC-High)
Microsoft Entra ID를 사용하여 음성 서비스에 액세스합니다.
공유 가능한 연결이 아닙니다. 전원 앱이 다른 사용자와 공유되면 다른 사용자에게 새 연결을 명시적으로 만들라는 메시지가 표시됩니다.
| 이름 | 유형 | Description | 필수 |
|---|---|---|---|
| 사용자 지정 하위 도메인 | 문자열 | 사용자 지정 하위 도메인 엔드포인트 URL(예: contoso) | 진실 |
Microsoft Entra ID 통합(Azure Government)
인증 ID: tokenBasedAuth
적용 가능: Azure Government 및 미국 정부(GCC-High)의 Azure Government 및 국방부(DoD)
Microsoft Entra ID를 사용하여 음성 서비스에 액세스합니다.
공유 가능한 연결이 아닙니다. 전원 앱이 다른 사용자와 공유되면 다른 사용자에게 새 연결을 명시적으로 만들라는 메시지가 표시됩니다.
| 이름 | 유형 | Description | 필수 |
|---|---|---|---|
| 사용자 지정 하위 도메인 | 문자열 | 사용자 지정 하위 도메인 엔드포인트 URL(예: contoso) | 진실 |
기본값 [사용되지 않음]
적용 가능: 모든 지역
이 옵션은 명시적 인증 유형이 없는 이전 연결에만 해당되며 이전 버전과의 호환성을 위해서만 제공됩니다.
공유 가능한 연결이 아닙니다. 전원 앱이 다른 사용자와 공유되면 다른 사용자에게 새 연결을 명시적으로 만들라는 메시지가 표시됩니다.
| 이름 | 유형 | Description | 필수 |
|---|---|---|---|
| 계정 키 | 시큐어스트링 (보안 문자열) | Batch Speech-to-text 계정 키용 Azure Cognitive Services | 진실 |
| 지역 | 문자열 | Speech Service 지역(예: eastus) | 진실 |
제한 한도
| Name | 호출 | 갱신 기간 |
|---|---|---|
| 연결당 API 호출 | 100 | 60초 |
동작
| 전사 가져오기(V3.1) |
지정된 ID로 식별되는 전사를 가져옵니다. |
| 전사 만들기(V3.1) |
새 전사를 만듭니다. |
| 전사 목록 가져오기(V3.1) |
인증된 구독에 대한 기록 목록을 가져옵니다. |
| 전사 목록 파일 가져오기(V3.1) |
지정된 ID로 식별되는 전사의 파일을 가져옵니다. |
| 전사 삭제(V3.1) |
지정된 전사 작업을 삭제합니다. |
| 전사 업데이트(V3.1) |
ID로 식별된 전사의 변경 가능한 세부 정보를 업데이트합니다. |
| 전사 파일 가져오기(V3.1) |
전사에서 특정 파일(fileId로 식별됨)을 가져옵니다(ID로 식별됨). |
| 지원되는 로캘 가져오기(V3.1) |
오프라인 전사에 대해 지원되는 로캘 목록을 가져옵니다. |
전사 가져오기(V3.1)
지정된 ID로 식별되는 전사를 가져옵니다.
매개 변수
| Name | 키 | 필수 | 형식 | Description |
|---|---|---|---|---|
|
아이디
|
id | True | uuid |
전사의 식별자입니다. |
반환
전사 만들기(V3.1)
새 전사를 만듭니다.
매개 변수
| Name | 키 | 필수 | 형식 | Description |
|---|---|---|---|---|
|
contentUrls
|
contentUrls | array of uri |
기록할 오디오 파일을 가져오는 콘텐츠 URL 목록을 제공할 수 있습니다. 최대 1,000개의 URL이 허용됩니다. 이 속성은 응답에서 반환되지 않습니다. |
|
|
contentContainerUrl
|
contentContainerUrl | uri |
또는 오디오 파일이 포함된 Azure Blob 컨테이너에 대한 URL을 제공할 수 있습니다. 컨테이너의 최대 크기는 5GB이고 최대 Blob 수는 10000개입니다. Blob의 최대 크기는 2.5GB입니다. 컨테이너 SAS에는 'r'(읽기) 및 'l'(목록) 권한이 포함되어야 합니다. 이 속성은 응답에서 반환되지 않습니다. |
|
|
지역 설정
|
locale | True | string |
포함된 데이터의 로캘입니다. 언어 식별을 사용하는 경우 이 로캘은 언어를 검색할 수 없는 음성을 전사하는 데 사용됩니다. |
|
표시 이름
|
displayName | True | string |
개체의 표시 이름입니다. |
|
model
|
self | uri |
참조된 엔터티의 위치입니다. |
|
|
diarizationEnabled
|
diarizationEnabled | boolean |
설사(화자 식별)가 요청되었는지 여부를 나타내는 값입니다. 기본값입니다 |
|
|
wordLevelTimestampsEnabled
|
wordLevelTimestampsEnabled | boolean |
단어 수준 타임스탬프가 요청되는지 여부를 나타내는 값입니다. 기본값은 |
|
|
displayFormWordLevelTimestampsEnabled
|
displayFormWordLevelTimestampsEnabled | boolean |
표시 폼의 단어 수준 타임스탬프가 요청되는지 여부를 나타내는 값입니다. 기본값은 |
|
|
channels
|
channels | array of integer |
요청된 채널 번호의 컬렉션입니다. 기본 사례에서는 채널 0과 1이 고려됩니다. |
|
|
destinationContainerUrl
|
destinationContainerUrl | uri |
요청된 대상 컨테이너.### 주의 사항 ###When 대상 컨테이너가 함께 |
|
|
punctuationMode
|
punctuationMode | string |
문장 부호에 사용되는 모드입니다. |
|
|
profanityFilterMode
|
profanityFilterMode | string |
욕설 필터링 모드입니다. |
|
|
timeToLive
|
timeToLive | string |
전사가 완료된 후 시스템에 보관되는 기간입니다. 완료(성공 또는 실패)가 완료된 후 라이브 시간에 도달하면 자동으로 삭제됩니다. 이 값을 설정하거나 0으로 설정하지 않으면 자동 삭제가 비활성화됩니다. 가장 긴 지원되는 방법은 31일입니다. 기간은 ISO 8601 기간으로 인코딩됩니다("PnYnMnDTnHnMnS", 참조 https://en.wikipedia.org/wiki/ISO_8601#Durations). |
|
|
minCount
|
minCount | integer |
다이어리화를 위한 최소 스피커 수에 대한 힌트입니다. maxSpeakers 속성보다 작거나 같아야 합니다. |
|
|
maxCount
|
maxCount | integer |
다이어리화를 위한 최대 스피커 수입니다. 36보다 작고 minSpeakers 속성보다 크거나 같아야 합니다. |
|
|
candidateLocales
|
candidateLocales | True | array of string |
언어 식별에 대한 후보 로캘입니다(예: ["en-US", "de-DE", "es-ES"]). 전사의 기본 로캘을 포함하여 최소 2개 및 최대 10개의 후보 로캘이 지원됩니다. |
|
speechModelMapping
|
speechModelMapping | object |
로캘과 음성 모델 엔터티의 선택적 매핑입니다. 로캘에 대해 모델이 지정되지 않은 경우 기본 기본 모델이 사용됩니다. 키는 후보 로캘에 포함된 로캘이어야 하며 값은 해당 로캘의 모델에 대한 엔터티입니다. |
|
|
메일 주소
|
string |
작업이 완료된 경우 전자 메일 알림을 보낼 전자 메일 주소입니다. 전자 메일을 성공적으로 보낸 후 값이 제거됩니다. |
반환
전사 목록 가져오기(V3.1)
인증된 구독에 대한 기록 목록을 가져옵니다.
매개 변수
| Name | 키 | 필수 | 형식 | Description |
|---|---|---|---|---|
|
건너뛰기
|
skip | integer |
건너뛸 데이터 세트의 수입니다. |
|
|
Top
|
top | integer |
건너뛴 후 포함할 데이터 세트의 수입니다. |
|
|
Filter
|
filter | string |
사용 가능한 전사의 하위 집합을 선택하기 위한 필터링 식입니다.
|
반환
전사 목록 파일 가져오기(V3.1)
지정된 ID로 식별되는 전사의 파일을 가져옵니다.
매개 변수
| Name | 키 | 필수 | 형식 | Description |
|---|---|---|---|---|
|
아이디
|
id | True | uuid |
전사의 식별자입니다. |
|
Sas 유효성(초)
|
sasValidityInSeconds | integer |
SAS URL이 유효해야 하는 기간(초)입니다. 기본 기간은 12시간입니다. BYOS(https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): 값이 0이면 SAS 토큰이 없는 일반 Blob URI가 생성됩니다. |
|
|
건너뛰기
|
skip | integer |
건너뛸 데이터 세트의 수입니다. |
|
|
Top
|
top | integer |
건너뛴 후 포함할 데이터 세트의 수입니다. |
|
|
Filter
|
filter | string |
사용 가능한 파일의 하위 집합을 선택하기 위한 필터링 식입니다.
|
반환
전사 삭제(V3.1)
지정된 전사 작업을 삭제합니다.
매개 변수
| Name | 키 | 필수 | 형식 | Description |
|---|---|---|---|---|
|
아이디
|
id | True | uuid |
전사의 식별자입니다. |
전사 업데이트(V3.1)
ID로 식별된 전사의 변경 가능한 세부 정보를 업데이트합니다.
매개 변수
| Name | 키 | 필수 | 형식 | Description |
|---|---|---|---|---|
|
아이디
|
id | True | uuid |
전사의 식별자입니다. |
|
자신
|
self | True | uri |
참조된 엔터티의 위치입니다. |
|
표시 이름
|
displayName | string |
개체의 이름입니다. |
|
|
description
|
description | string |
개체에 대한 설명입니다. |
|
|
사용자 정의 속성
|
customProperties | object |
이 엔터티의 사용자 지정 속성입니다. 허용되는 최대 키 길이는 64자, 최대 허용 값 길이는 256자, 허용되는 항목 수는 10자입니다. |
반환
전사 파일 가져오기(V3.1)
전사에서 특정 파일(fileId로 식별됨)을 가져옵니다(ID로 식별됨).
매개 변수
| Name | 키 | 필수 | 형식 | Description |
|---|---|---|---|---|
|
아이디
|
id | True | uuid |
전사의 식별자입니다. |
|
파일 ID
|
fileId | True | uuid |
파일의 식별자입니다. |
|
Sas 유효성(초)
|
sasValidityInSeconds | integer |
SAS URL이 유효해야 하는 기간(초)입니다. 기본 기간은 12시간입니다. BYOS(https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): 값이 0이면 SAS 토큰이 없는 일반 Blob URI가 생성됩니다. |
반환
- 몸
- File
지원되는 로캘 가져오기(V3.1)
오프라인 전사에 대해 지원되는 로캘 목록을 가져옵니다.
반환
| Name | 경로 | 형식 | Description |
|---|---|---|---|
|
|
array of string |
정의
DiarizationProperties
| Name | 경로 | 형식 | Description |
|---|---|---|---|
|
스피커
|
speakers | DiarizationSpeakersProperties |
DiarizationSpeakersProperties
| Name | 경로 | 형식 | Description |
|---|---|---|---|
|
minCount
|
minCount | integer |
다이어리화를 위한 최소 스피커 수에 대한 힌트입니다. maxSpeakers 속성보다 작거나 같아야 합니다. |
|
maxCount
|
maxCount | integer |
다이어리화를 위한 최대 스피커 수입니다. 36보다 작고 minSpeakers 속성보다 크거나 같아야 합니다. |
File
| Name | 경로 | 형식 | Description |
|---|---|---|---|
|
친절한
|
kind | FileKind |
데이터 형식입니다. |
|
links
|
links | FileLinks | |
|
생성된날짜시간
|
createdDateTime | date-time |
이 파일의 생성 시간입니다. 타임스탬프는 ISO 8601 날짜 및 시간 형식으로 인코딩됩니다(참조 https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations). |
|
properties
|
properties | FileProperties | |
|
이름
|
name | string |
이 파일의 이름입니다. |
FileKind
FileLinks
| Name | 경로 | 형식 | Description |
|---|---|---|---|
|
콘텐츠URL
|
contentUrl | uri |
이 파일의 콘텐츠를 검색할 URL입니다. |
FileProperties
| Name | 경로 | 형식 | Description |
|---|---|---|---|
|
size
|
size | integer |
데이터의 크기(바이트)입니다. |
|
duration
|
duration | string |
이 파일이 오디오 파일인 경우의 기간입니다. 기간은 ISO 8601duration("PnYnMnDTnHnMnS", 참조 https://en.wikipedia.org/wiki/ISO_8601#Durations)으로 인코딩됩니다. |
LanguageIdentificationProperties
| Name | 경로 | 형식 | Description |
|---|---|---|---|
|
candidateLocales
|
candidateLocales | array of string |
언어 식별에 대한 후보 로캘입니다(예: ["en-US", "de-DE", "es-ES"]). 전사의 기본 로캘을 포함하여 최소 2개 및 최대 10개의 후보 로캘이 지원됩니다. |
|
speechModelMapping
|
speechModelMapping | object |
로캘과 음성 모델 엔터티의 선택적 매핑입니다. 로캘에 대해 모델이 지정되지 않은 경우 기본 기본 모델이 사용됩니다. 키는 후보 로캘에 포함된 로캘이어야 하며 값은 해당 로캘의 모델에 대한 엔터티입니다. |
페이지를 매긴 파일
| Name | 경로 | 형식 | Description |
|---|---|---|---|
|
values
|
values | array of File |
전달된 쿼리 매개 변수 'skip' 및 'top' 또는 해당 기본값으로 제한되는 엔터티 목록입니다. 페이지 매김을 사용하여 목록을 반복하고 엔터티를 병렬로 삭제하는 경우 결과에서 일부 엔터티를 건너뛰게 됩니다. 클라이언트에서 목록을 빌드하고 전체 목록을 페치한 후 삭제하는 것이 좋습니다. |
|
@nextLink
|
@nextLink | uri |
사용할 수 있는 엔터티가 더 있는 경우 페이지를 매긴 다음 결과 집합에 대한 링크입니다. 그렇지 않으면 null입니다. |
PaginatedTranscriptions
| Name | 경로 | 형식 | Description |
|---|---|---|---|
|
values
|
values | array of Transcription |
전달된 쿼리 매개 변수 'skip' 및 'top' 또는 해당 기본값으로 제한되는 엔터티 목록입니다. 페이지 매김을 사용하여 목록을 반복하고 엔터티를 병렬로 삭제하는 경우 결과에서 일부 엔터티를 건너뛰게 됩니다. 클라이언트에서 목록을 빌드하고 전체 목록을 페치한 후 삭제하는 것이 좋습니다. |
|
@nextLink
|
@nextLink | uri |
사용할 수 있는 엔터티가 더 있는 경우 페이지를 매긴 다음 결과 집합에 대한 링크입니다. 그렇지 않으면 null입니다. |
ProfanityFilterMode
PunctuationMode
Transcription
| Name | 경로 | 형식 | Description |
|---|---|---|---|
|
contentUrls
|
contentUrls | array of uri |
기록할 오디오 파일을 가져오는 콘텐츠 URL 목록을 제공할 수 있습니다. 최대 1,000개의 URL이 허용됩니다. 이 속성은 응답에서 반환되지 않습니다. |
|
contentContainerUrl
|
contentContainerUrl | uri |
또는 오디오 파일이 포함된 Azure Blob 컨테이너에 대한 URL을 제공할 수 있습니다. 컨테이너의 최대 크기는 5GB이고 최대 Blob 수는 10000개입니다. Blob의 최대 크기는 2.5GB입니다. 컨테이너 SAS에는 'r'(읽기) 및 'l'(목록) 권한이 포함되어야 합니다. 이 속성은 응답에서 반환되지 않습니다. |
|
지역 설정
|
locale | string |
포함된 데이터의 로캘입니다. 언어 식별을 사용하는 경우 이 로캘은 언어를 검색할 수 없는 음성을 전사하는 데 사용됩니다. |
|
표시 이름
|
displayName | string |
개체의 표시 이름입니다. |
|
model
|
model.self | uri |
참조된 엔터티의 위치입니다. |
|
properties
|
properties | TranscriptionProperties |
TranscriptionProperties
| Name | 경로 | 형식 | Description |
|---|---|---|---|
|
diarizationEnabled
|
diarizationEnabled | boolean |
설사(화자 식별)가 요청되었는지 여부를 나타내는 값입니다. 기본값입니다 |
|
wordLevelTimestampsEnabled
|
wordLevelTimestampsEnabled | boolean |
단어 수준 타임스탬프가 요청되는지 여부를 나타내는 값입니다. 기본값은 |
|
displayFormWordLevelTimestampsEnabled
|
displayFormWordLevelTimestampsEnabled | boolean |
표시 폼의 단어 수준 타임스탬프가 요청되는지 여부를 나타내는 값입니다. 기본값은 |
|
channels
|
channels | array of integer |
요청된 채널 번호의 컬렉션입니다. 기본 사례에서는 채널 0과 1이 고려됩니다. |
|
destinationContainerUrl
|
destinationContainerUrl | uri |
요청된 대상 컨테이너.### 주의 사항 ###When 대상 컨테이너가 함께 |
|
punctuationMode
|
punctuationMode | PunctuationMode |
문장 부호에 사용되는 모드입니다. |
|
profanityFilterMode
|
profanityFilterMode | ProfanityFilterMode |
욕설 필터링 모드입니다. |
|
timeToLive
|
timeToLive | string |
전사가 완료된 후 시스템에 보관되는 기간입니다. 완료(성공 또는 실패)가 완료된 후 라이브 시간에 도달하면 자동으로 삭제됩니다. 이 값을 설정하거나 0으로 설정하지 않으면 자동 삭제가 비활성화됩니다. 가장 긴 지원되는 방법은 31일입니다. 기간은 ISO 8601 기간으로 인코딩됩니다("PnYnMnDTnHnMnS", 참조 https://en.wikipedia.org/wiki/ISO_8601#Durations). |
|
다이어리화
|
diarization | DiarizationProperties | |
|
언어 식별 -
|
languageIdentification | LanguageIdentificationProperties | |
|
메일 주소
|
string |
작업이 완료된 경우 전자 메일 알림을 보낼 전자 메일 주소입니다. 전자 메일을 성공적으로 보낸 후 값이 제거됩니다. |