다음을 통해 공유


Azure Batch 음성 텍스트 변환

100개 이상의 언어 및 변형으로 오디오를 텍스트로 정확하게 기록합니다. Azure AI Speech Service의 일부로 Batch Transcription을 사용하면 스토리지에서 많은 양의 오디오를 전사할 수 있습니다. SAS(공유 액세스 서명) URI가 있는 오디오 파일을 가리키고 비동기적으로 전사 결과를 받을 수 있습니다.

이 커넥터는 다음 제품 및 지역에서 사용할 수 있습니다.

서비스 클래스 Regions
Copilot Studio 스탠다드 다음을 제외한 모든 Power Automate 지역 :
     - 21Vianet에서 운영하는 중국 클라우드
논리 앱 스탠다드 다음을 제외한 모든 Logic Apps 지역 :
     - Azure 중국 지역
Power Apps 스탠다드 다음을 제외한 모든 Power Apps 지역 :
     - 21Vianet에서 운영하는 중국 클라우드
Power Automate 스탠다드 다음을 제외한 모든 Power Automate 지역 :
     - 21Vianet에서 운영하는 중국 클라우드
연락처
이름 Speech Service Power Platform 팀
URL https://docs.microsoft.com/azure/cognitive-services/speech-service/support
전자 메일 speechpowerplatform@microsoft.com
커넥터 메타데이터
게시자 Microsoft
웹 사이트 https://docs.microsoft.com/azure/cognitive-services/speech-service/
개인 정보 보호 정책 https://privacy.microsoft.com
카테고리 AI; 웹 사이트

Speech Services 일괄 처리 전사 API는 제공된 오디오 콘텐츠에 대한 일괄 처리 음성 인식 비동기 처리를 제공하는 클라우드 기반 서비스입니다. 이 커넥터는 Microsoft Power Automate 및 Power Apps에서 이러한 함수를 작업으로 노출합니다.

Pre-requisites

계속하려면 다음이 필요합니다.

연결을 만드는 중

커넥터는 다음 인증 유형을 지원합니다.

API 키 API 키 모든 지역 공유 가능
Microsoft Entra ID 통합 Microsoft Entra ID를 사용하여 음성 서비스에 액세스합니다. Azure Government 및 미국 정부(GCC-High)의 Azure Government 및 국방부(DoD)를 제외한 모든 지역 공유할 수 없음
Microsoft Entra ID 통합(Azure Government) Microsoft Entra ID를 사용하여 음성 서비스에 액세스합니다. Azure Government 및 미국 정부(GCC-High)의 Azure Government 및 국방부(DoD)만 공유할 수 없음
기본값 [사용되지 않음] 이 옵션은 명시적 인증 유형이 없는 이전 연결에만 해당되며 이전 버전과의 호환성을 위해서만 제공됩니다. 모든 지역 공유할 수 없음

API 키

인증 ID: keyBasedAuth

적용 가능: 모든 지역

API 키

공유 가능한 연결입니다. 전원 앱이 다른 사용자와 공유되면 연결도 공유됩니다. 자세한 내용은 캔버스 앱에 대한 커넥터 개요를 참조하세요. - Power Apps | Microsoft Docs

이름 유형 Description 필수
계정 키 시큐어스트링 (보안 문자열) Speech Service 키 진실
지역 문자열 Speech Service 지역(예: eastus) 진실

Microsoft Entra ID 통합

인증 ID: tokenBasedAuth

적용 가능: Azure Government 및 미국 정부의 Azure Government 및 국방부(DoD)를 제외한 모든 지역(GCC-High)

Microsoft Entra ID를 사용하여 음성 서비스에 액세스합니다.

공유 가능한 연결이 아닙니다. 전원 앱이 다른 사용자와 공유되면 다른 사용자에게 새 연결을 명시적으로 만들라는 메시지가 표시됩니다.

이름 유형 Description 필수
사용자 지정 하위 도메인 문자열 사용자 지정 하위 도메인 엔드포인트 URL(예: contoso) 진실

Microsoft Entra ID 통합(Azure Government)

인증 ID: tokenBasedAuth

적용 가능: Azure Government 및 미국 정부(GCC-High)의 Azure Government 및 국방부(DoD)

Microsoft Entra ID를 사용하여 음성 서비스에 액세스합니다.

공유 가능한 연결이 아닙니다. 전원 앱이 다른 사용자와 공유되면 다른 사용자에게 새 연결을 명시적으로 만들라는 메시지가 표시됩니다.

이름 유형 Description 필수
사용자 지정 하위 도메인 문자열 사용자 지정 하위 도메인 엔드포인트 URL(예: contoso) 진실

기본값 [사용되지 않음]

적용 가능: 모든 지역

이 옵션은 명시적 인증 유형이 없는 이전 연결에만 해당되며 이전 버전과의 호환성을 위해서만 제공됩니다.

공유 가능한 연결이 아닙니다. 전원 앱이 다른 사용자와 공유되면 다른 사용자에게 새 연결을 명시적으로 만들라는 메시지가 표시됩니다.

이름 유형 Description 필수
계정 키 시큐어스트링 (보안 문자열) Batch Speech-to-text 계정 키용 Azure Cognitive Services 진실
지역 문자열 Speech Service 지역(예: eastus) 진실

제한 한도

Name 호출 갱신 기간
연결당 API 호출 100 60초

동작

전사 가져오기(V3.1)

지정된 ID로 식별되는 전사를 가져옵니다.

전사 만들기(V3.1)

새 전사를 만듭니다.

전사 목록 가져오기(V3.1)

인증된 구독에 대한 기록 목록을 가져옵니다.

전사 목록 파일 가져오기(V3.1)

지정된 ID로 식별되는 전사의 파일을 가져옵니다.

전사 삭제(V3.1)

지정된 전사 작업을 삭제합니다.

전사 업데이트(V3.1)

ID로 식별된 전사의 변경 가능한 세부 정보를 업데이트합니다.

전사 파일 가져오기(V3.1)

전사에서 특정 파일(fileId로 식별됨)을 가져옵니다(ID로 식별됨).

지원되는 로캘 가져오기(V3.1)

오프라인 전사에 대해 지원되는 로캘 목록을 가져옵니다.

전사 가져오기(V3.1)

지정된 ID로 식별되는 전사를 가져옵니다.

매개 변수

Name 필수 형식 Description
아이디
id True uuid

전사의 식별자입니다.

반환

전사 만들기(V3.1)

새 전사를 만듭니다.

매개 변수

Name 필수 형식 Description
contentUrls
contentUrls array of uri

기록할 오디오 파일을 가져오는 콘텐츠 URL 목록을 제공할 수 있습니다. 최대 1,000개의 URL이 허용됩니다. 이 속성은 응답에서 반환되지 않습니다.

contentContainerUrl
contentContainerUrl uri

또는 오디오 파일이 포함된 Azure Blob 컨테이너에 대한 URL을 제공할 수 있습니다. 컨테이너의 최대 크기는 5GB이고 최대 Blob 수는 10000개입니다. Blob의 최대 크기는 2.5GB입니다. 컨테이너 SAS에는 'r'(읽기) 및 'l'(목록) 권한이 포함되어야 합니다. 이 속성은 응답에서 반환되지 않습니다.

지역 설정
locale True string

포함된 데이터의 로캘입니다. 언어 식별을 사용하는 경우 이 로캘은 언어를 검색할 수 없는 음성을 전사하는 데 사용됩니다.

표시 이름
displayName True string

개체의 표시 이름입니다.

model
self uri

참조된 엔터티의 위치입니다.

diarizationEnabled
diarizationEnabled boolean

설사(화자 식별)가 요청되었는지 여부를 나타내는 값입니다. 기본값입니다 false. 이 필드만 true로 설정되고 지정된 것으로 향상된 다이어리화 시스템을 사용할 수DiarizationProperties 없는 경우 기본 다이어리화 시스템은 최대 2개의 스피커를 구분합니다. 이 경우 Noextra 요금이 적용됩니다. 향상된 다이어리화 시스템은 구성 가능한 범위의 스피커에 대한 다이어리화를 제공합니다. 필드에서 구성할 DiarizationProperties 수 있습니다. 사용되지 않음: 기본 다이어리 시스템은 더 이상 사용되지 않으며 API의 다음 주 버전에서 설정과diarizationEnabled 함께 제거됩니다.

wordLevelTimestampsEnabled
wordLevelTimestampsEnabled boolean

단어 수준 타임스탬프가 요청되는지 여부를 나타내는 값입니다. 기본값은false

displayFormWordLevelTimestampsEnabled
displayFormWordLevelTimestampsEnabled boolean

표시 폼의 단어 수준 타임스탬프가 요청되는지 여부를 나타내는 값입니다. 기본값은 false입니다.

channels
channels array of integer

요청된 채널 번호의 컬렉션입니다. 기본 사례에서는 채널 0과 1이 고려됩니다.

destinationContainerUrl
destinationContainerUrl uri

요청된 대상 컨테이너.### 주의 사항 ###When 대상 컨테이너가 함께 timeToLive사용되며, atranscription의 메타데이터는 정상적으로 삭제되지만, 이 컨테이너에 대한 삭제 권한이 필요하지 않으므로 대상 컨테이너에 저장된 데이터(설명 결과 포함)는 그대로 유지됩니다.
자동 정리를 지원하려면 컨테이너에서 Blob 수명을 구성하거나 Blob을 정리할 수 있는 위치 대신 destinationContainerUrl"BYOS(Bring Your Own Storage)"를 사용합니다.

punctuationMode
punctuationMode string

문장 부호에 사용되는 모드입니다.

profanityFilterMode
profanityFilterMode string

욕설 필터링 모드입니다.

timeToLive
timeToLive string

전사가 완료된 후 시스템에 보관되는 기간입니다. 완료(성공 또는 실패)가 완료된 후 라이브 시간에 도달하면 자동으로 삭제됩니다. 이 값을 설정하거나 0으로 설정하지 않으면 자동 삭제가 비활성화됩니다. 가장 긴 지원되는 방법은 31일입니다. 기간은 ISO 8601 기간으로 인코딩됩니다("PnYnMnDTnHnMnS", 참조 https://en.wikipedia.org/wiki/ISO_8601#Durations).

minCount
minCount integer

다이어리화를 위한 최소 스피커 수에 대한 힌트입니다. maxSpeakers 속성보다 작거나 같아야 합니다.

maxCount
maxCount integer

다이어리화를 위한 최대 스피커 수입니다. 36보다 작고 minSpeakers 속성보다 크거나 같아야 합니다.

candidateLocales
candidateLocales True array of string

언어 식별에 대한 후보 로캘입니다(예: ["en-US", "de-DE", "es-ES"]). 전사의 기본 로캘을 포함하여 최소 2개 및 최대 10개의 후보 로캘이 지원됩니다.

speechModelMapping
speechModelMapping object

로캘과 음성 모델 엔터티의 선택적 매핑입니다. 로캘에 대해 모델이 지정되지 않은 경우 기본 기본 모델이 사용됩니다. 키는 후보 로캘에 포함된 로캘이어야 하며 값은 해당 로캘의 모델에 대한 엔터티입니다.

메일 주소
email string

작업이 완료된 경우 전자 메일 알림을 보낼 전자 메일 주소입니다. 전자 메일을 성공적으로 보낸 후 값이 제거됩니다.

반환

전사 목록 가져오기(V3.1)

인증된 구독에 대한 기록 목록을 가져옵니다.

매개 변수

Name 필수 형식 Description
건너뛰기
skip integer

건너뛸 데이터 세트의 수입니다.

Top
top integer

건너뛴 후 포함할 데이터 세트의 수입니다.

Filter
filter string

사용 가능한 전사의 하위 집합을 선택하기 위한 필터링 식입니다.

  • 지원되는 속성: displayName, description, createdDateTime, lastActionDateTime, status, locale.
  • 연산자:
    - eq, ne는 모든 속성에 대해 지원됩니다.
    - gt, ge, lt, le는 createdDateTime 및 lastActionDateTime에 대해 지원됩니다.
    - 지원되지 않거나 지원되지 않습니다.
  • 예제filter=createdDateTime gt 2022-02-01T11:00:00Z:

반환

전사 목록 파일 가져오기(V3.1)

지정된 ID로 식별되는 전사의 파일을 가져옵니다.

매개 변수

Name 필수 형식 Description
아이디
id True uuid

전사의 식별자입니다.

Sas 유효성(초)
sasValidityInSeconds integer

SAS URL이 유효해야 하는 기간(초)입니다. 기본 기간은 12시간입니다. BYOS(https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): 값이 0이면 SAS 토큰이 없는 일반 Blob URI가 생성됩니다.

건너뛰기
skip integer

건너뛸 데이터 세트의 수입니다.

Top
top integer

건너뛴 후 포함할 데이터 세트의 수입니다.

Filter
filter string

사용 가능한 파일의 하위 집합을 선택하기 위한 필터링 식입니다.

  • 지원되는 속성: name, createdDateTime, kind.
  • 연산자:
    - eq, ne는 모든 속성에 대해 지원됩니다.
    - gt, ge, lt, le는 createdDateTime에 대해 지원됩니다.
    - 지원되지 않거나 지원되지 않습니다.
  • 예제filter=name eq 'myaudio.wav.json' and kind eq 'Transcription':

반환

전사 삭제(V3.1)

지정된 전사 작업을 삭제합니다.

매개 변수

Name 필수 형식 Description
아이디
id True uuid

전사의 식별자입니다.

전사 업데이트(V3.1)

ID로 식별된 전사의 변경 가능한 세부 정보를 업데이트합니다.

매개 변수

Name 필수 형식 Description
아이디
id True uuid

전사의 식별자입니다.

자신
self True uri

참조된 엔터티의 위치입니다.

표시 이름
displayName string

개체의 이름입니다.

description
description string

개체에 대한 설명입니다.

사용자 정의 속성
customProperties object

이 엔터티의 사용자 지정 속성입니다. 허용되는 최대 키 길이는 64자, 최대 허용 값 길이는 256자, 허용되는 항목 수는 10자입니다.

반환

전사 파일 가져오기(V3.1)

전사에서 특정 파일(fileId로 식별됨)을 가져옵니다(ID로 식별됨).

매개 변수

Name 필수 형식 Description
아이디
id True uuid

전사의 식별자입니다.

파일 ID
fileId True uuid

파일의 식별자입니다.

Sas 유효성(초)
sasValidityInSeconds integer

SAS URL이 유효해야 하는 기간(초)입니다. 기본 기간은 12시간입니다. BYOS(https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): 값이 0이면 SAS 토큰이 없는 일반 Blob URI가 생성됩니다.

반환

File

지원되는 로캘 가져오기(V3.1)

오프라인 전사에 대해 지원되는 로캘 목록을 가져옵니다.

반환

Name 경로 형식 Description
array of string

정의

DiarizationProperties

Name 경로 형식 Description
스피커
speakers DiarizationSpeakersProperties

DiarizationSpeakersProperties

Name 경로 형식 Description
minCount
minCount integer

다이어리화를 위한 최소 스피커 수에 대한 힌트입니다. maxSpeakers 속성보다 작거나 같아야 합니다.

maxCount
maxCount integer

다이어리화를 위한 최대 스피커 수입니다. 36보다 작고 minSpeakers 속성보다 크거나 같아야 합니다.

File

Name 경로 형식 Description
친절한
kind FileKind

데이터 형식입니다.

links
links FileLinks
생성된날짜시간
createdDateTime date-time

이 파일의 생성 시간입니다. 타임스탬프는 ISO 8601 날짜 및 시간 형식으로 인코딩됩니다(참조 https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations).

properties
properties FileProperties
이름
name string

이 파일의 이름입니다.

FileKind

데이터 형식입니다.

데이터 형식입니다.

Name 경로 형식 Description
콘텐츠URL
contentUrl uri

이 파일의 콘텐츠를 검색할 URL입니다.

FileProperties

Name 경로 형식 Description
size
size integer

데이터의 크기(바이트)입니다.

duration
duration string

이 파일이 오디오 파일인 경우의 기간입니다. 기간은 ISO 8601duration("PnYnMnDTnHnMnS", 참조 https://en.wikipedia.org/wiki/ISO_8601#Durations)으로 인코딩됩니다.

LanguageIdentificationProperties

Name 경로 형식 Description
candidateLocales
candidateLocales array of string

언어 식별에 대한 후보 로캘입니다(예: ["en-US", "de-DE", "es-ES"]). 전사의 기본 로캘을 포함하여 최소 2개 및 최대 10개의 후보 로캘이 지원됩니다.

speechModelMapping
speechModelMapping object

로캘과 음성 모델 엔터티의 선택적 매핑입니다. 로캘에 대해 모델이 지정되지 않은 경우 기본 기본 모델이 사용됩니다. 키는 후보 로캘에 포함된 로캘이어야 하며 값은 해당 로캘의 모델에 대한 엔터티입니다.

페이지를 매긴 파일

Name 경로 형식 Description
values
values array of File

전달된 쿼리 매개 변수 'skip' 및 'top' 또는 해당 기본값으로 제한되는 엔터티 목록입니다. 페이지 매김을 사용하여 목록을 반복하고 엔터티를 병렬로 삭제하는 경우 결과에서 일부 엔터티를 건너뛰게 됩니다. 클라이언트에서 목록을 빌드하고 전체 목록을 페치한 후 삭제하는 것이 좋습니다.

@nextLink
@nextLink uri

사용할 수 있는 엔터티가 더 있는 경우 페이지를 매긴 다음 결과 집합에 대한 링크입니다. 그렇지 않으면 null입니다.

PaginatedTranscriptions

Name 경로 형식 Description
values
values array of Transcription

전달된 쿼리 매개 변수 'skip' 및 'top' 또는 해당 기본값으로 제한되는 엔터티 목록입니다. 페이지 매김을 사용하여 목록을 반복하고 엔터티를 병렬로 삭제하는 경우 결과에서 일부 엔터티를 건너뛰게 됩니다. 클라이언트에서 목록을 빌드하고 전체 목록을 페치한 후 삭제하는 것이 좋습니다.

@nextLink
@nextLink uri

사용할 수 있는 엔터티가 더 있는 경우 페이지를 매긴 다음 결과 집합에 대한 링크입니다. 그렇지 않으면 null입니다.

ProfanityFilterMode

욕설 필터링 모드입니다.

욕설 필터링 모드입니다.

PunctuationMode

문장 부호에 사용되는 모드입니다.

문장 부호에 사용되는 모드입니다.

Transcription

Name 경로 형식 Description
contentUrls
contentUrls array of uri

기록할 오디오 파일을 가져오는 콘텐츠 URL 목록을 제공할 수 있습니다. 최대 1,000개의 URL이 허용됩니다. 이 속성은 응답에서 반환되지 않습니다.

contentContainerUrl
contentContainerUrl uri

또는 오디오 파일이 포함된 Azure Blob 컨테이너에 대한 URL을 제공할 수 있습니다. 컨테이너의 최대 크기는 5GB이고 최대 Blob 수는 10000개입니다. Blob의 최대 크기는 2.5GB입니다. 컨테이너 SAS에는 'r'(읽기) 및 'l'(목록) 권한이 포함되어야 합니다. 이 속성은 응답에서 반환되지 않습니다.

지역 설정
locale string

포함된 데이터의 로캘입니다. 언어 식별을 사용하는 경우 이 로캘은 언어를 검색할 수 없는 음성을 전사하는 데 사용됩니다.

표시 이름
displayName string

개체의 표시 이름입니다.

model
model.self uri

참조된 엔터티의 위치입니다.

properties
properties TranscriptionProperties

TranscriptionProperties

Name 경로 형식 Description
diarizationEnabled
diarizationEnabled boolean

설사(화자 식별)가 요청되었는지 여부를 나타내는 값입니다. 기본값입니다 false. 이 필드만 true로 설정되고 지정된 것으로 향상된 다이어리화 시스템을 사용할 수DiarizationProperties 없는 경우 기본 다이어리화 시스템은 최대 2개의 스피커를 구분합니다. 이 경우 Noextra 요금이 적용됩니다. 향상된 다이어리화 시스템은 구성 가능한 범위의 스피커에 대한 다이어리화를 제공합니다. 필드에서 구성할 DiarizationProperties 수 있습니다. 사용되지 않음: 기본 다이어리 시스템은 더 이상 사용되지 않으며 API의 다음 주 버전에서 설정과diarizationEnabled 함께 제거됩니다.

wordLevelTimestampsEnabled
wordLevelTimestampsEnabled boolean

단어 수준 타임스탬프가 요청되는지 여부를 나타내는 값입니다. 기본값은false

displayFormWordLevelTimestampsEnabled
displayFormWordLevelTimestampsEnabled boolean

표시 폼의 단어 수준 타임스탬프가 요청되는지 여부를 나타내는 값입니다. 기본값은 false입니다.

channels
channels array of integer

요청된 채널 번호의 컬렉션입니다. 기본 사례에서는 채널 0과 1이 고려됩니다.

destinationContainerUrl
destinationContainerUrl uri

요청된 대상 컨테이너.### 주의 사항 ###When 대상 컨테이너가 함께 timeToLive사용되며, atranscription의 메타데이터는 정상적으로 삭제되지만, 이 컨테이너에 대한 삭제 권한이 필요하지 않으므로 대상 컨테이너에 저장된 데이터(설명 결과 포함)는 그대로 유지됩니다.
자동 정리를 지원하려면 컨테이너에서 Blob 수명을 구성하거나 Blob을 정리할 수 있는 위치 대신 destinationContainerUrl"BYOS(Bring Your Own Storage)"를 사용합니다.

punctuationMode
punctuationMode PunctuationMode

문장 부호에 사용되는 모드입니다.

profanityFilterMode
profanityFilterMode ProfanityFilterMode

욕설 필터링 모드입니다.

timeToLive
timeToLive string

전사가 완료된 후 시스템에 보관되는 기간입니다. 완료(성공 또는 실패)가 완료된 후 라이브 시간에 도달하면 자동으로 삭제됩니다. 이 값을 설정하거나 0으로 설정하지 않으면 자동 삭제가 비활성화됩니다. 가장 긴 지원되는 방법은 31일입니다. 기간은 ISO 8601 기간으로 인코딩됩니다("PnYnMnDTnHnMnS", 참조 https://en.wikipedia.org/wiki/ISO_8601#Durations).

다이어리화
diarization DiarizationProperties
언어 식별 -
languageIdentification LanguageIdentificationProperties
메일 주소
email string

작업이 완료된 경우 전자 메일 알림을 보낼 전자 메일 주소입니다. 전자 메일을 성공적으로 보낸 후 값이 제거됩니다.