다음을 통해 공유


AssemblyAI(미리 보기)

AssemblyAI의 Speech AI를 사용하여 오디오에서 데이터를 전사하고 추출합니다.

이 커넥터는 다음 제품 및 지역에서 사용할 수 있습니다.

서비스 클래스 Regions
Copilot Studio Premium 다음을 제외한 모든 Power Automate 지역 :
     - 미국 정부(GCC)
     - 미국 정부(GCC High)
     - 21Vianet에서 운영하는 중국 클라우드
     - 미국 국방부(DoD)
논리 앱 스탠다드 다음을 제외한 모든 Logic Apps 지역 :
     - Azure Government 지역
     - Azure 중국 지역
     - 미국 국방부(DoD)
Power Apps Premium 다음을 제외한 모든 Power Apps 지역 :
     - 미국 정부(GCC)
     - 미국 정부(GCC High)
     - 21Vianet에서 운영하는 중국 클라우드
     - 미국 국방부(DoD)
Power Automate Premium 다음을 제외한 모든 Power Automate 지역 :
     - 미국 정부(GCC)
     - 미국 정부(GCC High)
     - 21Vianet에서 운영하는 중국 클라우드
     - 미국 국방부(DoD)
연락처
이름 Support
URL https://www.assemblyai.com/docs/
전자 메일 support@assemblyai.com
커넥터 메타데이터
게시자 AssemblyAI
웹 사이트 https://www.assemblyai.com
개인 정보 보호 정책 https://www.assemblyai.com/legal/privacy-policy
카테고리 AI

AssemblyAI 커넥터를 사용하면 AssemblyAI 모델을 사용하여 음성 인식 모델로 전사하고, 오디오 인텔리전스 모델로 분석하고, LLM을 사용하여 생성 기능을 빌드하여 오디오 데이터를 처리할 수 있습니다.

  • 화자 다이어리화, 사용자 지정 맞춤법, 사용자 지정 어휘 등과 같은 구성 가능한 많은 기능을 포함하는 음성 텍스트 변환
  • 오디오 인텔리전스 모델은 전사 구성을 통해 사용 가능하고 구성된 추가 AI 모델입니다.
  • LeMUR 를 사용하면 매우 큰 대본을 위해 고유한 RAG 인프라를 빌드할 필요 없이 다양한 LLM 모델을 대본에 적용할 수 있습니다.

필수 조건

계속하려면 다음이 필요합니다.

자격 증명을 가져오는 방법

계정에 등록하고 대시보드에서 API 키를 복사하여 AssemblyAI API 키를 무료로 가져올 수 있습니다.

커넥터 시작

다음 단계에 따라 AssemblyAI 커넥터를 사용하여 오디오를 전사합니다.

파일 업로드

AssemblyAI를 사용하여 오디오 파일을 전사하려면 AssemblyAI에서 파일에 액세스할 수 있어야 합니다. 오디오 파일이 URL을 통해 이미 액세스할 수 있는 경우 기존 URL을 사용할 수 있습니다.

그렇지 않으면 작업을 사용하여 Upload a File AssemblyAI에 파일을 업로드할 수 있습니다. API 키를 사용하여 전사하는 데만 사용할 수 있는 파일의 URL을 다시 가져옵니다. 파일을 전사하면 파일이 AssemblyAI의 서버에서 제거됩니다.

오디오 전사

오디오를 전사하려면 오디오 파일 URL을 Audio URL 사용하여 매개 변수를 구성합니다. 그런 다음 더 많은 음성 인식 기능 및 오디오 인텔리전스 모델을 사용하도록 추가 매개 변수를 구성합니다.

오디오 전사 작업의 결과는 즉시 처리되기 시작하는 대기 중인 대본입니다. 완료된 대본을 얻으려면 다음 두 가지 옵션이 있습니다.

  1. 대본 준비 웹후크 처리
  2. 성적 증명서 상태 폴링

대본 준비 웹후크 처리

Logic Apps 또는 Power Automate를 사용하여 웹후크를 처리하지 않으려면 작업에서 Transcribe Audio 매개 변수를 구성 Webhook URL 하고 AssemblyAI의 웹후크 설명서에 따라 웹후크를 구현합니다.

Logic Apps 또는 Power Automate를 사용하여 웹후크를 처리하려면 다음 단계를 수행합니다.

  1. 별도의 논리 앱 또는 Power Automate Flow 만들기

  2. 트리거로 구성 When an HTTP request is received :

    • Who Can Trigger The Flow?Anyone로 설정
    • 다음으로 설정합니다 Request Body JSON Schema .
      {
        "type": "object",
        "properties": {
          "transcript_id": {
            "type": "string"
          },
          "status": {
            "type": "string"
          }
        }
      }
      
    • MethodPOST로 설정
  3. 트리거 Transcript ID 에서 매개 변수로 전달하는 transcript_id AssemblyAI Get Transcript 작업을 추가합니다.

  4. 다른 작업을 수행하기 전에 is completed 또는 Statuserror. 출력의 Condition 내용이 다음과 같은지 StatusGet Transcript 확인하는 작업을 추가합니다 error.

    • 분기에서 True 작업 추가 Terminate
      • 다음으로 Status 설정 Failed
      • 다음으로 Code 설정 Transcript Error
      • 출력에서 ErrorGet Transcript 매개 변수로 전달합니다 Message .
    • 분기를 비워 둘 False 수 있습니다.

    이제 기록 상태가 확인되면 completed작업을 Condition 추가할 수 있으며 작업의 출력 속성을 Get Transcript 검색할 수 있습니다.

  5. 논리 앱 또는 흐름을 저장합니다. HTTP URL 트리거에 대해 When an HTTP request is received 생성됩니다. 복사한 후 HTTP URL 원래 논리 앱 또는 흐름으로 돌아갑니다.

  6. 원래 논리 앱 또는 흐름에서 작업을 업데이트합니다 Transcribe Audio . 이전에 복사한 HTTP URL 매개 변수를 매개 변수에 Webhook URL 붙여넣고 저장합니다.

성적 증명서 상태가 되거나 completederror, AssemblyAI가 웹후크 URL에 HTTP POST 요청을 보내면 다른 논리 앱 또는 흐름에서 처리됩니다.

웹후크를 사용하는 대신 다음 섹션에서 설명한 대로 성적 증명서 상태를 폴링할 수 있습니다.

성적 증명서 상태 폴링

다음 단계를 사용하여 성적 증명서 상태를 폴링할 수 있습니다.

  • Initialize variable 작업 추가

    • Nametranscript_status로 설정
    • TypeString로 설정
    • 출력의 StatusTranscribe Audio 매개 변수에 Value 저장
  • Do until 작업 추가

    • Loop Until 다음 Fx 코드를 사용하여 매개 변수를 구성합니다.
      or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
      
      이 코드는 completederror변수가 있는지 여부를 transcript_status 확인합니다.
    • 매개 변수를 다음으로 구성합니다.Count86400
    • 매개 변수를 다음으로 구성합니다.TimeoutPT24H

    Do until 작업 내에 다음 작업을 추가합니다.

    • 1 Delay 초 동안 대기하는 작업 추가
    • Get Transcript 작업을 추가하고 출력에서 IDTranscribe Audio 매개 변수로 Transcript ID 전달합니다.
    • Set variable 작업 추가
      • Nametranscript_status로 설정
      • 출력을 StatusGet Transcript 매개 변수에 전달합니다 Value .

    스크립트가 Do until 완료되거나 오류가 발생할 때까지 루프가 계속됩니다.

  • 이전과 같이 다른 Get Transcript 작업을 추가하지만 루프 후에 Do until 추가하면 해당 출력이 작업 범위 Do until 밖에서 사용할 수 있게 됩니다.

다른 작업을 수행하기 전에 대본 Statuscompletederror이 있는지 여부를 확인해야 합니다. 다음이 Condition 있는지 transcript_status 확인하는 작업을 추가합니다.error

  • 분기에서 True 작업 추가 Terminate
    • StatusFailed로 설정
    • CodeTranscript Error로 설정
    • 출력에서 ErrorGet Transcript 매개 변수로 전달합니다 Message .
  • 분기를 비워 둘 False 수 있습니다.

이제 기록 상태가 확인되면 completed작업을 Condition 추가할 수 있으며 작업의 출력 속성을 Get Transcript 검색할 수 있습니다.

더 많은 작업 추가

이제 전사가 완료되었으므로 다음과 같이 대본을 전달하는 ID 다른 많은 작업을 사용할 수 있습니다.

  • Get Sentences of Transcript
  • Get Paragraphs of Transcript
  • Get Subtitles of Transcript
  • Get Redacted Audio
  • Search Transcript for Words
  • Run a Task using LeMUR

알려진 문제 및 제한 사항

현재 알려진 문제가 없습니다. 사용자 지정 커넥터를 사용할 수 없으므로 스트리밍 음성To-Text(실시간)는 지원하지 않습니다.

일반적인 오류 및 해결

AssemblyAI 설명서에서 오류에 대한 자세한 정보를 찾을 수 있습니다.

자주 묻는 질문(FAQ)

설명서에서 자주 묻는 질문을 찾을 수 있습니다.

연결을 만드는 중

커넥터는 다음 인증 유형을 지원합니다.

기본값 연결을 만들기 위한 매개 변수입니다. 모든 지역 공유할 수 없음

기본값

적용 가능: 모든 지역

연결을 만들기 위한 매개 변수입니다.

공유 가능한 연결이 아닙니다. 전원 앱이 다른 사용자와 공유되면 다른 사용자에게 새 연결을 명시적으로 만들라는 메시지가 표시됩니다.

이름 유형 Description 필수
AssemblyAI API 키 시큐어스트링 (보안 문자열) AssemblyAI API를 인증하는 AssemblyAI API 키입니다. 진실

제한 한도

Name 호출 갱신 기간
연결당 API 호출 100 60초

동작

LeMUR 요청 데이터 제거

이전에 제출된 LeMUR 요청에 대한 데이터를 삭제합니다. LLM 응답 데이터와 원래 요청에 제공된 모든 컨텍스트가 제거됩니다.

LeMUR 응답 검색

이전에 생성된 LeMUR 응답을 검색합니다.

LeMUR를 사용하여 작업 실행

LeMUR 작업 엔드포인트를 사용하여 사용자 고유의 LLM 프롬프트를 입력합니다.

대본 가져오기

기록 리소스를 가져옵니다. "상태"가 "완료"되면 대본이 준비됩니다.

대본 삭제

대본을 삭제합니다. 삭제는 리소스 자체를 삭제하지 않지만 리소스에서 데이터를 제거하고 삭제된 것으로 표시합니다.

대본에 대한 자막 가져오기

자막 및 선택 자막에 비디오 플레이어와 함께 사용할 수 있도록 SRT 또는 VTT 형식으로 대본을 내보냅니다.

대본에서 단락 가져오기

단락으로 분할된 대본을 가져옵니다. API는 더 읽기 쉬운 대본을 만들기 위해 대본을 단락으로 의미적으로 분할하려고 시도합니다.

대본에서 단어 검색

대본에서 키워드를 검색합니다. 최대 5개의 단어 또는 숫자를 포함하는 개별 단어, 숫자 또는 구를 검색할 수 있습니다.

대본에서 문장 가져오기

문장으로 분할된 대본을 가져옵니다. API는 더 읽기 쉬운 대본을 만들기 위해 대본을 문장으로 의미적으로 분할하려고 시도합니다.

미디어 파일 업로드

AssemblyAI의 서버에 미디어 파일을 업로드합니다.

성적 증명서 나열

만든 대본 목록을 검색합니다. 대본은 최신에서 가장 오래된 내용으로 정렬됩니다. 이전 URL은 항상 이전 대본이 있는 페이지를 가리킵니다.

오디오 전사

URL을 통해 액세스할 수 있는 미디어 파일에서 대본을 만듭니다.

편집된 오디오 가져오기

수정된 오디오에 대한 상태 및 URL이 포함된 수정된 오디오 개체를 검색합니다.

LeMUR 요청 데이터 제거

이전에 제출된 LeMUR 요청에 대한 데이터를 삭제합니다. LLM 응답 데이터와 원래 요청에 제공된 모든 컨텍스트가 제거됩니다.

매개 변수

Name 필수 형식 Description
LeMUR 요청 ID
request_id True string

삭제할 데이터가 있는 LeMUR 요청의 ID입니다. 원래 요청의 응답에서 찾을 수 있습니다.

반환

LeMUR 응답 검색

이전에 생성된 LeMUR 응답을 검색합니다.

매개 변수

Name 필수 형식 Description
LeMUR 요청 ID
request_id True string

이전에 만든 LeMUR 요청의 ID입니다. 원래 요청의 응답에서 찾을 수 있습니다.

반환

LeMUR를 사용하여 작업 실행

LeMUR 작업 엔드포인트를 사용하여 사용자 고유의 LLM 프롬프트를 입력합니다.

매개 변수

Name 필수 형식 Description
프롬프트
prompt True string

모델에 전달하려는 컨텍스트를 포함하여 원하는 출력을 생성하라는 메시지를 표시하는 텍스트입니다.

대본 ID
transcript_ids array of uuid

텍스트가 포함된 완료된 대본 목록입니다. 최대 100개의 파일 또는 100시간 중 더 낮은 파일 leMUR에 대한 입력으로 transcript_ids 또는 input_text 사용합니다.

입력 텍스트
input_text string

사용자 지정 형식의 기록 데이터입니다. 최대 크기는 선택한 모델의 컨텍스트 제한이며 기본값은 100000입니다. leMUR에 대한 입력으로 transcript_ids 또는 input_text 사용합니다.

컨텍스트
context string

모델을 제공하는 컨텍스트입니다. 문자열 또는 자유 형식 JSON 값일 수 있습니다.

최종 모델
final_model string

압축이 수행된 후 최종 프롬프트에 사용되는 모델입니다.

최대 출력 크기
max_output_size integer

토큰의 최대 출력 크기(최대 4,000개)

온도
temperature float

모델에 사용할 온도입니다. 값이 높을수록 더 창의적인 답변이 생성되고, 값이 낮을수록 더 보수적입니다. 0.0에서 1.0 사이의 값을 포함할 수 있습니다.

반환

대본 가져오기

기록 리소스를 가져옵니다. "상태"가 "완료"되면 대본이 준비됩니다.

매개 변수

Name 필수 형식 Description
대본 ID
transcript_id True string

대본의 ID

반환

대본 개체

대본 삭제

대본을 삭제합니다. 삭제는 리소스 자체를 삭제하지 않지만 리소스에서 데이터를 제거하고 삭제된 것으로 표시합니다.

매개 변수

Name 필수 형식 Description
대본 ID
transcript_id True string

대본의 ID

반환

대본 개체

대본에 대한 자막 가져오기

자막 및 선택 자막에 비디오 플레이어와 함께 사용할 수 있도록 SRT 또는 VTT 형식으로 대본을 내보냅니다.

매개 변수

Name 필수 형식 Description
대본 ID
transcript_id True string

대본의 ID

부제 형식
subtitle_format True string

자막 형식

캡션당 문자 수
chars_per_caption integer

캡션당 최대 문자 수

반환

response
string

대본에서 단락 가져오기

단락으로 분할된 대본을 가져옵니다. API는 더 읽기 쉬운 대본을 만들기 위해 대본을 단락으로 의미적으로 분할하려고 시도합니다.

매개 변수

Name 필수 형식 Description
대본 ID
transcript_id True string

대본의 ID

반환

대본에서 단어 검색

대본에서 키워드를 검색합니다. 최대 5개의 단어 또는 숫자를 포함하는 개별 단어, 숫자 또는 구를 검색할 수 있습니다.

매개 변수

Name 필수 형식 Description
대본 ID
transcript_id True string

대본의 ID

단어
words True array

검색할 키워드

반환

대본에서 문장 가져오기

문장으로 분할된 대본을 가져옵니다. API는 더 읽기 쉬운 대본을 만들기 위해 대본을 문장으로 의미적으로 분할하려고 시도합니다.

매개 변수

Name 필수 형식 Description
대본 ID
transcript_id True string

대본의 ID

반환

미디어 파일 업로드

AssemblyAI의 서버에 미디어 파일을 업로드합니다.

매개 변수

Name 필수 형식 Description
File Content(파일 내용)
file True binary

업로드할 파일입니다.

반환

성적 증명서 나열

만든 대본 목록을 검색합니다. 대본은 최신에서 가장 오래된 내용으로 정렬됩니다. 이전 URL은 항상 이전 대본이 있는 페이지를 가리킵니다.

매개 변수

Name 필수 형식 Description
한계
limit integer

검색할 최대 대본 양

상태
status string

성적 증명서의 상태입니다. 가능한 값은 큐에 대기, 처리, 완료 또는 오류입니다.

생성 일자
created_on date

이 날짜에 만든 대본만 가져옵니다.

이전 ID
before_id uuid

이 대본 ID 이전에 생성된 대본 가져오기

ID 이후
after_id uuid

이 대본 ID 후에 만들어진 대본 가져오기

제한된 경우에만
throttled_only boolean

제한된 대본만 가져와 상태 필터를 재정의합니다.

반환

대본 목록입니다. 대본은 최신에서 가장 오래된 내용으로 정렬됩니다. 이전 URL은 항상 이전 대본이 있는 페이지를 가리킵니다.

오디오 전사

URL을 통해 액세스할 수 있는 미디어 파일에서 대본을 만듭니다.

매개 변수

Name 필수 형식 Description
오디오 URL
audio_url True string

기록할 오디오 또는 비디오 파일의 URL입니다.

언어 코드
language_code string

오디오 파일의 언어입니다. 가능한 값은 지원되는 언어에서 찾을 수 있습니다. 기본값은 'en_us'입니다.

Language Detection
language_detection boolean

true 또는 false인 자동 언어 검색을 사용하도록 설정합니다.

음성 모델
speech_model string

전사에 사용할 음성 모델입니다.

끊다
punctuate boolean

자동 문장 부호 사용, true 또는 false일 수 있습니다.

텍스트 서식 지정
format_text boolean

텍스트 서식 사용, true 또는 false일 수 있습니다.

Disfluencies
disfluencies boolean

미디어 파일에서 "um"처럼 필러 단어를 전사합니다. true 또는 false일 수 있습니다.

이중 채널
dual_channel boolean

이중 채널 전사를 사용하도록 설정하면 true 또는 false일 수 있습니다.

웹후크 URL
webhook_url string

웹후크 요청을 보내는 URL입니다. 두 가지 유형의 웹후크 요청을 보냅니다. 대본이 완료되거나 실패한 경우 한 요청과 redact_pii_audio 사용하도록 설정된 경우 수정된 오디오가 준비되면 한 요청입니다.

웹후크 인증 헤더 이름
webhook_auth_header_name string

기록 완료 또는 실패한 웹후크 요청과 함께 보낼 헤더 이름

웹후크 인증 헤더 값
webhook_auth_header_value string

추가 보안을 위해 완료되었거나 실패한 웹후크 요청과 함께 다시 보낼 헤더 값입니다.

핵심 구
auto_highlights boolean

true 또는 false 키 구 사용

오디오 시작 날짜
audio_start_from integer

미디어 파일에서 기록하기 시작하는 시점(밀리초)입니다.

오디오 끝
audio_end_at integer

미디어 파일에서 전사를 중지하는 시점(밀리초)입니다.

Word Boost
word_boost array of string

에 대한 전사 확률을 높일 사용자 지정 어휘 목록

Word Boost 수준
boost_param string

지정된 단어를 높일 수 있는 양

욕설 필터링
filter_profanity boolean

전사된 텍스트에서 욕설 필터링, true 또는 false일 수 있습니다.

PII 수정
redact_pii boolean

Redact PII 모델을 사용하여 전사된 텍스트에서 PII를 수정합니다. true 또는 false일 수 있습니다.

PII 오디오 수정
redact_pii_audio boolean

음성 PII가 "경고음"으로 표시된 원본 미디어 파일의 복사본을 생성합니다. true 또는 false일 수 있습니다. 자세한 내용은 PII 편집을 참조하세요.

PII 오디오 품질 수정
redact_pii_audio_quality string

redact_pii_audio 만든 오디오의 파일 형식을 제어합니다. 현재 mp3(기본값) 및 wav를 지원합니다. 자세한 내용은 PII 편집을 참조하세요.

PII 정책 수정
redact_pii_policies array of string

사용하도록 설정할 PII 편집 정책 목록입니다. 자세한 내용은 PII 편집을 참조하세요.

PII 대체 수정
redact_pii_sub string

검색된 PII에 대한 대체 논리는 "entity_name" 또는 "해시"일 수 있습니다. 자세한 내용은 PII 편집을 참조하세요.

화자 레이블
speaker_labels boolean

화자 다이어리화를 사용하도록 설정, true 또는 false일 수 있습니다.

스피커가 필요합니다.
speakers_expected integer

화자 레이블 모델에 식별하려고 시도하는 스피커 수를 최대 10개까지 알려줍니다. 자세한 내용은 화자 일기를 참조하세요.

콘텐츠 조정
content_safety boolean

콘텐츠 조정 사용, true 또는 false일 수 있습니다.

콘텐츠 조정 신뢰도
content_safety_confidence integer

콘텐츠 조정 모델의 신뢰도 임계값입니다. 값은 25에서 100 사이여야 합니다.

토픽 검색
iab_categories boolean

토픽 검색 사용, true 또는 false일 수 있습니다.

부터
from True array of string

바꿀 단어 또는 구

에게
to True string

바꿀 단어 또는 구

Sentiment Analysis
sentiment_analysis boolean

감정 분석 사용, true 또는 false일 수 있습니다.

자동 장
auto_chapters boolean

자동 챕터 사용, true 또는 false일 수 있습니다.

엔터티 검색
entity_detection boolean

엔터티 검색 사용, true 또는 false일 수 있습니다.

음성 임계값
speech_threshold float

이 음성 비율보다 작은 오디오 파일을 거부합니다. 유효한 값은 [0, 1] 범위에 포함됩니다.

요약 사용
summarization boolean

요약 사용, true 또는 false일 수 있습니다.

요약 모델
summary_model string

대본을 요약할 모델

요약 유형
summary_type string

요약 유형

사용자 지정 토픽 사용
custom_topics boolean

true 또는 false로 사용자 지정 토픽 사용

사용자 지정 항목
topics array of string

사용자 지정 항목 목록

반환

대본 개체

편집된 오디오 가져오기

수정된 오디오에 대한 상태 및 URL이 포함된 수정된 오디오 개체를 검색합니다.

매개 변수

Name 필수 형식 Description
대본 ID
transcript_id True string

대본의 ID

반환

정의

RedactedAudioResponse

Name 경로 형식 Description
상태
status string

수정된 오디오의 상태입니다.

수정된 오디오 URL
redacted_audio_url string

수정된 오디오 파일의 URL

WordSearchResponse

Name 경로 형식 Description
대본 ID
id uuid

대본의 ID

총 일치 항목 수
total_count integer

일치하는 모든 인스턴스의 총 수입니다. 예를 들어 단어 1이 2번 일치하고 단어 2가 3번 일치하면 total_count 5와 같습니다.

일치 항목
matches array of object

검색의 일치 항목

문자 메시지
matches.text string

일치하는 단어

수량
matches.count integer

단어가 대본에 있는 총 횟수입니다.

타임 스탬프
matches.timestamps array of array

타임스탬프 배열

시간표시
matches.timestamps array of integer

[start_time, end_time]로 구조화된 타임스탬프의 배열(밀리초)

Indexes
matches.indexes array of integer

완료된 대본의 단어 배열 내에서 해당 단어에 대한 모든 인덱스 위치의 배열입니다.

대본

대본 개체

Name 경로 형식 Description
아이디
id uuid

대본의 고유 식별자

오디오 URL
audio_url string

기록된 미디어의 URL

상태
status string

성적 증명서의 상태입니다. 가능한 값은 큐에 대기, 처리, 완료 또는 오류입니다.

언어 코드
language_code string

오디오 파일의 언어입니다. 가능한 값은 지원되는 언어에서 찾을 수 있습니다. 기본값은 'en_us'입니다.

Language Detection
language_detection boolean

자동 언어 검색이 사용되는지 여부( true 또는 false)

음성 모델
speech_model string

전사에 사용할 음성 모델입니다.

문자 메시지
text string

미디어 파일의 텍스트 대본

단어
words array of object

기록의 각 단어에 대해 하나씩 임시 순차적 단어 개체의 배열입니다. 자세한 내용은 음성 인식을 참조하세요.

신뢰
words.confidence double
Start
words.start integer
words.end integer
문자 메시지
words.text string
연설자
words.speaker string

Speaker Diarization을 사용하는 경우 문장의 화자이고, 그렇지 않으면 null입니다.

발언
utterances array of object

dual_channel 또는 speaker_labels 사용하도록 설정하면 턴 바이 턴 발화 개체 목록이 표시됩니다. 자세한 내용은 Speaker 다이어리화를 참조하세요.

신뢰
utterances.confidence double

이 발언의 대본에 대한 신뢰도 점수

Start
utterances.start integer

오디오 파일의 발화 시작 시간(밀리초)입니다.

utterances.end integer

오디오 파일의 발화 종료 시간(밀리초)입니다.

문자 메시지
utterances.text string

이 발화의 텍스트

단어
utterances.words array of object

발화의 단어입니다.

신뢰
utterances.words.confidence double
Start
utterances.words.start integer
utterances.words.end integer
문자 메시지
utterances.words.text string
연설자
utterances.words.speaker string

Speaker Diarization을 사용하는 경우 문장의 화자이고, 그렇지 않으면 null입니다.

연설자
utterances.speaker string

이 발화의 화자는 각 화자에게 순차적 대문자(예: 화자 A의 경우 "A", B 스피커의 경우 "B" 등)가 할당됩니다.

신뢰
confidence double

성적 증명서의 신뢰도 점수(0.0(낮은 신뢰도)에서 1.0(높은 신뢰도) 사이

오디오 기간
audio_duration integer

이 대본 개체의 미디어 파일 기간(초)

끊다
punctuate boolean

자동 문장 부호를 사용할 수 있는지 여부( true 또는 false)

텍스트 서식 지정
format_text boolean

텍스트 서식을 사용할 수 있는지 여부( true 또는 false)

Disfluencies
disfluencies boolean

미디어 파일에서 "um"처럼 필러 단어를 전사합니다. true 또는 false일 수 있습니다.

이중 채널
dual_channel boolean

전사 요청에서 이중 채널 전사를 사용하도록 설정했는지 여부(true 또는 false)

웹후크 URL
webhook_url string

웹후크 요청을 보내는 URL입니다. 두 가지 유형의 웹후크 요청을 보냅니다. 대본이 완료되거나 실패한 경우 한 요청과 redact_pii_audio 사용하도록 설정된 경우 수정된 오디오가 준비되면 한 요청입니다.

웹후크 HTTP 상태 코드
webhook_status_code integer

웹후크 URL이 제공된 경우 완료되었거나 실패한 웹후크 요청을 배달할 때 서버에서 받은 상태 코드

웹후크 인증 사용
webhook_auth boolean

웹후크 인증 세부 정보가 제공되었는지 여부

웹후크 인증 헤더 이름
webhook_auth_header_name string

기록 완료 또는 실패한 웹후크 요청과 함께 보낼 헤더 이름

속도 향상
speed_boost boolean

속도 향상 사용 여부

핵심 구
auto_highlights boolean

핵심 구를 사용할 수 있는지 여부( true 또는 false)

상태
auto_highlights_result.status string

성공 또는 모델이 실패한 드문 경우에서 사용할 수 없음

Results
auto_highlights_result.results array of object

핵심 구의 임시 순차 배열

수량
auto_highlights_result.results.count integer

핵심 구가 오디오 파일에 표시되는 총 횟수입니다.

등급
auto_highlights_result.results.rank float

이 핵심 구의 전체 오디오 파일과 총 관련성이 높으면 관련성이 높아진다는 의미입니다.

문자 메시지
auto_highlights_result.results.text string

핵심 구의 텍스트 자체

타임 스탬프
auto_highlights_result.results.timestamps array of object

핵심 구의 타임스탬프

Start
auto_highlights_result.results.timestamps.start integer

시작 시간(밀리초)

auto_highlights_result.results.timestamps.end integer

종료 시간(밀리초)

오디오 시작 날짜
audio_start_from integer

전사가 시작된 파일의 시간(밀리초)입니다.

오디오 끝
audio_end_at integer

전사가 종료된 파일의 지정 시간(밀리초)입니다.

Word Boost
word_boost array of string

에 대한 전사 확률을 높일 사용자 지정 어휘 목록

부스트
boost_param string

boost 매개 변수 값이라는 단어

욕설 필터링
filter_profanity boolean

욕설 필터링을 사용할 수 있는지 여부( true 또는 false)

PII 수정
redact_pii boolean

PII 편집을 사용할 수 있는지 여부( true 또는 false)

PII 오디오 수정
redact_pii_audio boolean

수정된 버전의 오디오 파일이 생성되었는지 여부(true 또는 false)입니다. 자세한 내용은 PII 편집을 참조하세요.

PII 오디오 품질 수정
redact_pii_audio_quality string

redact_pii_audio 만든 오디오의 파일 형식을 제어합니다. 현재 mp3(기본값) 및 wav를 지원합니다. 자세한 내용은 PII 편집을 참조하세요.

PII 정책 수정
redact_pii_policies array of string

PII 편집을 사용하도록 설정된 경우 활성화된 PII 편집 정책 목록입니다. 자세한 내용은 PII 편집을 참조하세요.

PII 대체 수정
redact_pii_sub string

검색된 PII에 대한 대체 논리는 "entity_name" 또는 "해시"일 수 있습니다. 자세한 내용은 PII 편집을 참조하세요.

화자 레이블
speaker_labels boolean

Speaker diarization이 사용되는지 여부, true 또는 false일 수 있습니다.

스피커가 필요합니다.
speakers_expected integer

화자 레이블 모델에 식별을 시도해야 하는 스피커 수를 최대 10개까지 알 수 있습니다. 자세한 내용은 화자 일기를 참조하세요.

콘텐츠 조정
content_safety boolean

콘텐츠 조정 사용 여부, true 또는 false일 수 있습니다.

상태
content_safety_labels.status string

성공 또는 모델이 실패한 드문 경우에서 사용할 수 없음

Results
content_safety_labels.results array of object
문자 메시지
content_safety_labels.results.text string

콘텐츠 조정 모델에 의해 플래그가 지정된 섹션의 대본

Labels
content_safety_labels.results.labels array of object

섹션에서 검색된 중요한 항목당 하나씩 안전 레이블 배열

라벨
content_safety_labels.results.labels.label string

중요한 토픽의 레이블

신뢰
content_safety_labels.results.labels.confidence double

논의 중인 항목의 신뢰도 점수(0에서 1까지)

심각도
content_safety_labels.results.labels.severity double

0에서 1까지의 섹션에서 토픽이 얼마나 심각하게 설명되는지

문장 인덱스 시작
content_safety_labels.results.sentences_idx_start integer

섹션이 시작되는 문장 인덱스

문장 인덱스 끝
content_safety_labels.results.sentences_idx_end integer

섹션이 끝나는 문장 인덱스

Start
content_safety_labels.results.timestamp.start integer

시작 시간(밀리초)

content_safety_labels.results.timestamp.end integer

종료 시간(밀리초)

요약
content_safety_labels.summary object

전체 오디오 파일에 대한 콘텐츠 조정 신뢰도 결과의 요약

심각도 점수 요약
content_safety_labels.severity_score_summary object

전체 오디오 파일에 대한 콘텐츠 조정 심각도 결과의 요약

토픽 검색
iab_categories boolean

토픽 검색 사용 여부, true 또는 false일 수 있습니다.

상태
iab_categories_result.status string

성공 또는 모델이 실패한 드문 경우에서 사용할 수 없음

Results
iab_categories_result.results array of object

토픽 검색 모델에 대한 결과 배열

문자 메시지
iab_categories_result.results.text string

검색된 토픽이 발생하는 대본의 텍스트

Labels
iab_categories_result.results.labels array of object
연관성
iab_categories_result.results.labels.relevance double

검색된 토픽이 검색된 항목과 얼마나 관련이 있는지

라벨
iab_categories_result.results.labels.label string

검색된 토픽의 레이블에 대한 IAB 분류 레이블입니다. 여기서 > 는 초고속/하위 항목 관계를 나타냄

Start
iab_categories_result.results.timestamp.start integer

시작 시간(밀리초)

iab_categories_result.results.timestamp.end integer

종료 시간(밀리초)

요약
iab_categories_result.summary object

전체 오디오 파일과 토픽의 전반적인 관련성

사용자 지정 맞춤법 검사
custom_spelling array of object

값을 사용하여 단어의 맞춤법 및 서식 지정 방법 사용자 지정

부터
custom_spelling.from array of string

바꿀 단어 또는 구

에게
custom_spelling.to string

바꿀 단어 또는 구

자동 챕터 사용
auto_chapters boolean

자동 챕터 사용 여부, true 또는 false일 수 있습니다.

챕터
chapters array of object

오디오 파일에 대한 임시 순차 챕터의 배열입니다.

Gist
chapters.gist string

챕터에서 말한 내용의 매우 짧은 요약(단 몇 단어)입니다.

표제
chapters.headline string

챕터에서 말한 내용의 단일 문장 요약

요약
chapters.summary string

챕터에서 말한 내용의 한 단락 요약

Start
chapters.start integer

챕터의 시작 시간(밀리초)입니다.

chapters.end integer

챕터의 시작 시간(밀리초)입니다.

요약 사용
summarization boolean

요약을 사용할 수 있는지 여부( true 또는 false)

요약 유형
summary_type string

요약을 사용하도록 설정된 경우 생성된 요약의 형식입니다.

요약 모델
summary_model string

요약을 사용하는 경우 요약을 생성하는 데 사용되는 요약 모델

요약
summary string

요약을 사용하는 경우 생성된 미디어 파일 요약

사용자 지정 항목 사용
custom_topics boolean

사용자 지정 토픽을 사용할 수 있는지 여부(true 또는 false)

토픽
topics array of string

사용자 지정 토픽을 사용하는 경우 제공되는 사용자 지정 항목 목록

Sentiment Analysis
sentiment_analysis boolean

감정 분석을 사용할 수 있는지 여부, true 또는 false일 수 있습니다.

감정 분석 결과
sentiment_analysis_results array of object

감정 분석 모델이 활성화된 경우 결과 배열입니다. 자세한 내용은 감정 분석을 참조하세요.

문자 메시지
sentiment_analysis_results.text string

문장의 녹취록

Start
sentiment_analysis_results.start integer

문장의 시작 시간(밀리초)입니다.

sentiment_analysis_results.end integer

문장의 종료 시간(밀리초)입니다.

관심도
sentiment_analysis_results.sentiment

문장에 대해 감지된 감정, 긍정, 중립, 부정 중 하나

신뢰
sentiment_analysis_results.confidence double

문장의 감지된 감정에 대한 신뢰도 점수(0에서 1까지)

연설자
sentiment_analysis_results.speaker string

Speaker Diarization을 사용하는 경우 문장의 화자이고, 그렇지 않으면 null입니다.

엔터티 검색
entity_detection boolean

엔터티 검색이 사용되는지 여부, true 또는 false일 수 있습니다.

Entities
entities array of object

엔터티 검색 모델이 활성화된 경우 결과 배열입니다. 자세한 내용은 엔터티 검색을 참조하세요.

엔터티 형식
entities.entity_type string

검색된 엔터티의 엔터티 형식

문자 메시지
entities.text string

검색된 엔터티에 대한 텍스트입니다.

Start
entities.start integer

검색된 엔터티가 오디오 파일에 표시되는 시작 시간(밀리초)입니다.

entities.end integer

오디오 파일에서 검색된 엔터티의 종료 시간(밀리초)

음성 임계값
speech_threshold float

기본값은 null입니다. 이 음성 비율보다 작은 오디오 파일을 거부합니다. 유효한 값은 [0, 1] 범위에 포함됩니다.

제어된
throttled boolean

요청이 더 이상 제한되지 않는 경우 요청이 제한되고 false인 동안 True입니다.

오류
error string

녹취록이 실패한 이유의 오류 메시지

언어 모델
language_model string

대본에 사용된 언어 모델

음향 모델
acoustic_model string

대본에 사용된 음향 모델

SentencesResponse

Name 경로 형식 Description
대본 ID
id uuid
신뢰
confidence double
오디오 기간
audio_duration number
문장
sentences array of object
문자 메시지
sentences.text string
Start
sentences.start integer
sentences.end integer
신뢰
sentences.confidence double
단어
sentences.words array of object
신뢰
sentences.words.confidence double
Start
sentences.words.start integer
sentences.words.end integer
문자 메시지
sentences.words.text string
연설자
sentences.words.speaker string

Speaker Diarization을 사용하는 경우 문장의 화자이고, 그렇지 않으면 null입니다.

연설자
sentences.speaker string

Speaker Diarization을 사용하는 경우 문장의 화자이고, 그렇지 않으면 null입니다.

ParagraphsResponse

Name 경로 형식 Description
대본 ID
id uuid
신뢰
confidence double
오디오 기간
audio_duration number
Paragraphs
paragraphs array of object
문자 메시지
paragraphs.text string
Start
paragraphs.start integer
paragraphs.end integer
신뢰
paragraphs.confidence double
단어
paragraphs.words array of object
신뢰
paragraphs.words.confidence double
Start
paragraphs.words.start integer
paragraphs.words.end integer
문자 메시지
paragraphs.words.text string
연설자
paragraphs.words.speaker string

Speaker Diarization을 사용하는 경우 문장의 화자이고, 그렇지 않으면 null입니다.

연설자
paragraphs.speaker string

Speaker Diarization을 사용하는 경우 문장의 화자이고, 그렇지 않으면 null입니다.

TranscriptList

대본 목록입니다. 대본은 최신에서 가장 오래된 내용으로 정렬됩니다. 이전 URL은 항상 이전 대본이 있는 페이지를 가리킵니다.

Name 경로 형식 Description
한계
page_details.limit integer

이 페이지가 제한되는 결과 수

결과 수
page_details.result_count integer

페이지의 실제 결과 수

현재 URL
page_details.current_url string

기록의 현재 페이지를 검색하는 데 사용되는 URL입니다.

이전 URL
page_details.prev_url string

대본의 다음 페이지에 대한 URL입니다. 이전 URL은 항상 이전 대본이 있는 페이지를 가리킵니다.

다음 URL
page_details.next_url string

대본의 다음 페이지에 대한 URL입니다. 다음 URL은 항상 최신 대본이 있는 페이지를 가리킵니다.

Transcripts
transcripts array of object
아이디
transcripts.id uuid
리소스 URL
transcripts.resource_url string
상태
transcripts.status string

성적 증명서의 상태입니다. 가능한 값은 큐에 대기, 처리, 완료 또는 오류입니다.

생성됨
transcripts.created string
완료됨
transcripts.completed string
오디오 URL
transcripts.audio_url string
오류
transcripts.error string

녹취록이 실패한 이유의 오류 메시지

UploadedFile

Name 경로 형식 Description
업로드된 파일 URL
upload_url string

AssemblyAI의 서버에서만 액세스할 수 있는 오디오 파일을 가리키는 URL

PurgeLemurRequestDataResponse

Name 경로 형식 Description
요청 ID 제거
request_id uuid

LeMUR 요청의 삭제 요청 ID

제거에 대한 LeMUR 요청 ID
request_id_to_purge uuid

에 대한 데이터를 제거하는 LeMUR 요청의 ID입니다.

삭제됨
deleted boolean

요청 데이터가 삭제되었는지 여부

LemurTaskResponse

Name 경로 형식 Description
응답
response string

LeMUR에 의해 생성된 응답입니다.

LeMUR 요청 ID
request_id uuid

LeMUR 요청의 ID

입력 토큰
usage.input_tokens integer

모델에서 사용하는 입력 토큰 수

출력 토큰
usage.output_tokens integer

모델에서 생성된 출력 토큰 수

LemurResponse

Name 경로 형식 Description
응답
response string

LeMUR에 의해 생성된 응답입니다.

LeMUR 요청 ID
request_id uuid

LeMUR 요청의 ID

입력 토큰
usage.input_tokens integer

모델에서 사용하는 입력 토큰 수

출력 토큰
usage.output_tokens integer

모델에서 생성된 출력 토큰 수

문자열

기본 데이터 형식 'string'입니다.