Azure Speech to Text API 사용

완료됨

Azure Speech Service는 다음 기능을 통해 음성 인식을 지원합니다.

  • 실시간 대화 내용 기록: 라이브 오디오 입력에 대한 중간 결과를 포함한 빠른 대화 내용 기록.
  • 빠른 대화기록: 예상 가능한 대기 시간이 있는 상황에서 가장 빠른 동기식 출력입니다.
  • 일괄 대화 내용 기록: 대량의 사전 녹음된 오디오를 효율적으로 처리합니다.
  • 사용자 지정 음성: 특정 도메인 및 조건에 대한 정확도가 향상된 모델입니다.

Azure Speech SDK 사용

특정 세부 정보는 사용되는 SDK(Python, C#등)에 따라 달라집니다. Speech to text API를 사용하는 일관된 패턴이 있습니다.

SpeechConfig 및 AudioConfig에서 SpeechRecognizer 개체를 만들고 해당 RecognizeOnceAsync 메서드를 사용하여 Speech API를 호출하는 방법을 보여 주는 다이어그램입니다.

  1. SpeechConfig 개체를 사용하여 Azure Speech 리소스에 연결하는 데 필요한 정보를 캡슐화합니다. 특히 그것의 위치주요 요소입니다.
  2. 선택적으로 AudioConfig를 사용하여 전사할 오디오의 입력 원본을 정의할 수 있습니다. 기본적으로 이는 기본 시스템 마이크이지만 오디오 파일을 지정할 수도 있습니다.
  3. SpeechConfigAudioConfig를 사용하여 SpeechRecognizer 개체를 만듭니다. 이 개체는 Speech to text API의 프록시 클라이언트입니다.
  4. SpeechRecognizer 개체의 메서드를 사용하여 기본 API 함수를 호출합니다. 예를 들어 RecognizeOnceAsync() 메서드는 Azure Speech Service를 사용하여 단일 음성 발화를 비동기적으로 기록합니다.
  5. Azure Speech Service에서 응답을 처리합니다. RecognizeOnceAsync() 메서드의 경우 결과는 다음 속성을 포함하는 SpeechRecognitionResult 개체입니다.
    • 기간
    • OffsetInTicks
    • 속성
    • 이유
    • ResultId
    • 문자 메시지

작업이 성공하면 Reason 속성에 열거된 값 RecognizedSpeech가 있고 Text 속성에 전사가 포함됩니다. 결과에 사용할 수 있는 다른 값으로는 NoMatch(오디오가 성공적으로 구문 분석되었지만 음성이 인식되지 않았음을 나타낸 경우) 또는 오류가 발생했음을 나타내는 Canceled가 있습니다(이 경우 CancellationReason 속성의 Properties 컬렉션을 확인하여 무엇이 잘못되었는지 확인할 수 있습니다).