Azure Speech to Text API 사용
Azure Speech Service는 다음 기능을 통해 음성 인식을 지원합니다.
- 실시간 대화 내용 기록: 라이브 오디오 입력에 대한 중간 결과를 포함한 빠른 대화 내용 기록.
- 빠른 대화기록: 예상 가능한 대기 시간이 있는 상황에서 가장 빠른 동기식 출력입니다.
- 일괄 대화 내용 기록: 대량의 사전 녹음된 오디오를 효율적으로 처리합니다.
- 사용자 지정 음성: 특정 도메인 및 조건에 대한 정확도가 향상된 모델입니다.
Azure Speech SDK 사용
특정 세부 정보는 사용되는 SDK(Python, C#등)에 따라 달라집니다. Speech to text API를 사용하는 일관된 패턴이 있습니다.
- SpeechConfig 개체를 사용하여 Azure Speech 리소스에 연결하는 데 필요한 정보를 캡슐화합니다. 특히 그것의 위치와 주요 요소입니다.
- 선택적으로 AudioConfig를 사용하여 전사할 오디오의 입력 원본을 정의할 수 있습니다. 기본적으로 이는 기본 시스템 마이크이지만 오디오 파일을 지정할 수도 있습니다.
- SpeechConfig 및 AudioConfig를 사용하여 SpeechRecognizer 개체를 만듭니다. 이 개체는 Speech to text API의 프록시 클라이언트입니다.
- SpeechRecognizer 개체의 메서드를 사용하여 기본 API 함수를 호출합니다. 예를 들어 RecognizeOnceAsync() 메서드는 Azure Speech Service를 사용하여 단일 음성 발화를 비동기적으로 기록합니다.
- Azure Speech Service에서 응답을 처리합니다.
RecognizeOnceAsync() 메서드의 경우 결과는 다음 속성을 포함하는 SpeechRecognitionResult 개체입니다.
- 기간
- OffsetInTicks
- 속성
- 이유
- ResultId
- 문자 메시지
작업이 성공하면 Reason 속성에 열거된 값 RecognizedSpeech가 있고 Text 속성에 전사가 포함됩니다. 결과에 사용할 수 있는 다른 값으로는 NoMatch(오디오가 성공적으로 구문 분석되었지만 음성이 인식되지 않았음을 나타낸 경우) 또는 오류가 발생했음을 나타내는 Canceled가 있습니다(이 경우 CancellationReason 속성의 Properties 컬렉션을 확인하여 무엇이 잘못되었는지 확인할 수 있습니다).