Use a API de Voz para Texto do Azure

5 minutos

O serviço Azure Speech suporta reconhecimento de voz através das seguintes funcionalidades:

Transcrição em tempo real: Transcrição instantânea com resultados intermediários para entradas de áudio ao vivo.
Transcrição rápida: saída síncrona mais rápida para situações com latência previsível.
Transcrição em lote: Processamento eficiente para grandes volumes de áudio pré-gravado.
Fala personalizada: modelos com precisão aprimorada para domínios e condições específicos.

Usando o Azure Speech SDK

Embora os detalhes específicos variem, dependendo do SDK que está sendo usado (Python, C# e assim por diante); há um padrão consistente para usar a API de fala para texto :

Um diagrama mostrando como um objeto SpeechRecognizer é criado a partir de um SpeechConfig e AudioConfig, e seu método RecognizeOnceAsync é usado para chamar a API de fala.

Use um objeto SpeechConfig para encapsular a informação necessária para se ligar ao seu recurso Azure Speech. Especificamente, a sua localização e chave.
Opcionalmente, use um AudioConfig para definir a fonte de entrada para o áudio a ser transcrito. Por padrão, esse é o microfone padrão do sistema, mas você também pode especificar um arquivo de áudio.
Use o SpeechConfig e AudioConfig para criar um objeto SpeechRecognizer. Este objeto é um cliente proxy para a API de fala para texto .
Use os métodos do objeto SpeechRecognizer para chamar as funções subjacentes da API. Por exemplo, o método RecognizeOnceAsync() utiliza o serviço Azure Speech para transcrever assíncronamente uma única frase falada.
Processar a resposta do serviço Azure Speech. No caso do método RecognizeOnceAsync(), o resultado é um objeto SpeechRecognitionResult que inclui as seguintes propriedades:
- Duração
- OffsetInTicks
- Propriedades
- Motivo
- IdDeResultado
- Texto

Se a operação foi bem-sucedida, a propriedade Reason tem o valor enumerado RecognizedSpeech e a propriedade Text contém a transcrição. Outros valores possíveis para Result incluem NoMatch (indicando que o áudio foi analisado com êxito, mas nenhuma fala foi reconhecida) ou Canceled, indicando que ocorreu um erro (nesse caso, você pode verificar a coleção Properties para a propriedade CancellationReason para determinar o que deu errado).

Feedback

Esta página foi útil?