Use a API de Voz para Texto do Azure

Concluído

O serviço Azure Speech suporta reconhecimento de voz através das seguintes funcionalidades:

  • Transcrição em tempo real: Transcrição instantânea com resultados intermediários para entradas de áudio ao vivo.
  • Transcrição rápida: saída síncrona mais rápida para situações com latência previsível.
  • Transcrição em lote: Processamento eficiente para grandes volumes de áudio pré-gravado.
  • Fala personalizada: modelos com precisão aprimorada para domínios e condições específicos.

Usando o Azure Speech SDK

Embora os detalhes específicos variem, dependendo do SDK que está sendo usado (Python, C# e assim por diante); há um padrão consistente para usar a API de fala para texto :

Um diagrama mostrando como um objeto SpeechRecognizer é criado a partir de um SpeechConfig e AudioConfig, e seu método RecognizeOnceAsync é usado para chamar a API de fala.

  1. Use um objeto SpeechConfig para encapsular a informação necessária para se ligar ao seu recurso Azure Speech. Especificamente, a sua localização e chave.
  2. Opcionalmente, use um AudioConfig para definir a fonte de entrada para o áudio a ser transcrito. Por padrão, esse é o microfone padrão do sistema, mas você também pode especificar um arquivo de áudio.
  3. Use o SpeechConfig e AudioConfig para criar um objeto SpeechRecognizer. Este objeto é um cliente proxy para a API de fala para texto .
  4. Use os métodos do objeto SpeechRecognizer para chamar as funções subjacentes da API. Por exemplo, o método RecognizeOnceAsync() utiliza o serviço Azure Speech para transcrever assíncronamente uma única frase falada.
  5. Processar a resposta do serviço Azure Speech. No caso do método RecognizeOnceAsync(), o resultado é um objeto SpeechRecognitionResult que inclui as seguintes propriedades:
    • Duração
    • OffsetInTicks
    • Propriedades
    • Motivo
    • IdDeResultado
    • Texto

Se a operação foi bem-sucedida, a propriedade Reason tem o valor enumerado RecognizedSpeech e a propriedade Text contém a transcrição. Outros valores possíveis para Result incluem NoMatch (indicando que o áudio foi analisado com êxito, mas nenhuma fala foi reconhecida) ou Canceled, indicando que ocorreu um erro (nesse caso, você pode verificar a coleção Properties para a propriedade CancellationReason para determinar o que deu errado).