Introdução à Fala no Azure
O Microsoft Azure oferece recursos de reconhecimento de fala e síntese por meio do serviço de Fala do Azure , que dá suporte a muitos recursos, incluindo:
- Conversão de fala em texto
- Conversão de texto em fala
- Tradução de fala
Conversão de fala em texto
Você pode usar a API de Fala do Azure para executar a transcrição em tempo real ou em lote de áudio em um formato de texto. A fonte de áudio da transcrição poderá ser uma fluxo de áudio em tempo real de um microfone ou um arquivo de áudio.
A API de Conversão de Fala em Texto da IA do Azure é baseada no Modelo de Linguagem Universal da Microsoft. Os dados do modelo são de propriedade da Microsoft e implantados no Azure. O modelo será otimizado para dois cenários: conversação e ditado. Você também pode criar e treinar seus próprios modelos personalizados, incluindo acústica, linguagem e pronúncia se os modelos predefinidos da Microsoft não fornecerem o que você precisa.
Transcrição em tempo real: a fala em tempo real para o texto permite transcrever fluxos de áudio para texto. Será possível usar uma transcrição em tempo real para apresentações, demonstrações ou qualquer outro cenário em que uma pessoa esteja falando.
Para que a transcrição em tempo real funcione, seu aplicativo deve escutar o áudio de entrada de um microfone ou outra fonte de entrada de áudio, como um arquivo de áudio. O código do aplicativo transmitirá o áudio para o serviço que retornará o texto transcrito.
Transcrição em lote: Nem todos os cenários de conversão de fala em texto serão em tempo real. Você poderá ter gravações de áudio armazenadas em um compartilhamento de arquivo, em um servidor remoto ou até mesmo no armazenamento do Azure. Será possível transmitir arquivos de áudio com um URI de SAS (assinatura de acesso compartilhado) e receber resultados de transcrição de maneira assíncrona.
A transcrição em lote deverá ser executada de maneira assíncrona, pois os trabalhos em lote são agendados com base no melhor esforço. Normalmente, um trabalho é executado minutos após a solicitação, porém não há estimativa de quando um trabalho será alterado para o estado de execução.
Conversão de texto em fala
A API de Conversão de Texto em Fala permite converter a entrada de texto em uma fala audível, que poderá ser reproduzida de modo direto por meio de um alto-falante de computador ou gravada em um arquivo de áudio.
Vozes disponíveis na sintetização de voz: Ao usar a API de Conversão de Texto em Fala será possível especificar qual voz reproduzirá o texto. Essa funcionalidade oferece flexibilidade para personalizar sua solução de sintetização de voz e dar a ela um personagem específico.
O serviço inclui várias vozes predefinidas com suporte para várias linguagens e pronúncia regional, incluindo vozes neurais que aproveitam redes neurais para superar limitações comuns na síntese de fala em relação à entonação, resultando em uma voz mais natural. Você também pode desenvolver vozes personalizadas e usá-las com a API de conversão de texto em fala.
Tradução de fala
A Tradução de Fala do Azure é um recurso do serviço de Fala do Azure. A Tradução de Fala do Azure permite a tradução em tempo real do idioma falado usando entradas de fluxos de áudio e retornando texto em um idioma especificado. Ele funciona primeiro convertendo fala em texto usando o ASR (reconhecimento automático de fala) e, em seguida, convertendo o texto reconhecido em um ou mais idiomas de destino usando tradução automática. O serviço dá suporte a uma ampla gama de idiomas de origem e de destino e pode fornecer traduções como texto ou fala sintetizada. Os desenvolvedores podem integrar essa funcionalidade a aplicativos usando APIs REST ou SDKs. Esses aplicativos funcionam bem em cenários como reuniões multilíngues, legendas de eventos ao vivo ou suporte global ao cliente.