O que é o serviço de Voz?

O serviço Speech fornece funcionalidades de reconhecimento de fala e síntese de voz através de um recurso de Speech. Pode transcrever voz para texto com elevada precisão, produzir vozes de texto para fala com som natural, traduzir áudio falado e conduzir conversas de voz ao vivo com IA.

Captura de ecrã de tiles que destacam as funcionalidades do serviço de voz.

Pode criar vozes personalizadas, adicionar palavras específicas ao seu vocabulário base ou construir os seus próprios modelos. Execute a Voz em qualquer lugar, seja na cloud ou na periferia em contentores. É fácil ativar a voz das suas aplicações, ferramentas e dispositivos usando as APIs Speech CLI, Speech SDK e REST.

A fala está disponível para muitos idiomas, regiões e preços.

Cenários de voz

Os cenários comuns para fala incluem:

Legendas: saiba como sincronizar legendas com o áudio de entrada, aplicar filtros de palavrões, obter resultados parciais, aplicar personalizações e identificar idiomas falados para cenários multilíngues.
Criação de Conteúdos Áudio: Use vozes neurais para tornar as interações com chatbots e agentes de voz mais naturais e envolventes, converta textos digitais como e-books em audiolivros e melhore os sistemas de navegação no automóvel.
Call Center: Transcreva chamadas em tempo real ou processe um conjunto de chamadas, rediga informações pessoais identificativas e extraia insights como sentimentos para ajudar no seu caso de uso no call center.
Aprendizagem de línguas: Forneça feedback de avaliação de pronúncia aos alunos de línguas, apoie a transcrição em tempo real para conversas de aprendizagem remota e leia em voz alta materiais de ensino com vozes neurais.
Voz ao vivo: crie interfaces de conversação naturais e humanas para aplicações e experiências. O recurso de voz ao vivo fornece interação rápida e confiável entre uma implementação humana e um agente.

A Microsoft usa o Speech para muitos cenários, como legendas no Teams, ditado no Office 365 e leitura em voz alta no navegador Microsoft Edge.

Captura de ecrã dos logótipos dos produtos Microsoft que utilizam o serviço de voz.

Capacidades de fala

Estas seções resumem os recursos de fala com links para obter mais informações.

Voz em texto

Use voz para texto para converter áudio em texto. Escolha entre transcrição em tempo real para áudio em streaming, transcrição rápida para ficheiros pré-gravados, ou transcrição em lote para processar grandes volumes de áudio de forma assíncrona.

O modelo base pode não ser suficiente se o áudio contiver ruído ambiente ou incluir vários jargões específicos da indústria e do domínio. Nesses casos, você pode criar e treinar modelos de fala personalizados com dados acústicos, de linguagem e de pronúncia. Os modelos de fala personalizados são privados e podem oferecer uma vantagem competitiva.

Conversão de texto em voz

Com o texto para fala, pode converter texto de entrada em fala sintetizada semelhante à humana. Use vozes neurais, que são vozes semelhantes às humanas alimentadas por redes neurais profundas. Use a SSML (Speech Synthesis Markup Language) para ajustar o tom, a pronúncia, a taxa de fala, o volume e muito mais.

Voz padrão: vozes altamente naturais e prontas para uso imediato. Verifique as amostras de voz padrão da Galeria de Vozes e determine a voz certa para as necessidades da sua empresa.
Voz personalizada: Além das vozes padrão que saem da caixa, você também pode criar uma voz personalizada que seja reconhecível e exclusiva para sua marca ou produto. As vozes personalizadas são privadas e podem oferecer uma vantagem competitiva. Verifique as amostras de voz personalizadas aqui.

Tradução de voz

A tradução de voz permite a tradução multilingue em tempo real da fala para as suas aplicações, ferramentas e dispositivos. Use esse recurso para conversão de fala para fala e de fala para texto.

Discurso LLM (pré-visualização)

Atualmente, o LLM speech suporta as seguintes tarefas de fala:

transcribe: Converta áudio pré-gravado em texto.
translate: Converta áudio pré-gravado em texto em um idioma de destino especificado.

O discurso de LLM utiliza um modelo de fala melhorado por um modelo de linguagem de grande escala que oferece qualidade aprimorada, compreensão contextual profunda, suporte multilíngue e capacidades de ajuste de prompt. Partilha o mesmo desempenho de inferência ultrarrápida que a transcrição rápida, tornando-o ideal para casos de uso como gerar legendas e subtítulos a partir de ficheiros de áudio, resumir notas de reuniões, assistir os agentes de call center, transcrever correios de voz e muito mais.

Identificação linguística

A identificação linguística identifica línguas faladas em áudio quando comparadas com uma lista de línguas suportadas. Use a identificação da linguagem por si só, com reconhecimento de fala para texto ou com tradução de fala.

Avaliação da pronúncia

A avaliação da pronúncia avalia a pronúncia da fala e dá feedback aos falantes sobre a precisão e fluência do áudio falado. Ao utilizar a avaliação da pronúncia, os aprendizes de línguas podem praticar, obter feedback instantâneo e melhorar a pronúncia, para que possam falar e apresentar com confiança.

Entrega e presença

Pode implementar funcionalidades do Azure Speech no Foundry Tools na cloud ou no local.

Ao utilizar containers, pode aproximar o serviço dos seus dados por razões de conformidade, segurança ou outras razões operacionais.

A implantação do serviço de fala em nuvens soberanas está disponível para algumas entidades governamentais e seus parceiros. Por exemplo, a nuvem do Azure Government está disponível para entidades governamentais dos EUA e seus parceiros. O Microsoft Azure operado pela nuvem 21Vianet está disponível para organizações com presença comercial na China. Para obter mais informações, consulte Nuvens soberanas.

Captura de ecrã do diagrama que mostra onde o serviço de voz pode ser implementado e acedido.

Utilizar a Voz na sua aplicação

O Speech Studio é um conjunto de ferramentas baseadas em interface de utilizador para construir e integrar funcionalidades do serviço Azure Speech nas suas aplicações. Você cria projetos no Speech Studio usando uma abordagem sem código e, em seguida, faz referência a esses ativos em seus aplicativos usando o SDK de fala, a CLI de fala ou as APIs REST.

A CLI de Fala é uma ferramenta de linha de comando para usar o serviço de Fala sem precisar escrever nenhum código. A maioria das funcionalidades do SDK de Voz estão disponíveis na CLI de Voz e algumas funcionalidades e personalizações avançadas são simplificadas na CLI de Voz.

O SDK de Fala expõe muitos dos recursos do serviço de Fala que você pode usar para desenvolver aplicativos habilitados para fala. O Speech SDK está disponível em muitas linguagens de programação e em todas as plataformas.

Em alguns casos, você não pode ou não deve usar o SDK de fala. Nesses casos, você pode usar APIs REST para acessar o serviço de fala. Por exemplo, use APIs REST para transcrição em lote.

Introdução

Oferecemos inícios rápidos em muitas linguagens de programação populares. Cada início rápido é projetado para ensinar padrões básicos de design e fazer com que você execute o código em menos de 10 minutos. Consulte a lista a seguir para obter o início rápido de cada recurso:

Amostras de código

O código de exemplo para o serviço de Fala está disponível no GitHub. Esses exemplos abrangem cenários comuns, como a leitura de áudio de um arquivo ou fluxo, o reconhecimento contínuo e de captura única e o trabalho com modelos personalizados. Use estes links para exibir exemplos de SDK e REST:

IA responsável

Um sistema de IA inclui não só a tecnologia, mas também as pessoas que a utilizam, as pessoas afetadas por ela e o ambiente onde é implementada. Leia as notas de transparência para saber mais sobre o uso e a implantação responsáveis da IA em seus sistemas.

Partilhar via

O que é o serviço de Voz?

Cenários de voz

Capacidades de fala

Voz em texto

Conversão de texto em voz

Tradução de voz

Discurso LLM (pré-visualização)

Identificação linguística

Avaliação da pronúncia

Entrega e presença

Utilizar a Voz na sua aplicação

Introdução

Amostras de código

IA responsável

Voz em texto

Avaliação da pronúncia

Voz personalizada

Próximos passos

Feedback

Recursos adicionais