Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
O serviço Speech fornece funcionalidades de reconhecimento de fala e síntese de voz através de um recurso de Speech. Pode transcrever voz para texto com elevada precisão, produzir vozes de texto para fala com som natural, traduzir áudio falado e conduzir conversas de voz ao vivo com IA.
Pode criar vozes personalizadas, adicionar palavras específicas ao seu vocabulário base ou construir os seus próprios modelos. Execute a Voz em qualquer lugar, seja na cloud ou na periferia em contentores. É fácil ativar a voz das suas aplicações, ferramentas e dispositivos usando as APIs Speech CLI, Speech SDK e REST.
A fala está disponível para muitos idiomas, regiões e preços.
Cenários de voz
Os cenários comuns para fala incluem:
- Legendas: saiba como sincronizar legendas com o áudio de entrada, aplicar filtros de palavrões, obter resultados parciais, aplicar personalizações e identificar idiomas falados para cenários multilíngues.
- Criação de Conteúdos Áudio: Use vozes neurais para tornar as interações com chatbots e agentes de voz mais naturais e envolventes, converta textos digitais como e-books em audiolivros e melhore os sistemas de navegação no automóvel.
- Call Center: Transcreva chamadas em tempo real ou processe um conjunto de chamadas, rediga informações pessoais identificativas e extraia insights como sentimentos para ajudar no seu caso de uso no call center.
- Aprendizagem de línguas: Forneça feedback de avaliação de pronúncia aos alunos de línguas, apoie a transcrição em tempo real para conversas de aprendizagem remota e leia em voz alta materiais de ensino com vozes neurais.
- Voz ao vivo: crie interfaces de conversação naturais e humanas para aplicações e experiências. O recurso de voz ao vivo fornece interação rápida e confiável entre uma implementação humana e um agente.
A Microsoft usa o Speech para muitos cenários, como legendas no Teams, ditado no Office 365 e leitura em voz alta no navegador Microsoft Edge.
Capacidades de fala
Estas seções resumem os recursos de fala com links para obter mais informações.
Voz em texto
Use voz para texto para converter áudio em texto. Escolha entre transcrição em tempo real para áudio em streaming, transcrição rápida para ficheiros pré-gravados, ou transcrição em lote para processar grandes volumes de áudio de forma assíncrona.
O modelo base pode não ser suficiente se o áudio contiver ruído ambiente ou incluir vários jargões específicos da indústria e do domínio. Nesses casos, você pode criar e treinar modelos de fala personalizados com dados acústicos, de linguagem e de pronúncia. Os modelos de fala personalizados são privados e podem oferecer uma vantagem competitiva.
Conversão de texto em voz
Com o texto para fala, pode converter texto de entrada em fala sintetizada semelhante à humana. Use vozes neurais, que são vozes semelhantes às humanas alimentadas por redes neurais profundas. Use a SSML (Speech Synthesis Markup Language) para ajustar o tom, a pronúncia, a taxa de fala, o volume e muito mais.
- Voz padrão: vozes altamente naturais e prontas para uso imediato. Verifique as amostras de voz padrão da Galeria de Vozes e determine a voz certa para as necessidades da sua empresa.
- Voz personalizada: Além das vozes padrão que saem da caixa, você também pode criar uma voz personalizada que seja reconhecível e exclusiva para sua marca ou produto. As vozes personalizadas são privadas e podem oferecer uma vantagem competitiva. Verifique as amostras de voz personalizadas aqui.
Tradução de voz
A tradução de voz permite a tradução multilingue em tempo real da fala para as suas aplicações, ferramentas e dispositivos. Use esse recurso para conversão de fala para fala e de fala para texto.
Discurso LLM (pré-visualização)
Atualmente, o LLM speech suporta as seguintes tarefas de fala:
-
transcribe: Converta áudio pré-gravado em texto. -
translate: Converta áudio pré-gravado em texto em um idioma de destino especificado.
O discurso de LLM utiliza um modelo de fala melhorado por um modelo de linguagem de grande escala que oferece qualidade aprimorada, compreensão contextual profunda, suporte multilíngue e capacidades de ajuste de prompt. Partilha o mesmo desempenho de inferência ultrarrápida que a transcrição rápida, tornando-o ideal para casos de uso como gerar legendas e subtítulos a partir de ficheiros de áudio, resumir notas de reuniões, assistir os agentes de call center, transcrever correios de voz e muito mais.
Identificação linguística
A identificação linguística identifica línguas faladas em áudio quando comparadas com uma lista de línguas suportadas. Use a identificação da linguagem por si só, com reconhecimento de fala para texto ou com tradução de fala.
Avaliação da pronúncia
A avaliação da pronúncia avalia a pronúncia da fala e dá feedback aos falantes sobre a precisão e fluência do áudio falado. Ao utilizar a avaliação da pronúncia, os aprendizes de línguas podem praticar, obter feedback instantâneo e melhorar a pronúncia, para que possam falar e apresentar com confiança.
Entrega e presença
Pode implementar funcionalidades do Azure Speech no Foundry Tools na cloud ou no local.
Ao utilizar containers, pode aproximar o serviço dos seus dados por razões de conformidade, segurança ou outras razões operacionais.
A implantação do serviço de fala em nuvens soberanas está disponível para algumas entidades governamentais e seus parceiros. Por exemplo, a nuvem do Azure Government está disponível para entidades governamentais dos EUA e seus parceiros. O Microsoft Azure operado pela nuvem 21Vianet está disponível para organizações com presença comercial na China. Para obter mais informações, consulte Nuvens soberanas.
Utilizar a Voz na sua aplicação
O Speech Studio é um conjunto de ferramentas baseadas em interface de utilizador para construir e integrar funcionalidades do serviço Azure Speech nas suas aplicações. Você cria projetos no Speech Studio usando uma abordagem sem código e, em seguida, faz referência a esses ativos em seus aplicativos usando o SDK de fala, a CLI de fala ou as APIs REST.
A CLI de Fala é uma ferramenta de linha de comando para usar o serviço de Fala sem precisar escrever nenhum código. A maioria das funcionalidades do SDK de Voz estão disponíveis na CLI de Voz e algumas funcionalidades e personalizações avançadas são simplificadas na CLI de Voz.
O SDK de Fala expõe muitos dos recursos do serviço de Fala que você pode usar para desenvolver aplicativos habilitados para fala. O Speech SDK está disponível em muitas linguagens de programação e em todas as plataformas.
Em alguns casos, você não pode ou não deve usar o SDK de fala. Nesses casos, você pode usar APIs REST para acessar o serviço de fala. Por exemplo, use APIs REST para transcrição em lote.
Introdução
Oferecemos inícios rápidos em muitas linguagens de programação populares. Cada início rápido é projetado para ensinar padrões básicos de design e fazer com que você execute o código em menos de 10 minutos. Consulte a lista a seguir para obter o início rápido de cada recurso:
- Guia de início rápido de fala para texto
- Guia de início rápido de texto para fala
- Guia de início rápido de tradução de fala
Amostras de código
O código de exemplo para o serviço de Fala está disponível no GitHub. Esses exemplos abrangem cenários comuns, como a leitura de áudio de um arquivo ou fluxo, o reconhecimento contínuo e de captura única e o trabalho com modelos personalizados. Use estes links para exibir exemplos de SDK e REST:
- Exemplos de conversão de fala em texto, de texto em fala e de tradução de fala (SDK)
- Amostras de transcrição em lote (REST)
- Exemplos de conversão de texto em fala (REST)
IA responsável
Um sistema de IA inclui não só a tecnologia, mas também as pessoas que a utilizam, as pessoas afetadas por ela e o ambiente onde é implementada. Leia as notas de transparência para saber mais sobre o uso e a implantação responsáveis da IA em seus sistemas.
Voz em texto
- Nota de transparência e casos de uso
- Características e limitações
- Integração e utilização responsável
- Dados, privacidade e segurança
Avaliação da pronúncia
Voz personalizada
- Nota de transparência e casos de uso
- Características e limitações
- Acesso limitado
- Implantação responsável de fala sintética
- Divulgação de talentos de voz
- Divulgação das orientações relativas ao desenho ou modelo
- Divulgação de padrões de design
- Código de conduta
- Dados, privacidade e segurança