Implantar um modelo multimodal

Concluído

Para lidar com prompts que incluem áudio, você precisa implantar um modelo de IA generativa multimodal - em outras palavras, um modelo que suporte não apenas entrada baseada em texto, mas também entrada baseada em áudio. Modelos multimodais disponíveis no Microsoft Foundry incluem (entre outros):

  • Microsoft Phi-4-multimodal-instruir
  • OpenAI gpt-4o
  • OpenAI gpt-4o-mini

Sugestão

Para saber mais sobre os modelos disponíveis no Microsoft Foundry, consulte o artigo do catálogo de modelos e coleções no portal Microsoft Foundry na documentação do Microsoft Foundry.

Testando modelos multimodais com prompts baseados em áudio

Depois de implementar um modelo multimodal, pode testá-lo no chat playground do portal Microsoft Foundry. Alguns modelos permitem incluir anexos de áudio no playground, seja carregando um arquivo ou gravando uma mensagem.

Captura de ecrã do ambiente de chat com um prompt baseado em áudio.

No playground de bate-papo, você pode carregar um arquivo de áudio local e adicionar texto à mensagem para obter uma resposta de um modelo multimodal.