Implementación de un modelo multimodal

Completado

Para controlar las indicaciones que incluyen audio, debe implementar un modelo de IA generativa bidireccional, es decir, un modelo que admita no solo la entrada basada en texto, sino también la entrada basada en audio. Los modelos multimodales disponibles en Microsoft Foundry incluyen (entre otros):

  • Microsoft Phi-4-multimodal-instruct
  • OpenAI gpt-4o
  • OpenAI gpt-4o-mini

Sugerencia

Para obtener más información sobre los modelos disponibles en Microsoft Foundry, consulte el artículo Catálogo y colecciones de modelos en el portal de Microsoft Foundry en la documentación de Microsoft Foundry.

Prueba de modelos bidireccionales con avisos basados en audio

Después de implementar un modelo multimodal, puede probarlo en el área de juegos de chat en el portal de Microsoft Foundry. Algunos modelos permiten incluir datos adjuntos de audio en el área de juegos, ya sea cargando un archivo o grabando un mensaje.

Captura de pantalla del área de juegos de chat con un aviso basado en audio.

En el área de juegos de chat, puede cargar un archivo de audio local y agregar texto al mensaje para obtener una respuesta de un modelo multimodal.