Bereitstellen eines multimodalen Modells

Abgeschlossen

Um Eingabeaufforderungen zu verarbeiten, die Audio enthalten, müssen Sie ein multimodales generatives KI-Modell bereitstellen – d. h. ein Modell, das nicht nur textbasierte Eingaben, sondern auch audiobasierte Eingaben unterstützt. Zu den in Microsoft Foundry verfügbaren multimodalen Modellen gehören unter anderem:

  • Microsoft Phi-4-multimodal-instruct
  • OpenAI gpt-4o
  • OpenAI gpt-4o-mini

Tipp

Weitere Informationen zu verfügbaren Modellen in Microsoft Foundry finden Sie im Artikel zum Modellkatalog und zu Sammlungen im Microsoft Foundry-Portal in der Microsoft Foundry-Dokumentation.

Testen von multimodalen Modellen mit audiobasierten Eingabeaufforderungen

Nach der Bereitstellung eines multimodalen Modells können Sie es im Chat-Playground im Microsoft Foundry-Portal testen. Einige Modelle ermöglichen Ihnen, Audiodateien in der Spielumgebung einzuschließen, entweder durch Hochladen einer Datei oder indem Sie eine Nachricht aufzeichnen.

Screenshot des Chat-Playgrounds mit einer audiobasierten Eingabeaufforderung.

Im Chat-Playground können Sie eine lokale Audiodatei hochladen und der Nachricht Text hinzufügen, um eine Antwort von einem multimodalen Modell zu erregen.