Wdrażanie modelu wielomodalnego

Ukończone

Aby obsługiwać monity zawierające obrazy, należy wdrożyć wielomodalny model sztucznej inteligencji — innymi słowy, model obsługujący nie tylko dane wejściowe oparte na tekście, ale także dane wejściowe oparte na obrazach (i w niektórych przypadkach oparte na dźwiękach). Modele wielomodalne dostępne w rozwiązaniu Microsoft Foundry obejmują (między innymi):

  • Microsoft Phi-4-instrukcja multimodalna
  • OpenAI gpt-4o
  • OpenAI gpt-4o-mini

Wskazówka

Aby dowiedzieć się więcej o dostępnych modelach w rozwiązaniu Microsoft Foundry, zobacz artykuł Katalog modeli i kolekcje w portalu Microsoft Foundry w dokumentacji rozwiązania Microsoft Foundry.

Testowanie modeli wielomodalnych przy użyciu monitów opartych na obrazach

Po wdrożeniu modelu wielomodalnego można go przetestować w środowisku testowym czatu w portalu Microsoft Foundry.

Zrzut ekranu przedstawiający plac zabaw czatu z monitem opartym na obrazie.

Na placu zabaw czatu możesz załadować obraz z pliku lokalnego i dodać tekst do wiadomości, aby uzyskać odpowiedź od modelu wielomodalnego.