Wdrażanie modelu wielomodalnego
Aby obsługiwać monity zawierające obrazy, należy wdrożyć wielomodalny model sztucznej inteligencji — innymi słowy, model obsługujący nie tylko dane wejściowe oparte na tekście, ale także dane wejściowe oparte na obrazach (i w niektórych przypadkach oparte na dźwiękach). Modele wielomodalne dostępne w rozwiązaniu Microsoft Foundry obejmują (między innymi):
- Microsoft Phi-4-instrukcja multimodalna
- OpenAI gpt-4o
- OpenAI gpt-4o-mini
Wskazówka
Aby dowiedzieć się więcej o dostępnych modelach w rozwiązaniu Microsoft Foundry, zobacz artykuł Katalog modeli i kolekcje w portalu Microsoft Foundry w dokumentacji rozwiązania Microsoft Foundry.
Testowanie modeli wielomodalnych przy użyciu monitów opartych na obrazach
Po wdrożeniu modelu wielomodalnego można go przetestować w środowisku testowym czatu w portalu Microsoft Foundry.
Na placu zabaw czatu możesz załadować obraz z pliku lokalnego i dodać tekst do wiadomości, aby uzyskać odpowiedź od modelu wielomodalnego.