Wdrażanie modelu wielomodalnego
Aby obsługiwać monity zawierające dźwięk, należy wdrożyć wielomodalny model sztucznej inteligencji — innymi słowy, model obsługujący nie tylko dane wejściowe oparte na tekście, ale także dane wejściowe oparte na dźwiękach. Modele wielomodalne dostępne w rozwiązaniu Microsoft Foundry obejmują (między innymi):
- Microsoft Phi-4-instrukcja multimodalna
- OpenAI gpt-4o
- OpenAI gpt-4o-mini
Wskazówka
Aby dowiedzieć się więcej o dostępnych modelach w rozwiązaniu Microsoft Foundry, zobacz artykuł Katalog modeli i kolekcje w portalu Microsoft Foundry w dokumentacji rozwiązania Microsoft Foundry.
Testowanie modeli wielomodalnych przy użyciu monitów opartych na dźwiękach
Po wdrożeniu modelu wielomodalnego można go przetestować w środowisku testowym czatu w portalu Microsoft Foundry. Niektóre modele umożliwiają dołączanie załączników audio na placu zabaw przez przekazanie pliku lub zarejestrowanie wiadomości.
W środowisku czatu możesz przekazać lokalny plik audio i dodać tekst do wiadomości, aby wywołać odpowiedź z modelu wielomodalnego.