Développer une application de conversation audio
Pour développer une application cliente qui s’engage dans des conversations audio avec un modèle modal, vous pouvez utiliser les mêmes techniques de base que celles utilisées pour les conversations textuelles. Vous avez besoin d’une connexion au point de terminaison où le modèle est déployé et vous utilisez ce point de terminaison pour envoyer des invites qui se composent de messages au modèle et traiter les réponses.
La principale différence est que les invites pour une conversation audio incluent des messages utilisateur en plusieurs parties qui contiennent à la fois un élément de contenu texte et un élément de contenu audio .
La représentation JSON d’une invite qui inclut un message utilisateur en plusieurs parties ressemble à ceci :
{
"messages": [
{ "role": "system", "content": "You are a helpful assistant." },
{ "role": "user", "content": [
{
"type": "text",
"text": "Transcribe this audio:"
},
{
"type": "audio_url",
"audio_url": {
"url": "https://....."
}
}
] }
]
}
L’élément de contenu audio peut être :
- URL d’un fichier audio dans un site web.
- Données audio binaires
Lorsque vous utilisez des données binaires pour envoyer un fichier audio local, le contenu audio_url prend la forme d’une valeur encodée en base64 dans un format d’URL de données :
{
"type": "audio_url",
"audio_url": {
"url": "data:audio/mp3;base64,<binary_audio_data>"
}
}
Selon le type de modèle et l’emplacement où vous l’avez déployé, vous pouvez utiliser l’inférence de modèle IA Microsoft Azure ou les API OpenAI pour envoyer des invites audio. Ces bibliothèques fournissent également des kits SDK spécifiques au langage qui résument les API REST sous-jacentes.
Dans l’exercice suivant dans ce module, vous pouvez utiliser le Kit de développement logiciel (SDK) Python ou .NET pour l’API d’inférence de modèle Azure AI et l’API OpenAI pour développer une application de conversation audio.