Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Note
Cette fonctionnalité est actuellement disponible en préversion publique. Cette préversion est fournie sans contrat de niveau de service et n’est pas recommandée pour les charges de travail de production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’utilisation supplémentaires pour les préversions de Microsoft Azure.
Qu’est-ce que la récupération agentique ? Dans Recherche Azure AI, la récupération agentique est un nouveau pipeline de multi-requêtes conçu pour des questions complexes posées par les utilisateurs ou les agents dans les applications de conversation et de copilote. Il est destiné aux modèles de génération augmentée de récupération (RAG) et aux flux de travail agent-à-agent.
Voici ce qu’il fait :
Utilise un modèle de langage volumineux (LLM) pour décomposer une requête complexe en sous-requêtes plus petites et ciblées pour une meilleure couverture sur votre contenu indexé. Les sous-requêtes peuvent inclure l’historique des conversations pour un contexte supplémentaire.
Exécute des sous-requêtes en parallèle. Chaque sous-requête est reclassée sémantiquement pour promouvoir les correspondances les plus pertinentes.
Combine les meilleurs résultats dans une réponse unifiée qu’un LLM peut utiliser pour générer des réponses avec votre contenu propriétaire.
La réponse est modulaire mais complète dans la façon dont elle inclut également un plan de requête et des documents sources. Vous pouvez choisir d’utiliser uniquement les résultats de recherche comme données de base ou appeler le LLM pour formuler une réponse.
Ce pipeline hautes performances vous aide à générer des données de base de haute qualité (ou une réponse) pour votre application de conversation, avec la possibilité de répondre rapidement à des questions complexes.
Par programmation, la récupération agentique est prise en charge par le biais d’un nouvel objet de base de connaissances dans la préversion 2025-11-01 et dans les packages de préversion du Kit de développement logiciel (SDK) Azure qui fournissent la fonctionnalité. La réponse de récupération d’une base de connaissances est conçue pour la consommation en aval par d’autres agents et applications de conversation.
Pourquoi utiliser la récupération agentique
Il existe deux cas d’usage pour la récupération agentique. Tout d’abord, c’est la base de l’expérience Foundry IQ dans le portail Microsoft Foundry (nouveau). Il fournit la couche de connaissances pour les solutions d’agent dans Microsoft Foundry. Deuxièmement, il s’agit de la base des solutions agentiques personnalisées que vous créez à l’aide des API Recherche d’IA Azure.
Vous devez utiliser la récupération agentique lorsque vous souhaitez fournir des agents et des applications avec le contenu le plus pertinent pour répondre à des questions plus difficiles, en tirant parti du contexte de conversation et de votre contenu propriétaire.
L’aspect agentique est une étape de raisonnement dans le traitement de la planification des requêtes effectuée par un modèle de langage volumineux pris en charge (LLM) que vous fournissez. Le LLM analyse l’ensemble du fil de conversation pour identifier les informations sous-jacentes nécessaires. Au lieu d’une requête unique, catch-all, le LLM décompose les questions composées en sous-requêtes ciblées en fonction des questions utilisateur, de l’historique des conversations et des paramètres de la requête. Les sous-requêtes ciblent vos documents indexés (texte brut et vecteurs) dans Recherche IA Azure. Cette approche hybride garantit que vous surfacez les correspondances de mots clés et les similitudes sémantiques à la fois, ce qui améliore considérablement le rappel.
Le composant de récupération est la possibilité d’exécuter des sous-requêtes simultanément, de fusionner les résultats, de classer sémantiquement les résultats et de retourner une réponse en trois parties qui inclut des données de base pour le tour de conversation suivant, des données de référence afin que vous puissiez inspecter le contenu source et un plan d’activité qui affiche les étapes d’exécution de requête.
L’expansion des requêtes et l’exécution parallèle, ainsi que la réponse de récupération, sont les fonctionnalités clés de la récupération agentique qui en font le meilleur choix pour les applications d’IA générative (RAG).
La récupération agentique ajoute une latence au traitement des requêtes, mais elle compense cela en ajoutant ces fonctionnalités :
- Analyse l’historique des conversations comme entrée dans le pipeline de recherche.
- Décompose une requête complexe qui contient plusieurs « demandes » en parties composantes. Par exemple : « trouvez-moi un hôtel près de la plage, avec transport de l’aéroport, et c’est à distance de marche des restaurants végétariens. »
- Réécrit une requête d'origine en plusieurs sous-requêtes à l'aide de mappages de synonymes (facultatif) et de paraphrases générées par LLM.
- Corrige les fautes d’orthographe.
- Exécute toutes les sous-requêtes simultanément.
- Génère un résultat unifié sous forme de chaîne unique. Vous pouvez également extraire des parties de la réponse pour votre solution. Les métadonnées relatives à l’exécution des requêtes et aux données de référence sont incluses dans la réponse.
La récupération agentique appelle l’intégralité du pipeline de traitement des requêtes plusieurs fois pour chaque sous-requête, mais elle le fait en parallèle, préservant l’efficacité et les performances nécessaires pour une expérience utilisateur raisonnable.
Note
L’inclusion d’un LLM dans la planification des requêtes ajoute une latence à un pipeline de requête. Vous pouvez atténuer les effets à l’aide de modèles plus rapides, tels que gpt-4o-mini, et résumer les threads de message. Vous pouvez réduire la latence et les coûts en définissant des propriétés qui limitent le traitement LLM. Vous pouvez également exclure complètement le traitement LLM pour la recherche de texte et de recherche hybride et votre propre logique de planification des requêtes.
Architecture et workflow
La récupération agentique est conçue pour les expériences de recherche conversationnelles qui utilisent un LLM pour décomposer intelligemment les requêtes complexes. Le système coordonne plusieurs services Azure pour fournir des résultats de recherche complets.
Fonctionnement
Le processus de récupération agentique fonctionne comme suit :
Initiation du flux de travail : votre application appelle une base de connaissances avec une action de récupération qui fournit une requête et un historique des conversations.
Planification des requêtes : une base de connaissances envoie votre historique de requête et de conversation à un LLM, qui analyse le contexte et décompose les questions complexes en sous-requêtes ciblées. Cette étape est automatisée et non personnalisable.
Exécution de la requête : la base de connaissances envoie les sous-requêtes à vos sources de connaissances. Toutes les sous-requêtes s’exécutent simultanément et peuvent être des mots clés, vecteurs et recherche hybride. Chaque sous-requête subit une reclassement sémantique pour trouver les correspondances les plus pertinentes. Les références sont extraites et conservées à des fins de citation.
Synthèse des résultats : le système combine tous les résultats dans une réponse unifiée avec trois parties : contenu fusionné, références sources et détails d’exécution.
Votre index de recherche détermine l’exécution des requêtes et toutes les optimisations qui se produisent pendant l’exécution de la requête. Plus précisément, si votre index inclut des champs de texte et de vecteur pouvant faire l’objet d’une recherche, une requête hybride s’exécute. Si le seul champ pouvant faire l’objet d’une recherche est un champ vectoriel, seule la recherche vectorielle pure est utilisée. La configuration sémantique de l’index, ainsi que les profils de scoring facultatifs, les mappages de synonymes, les analyseurs et les normaliseurs (si vous ajoutez des filtres) sont tous utilisés pendant l’exécution de la requête. Vous devez avoir nommé les valeurs par défaut pour une configuration sémantique et un profil de scoring.
Composants requis
| Composant | Service | Role |
|---|---|---|
| LLM | Azure OpenAI | Crée des sous-requêtes à partir du contexte de conversation et utilise ultérieurement des données de base pour la génération de réponses |
| Base de connaissances | Recherche d’IA Azure | Orchestre le pipeline, se connecte à votre LLM et gère les paramètres de requête |
| Source de connaissances | Recherche d’IA Azure | Encapsule l’index de recherche avec les propriétés relatives à l’utilisation de la base de connaissances |
| Index de recherche | Recherche d’IA Azure | Stocke votre contenu pouvant faire l’objet d’une recherche (texte et vecteurs) avec une configuration sémantique |
| Classeur sémantique | Recherche d’IA Azure | Composant requis qui reclasse les résultats pour la pertinence (reclassement L2) |
Exigences d’intégration
Votre application pilote le pipeline en appelant la base de connaissances et en gérant la réponse. Le pipeline retourne des données de base que vous passez à un LLM pour la génération de réponses dans votre interface de conversation. Pour plus d’informations sur l’implémentation, consultez Tutoriel : Créer une solution de récupération agentique de bout en bout.
Note
Seuls les modèles de série gpt-4o, gpt-4.1 et gpt-5 sont pris en charge pour la planification des requêtes. Vous pouvez utiliser n’importe quel modèle pour la génération de réponses finale.
Comment commencer
Pour créer une solution de récupération agentique, vous pouvez utiliser le portail Azure, les DERNIÈRES API REST en préversion ou un package de sdk Azure en préversion qui fournit les fonctionnalités.
Actuellement, le portail prend uniquement en charge la création d'index de recherche et de sources de connaissances de blobs. D’autres types de sources de connaissances doivent être créés par programme.
- Démarrage rapide : Utiliser la récupération agentique dans le portail Azure
- Démarrage rapide : Utiliser la récupération agentique dans Recherche Azure AI (C#, Java, JavaScript, Python, TypeScript, REST)
Disponibilité et tarification
La récupération agentique est disponible dans les régions sélectionnées. Les sources de connaissances et les bases de connaissances ont également des limites maximales qui varient selon le niveau de service.
Il a une dépendance sur les fonctionnalités Premium. Si vous désactivez le ranker sémantique pour votre service de recherche, vous désactivez efficacement la récupération agentique.
| Plan | Descriptif |
|---|---|
| Libre | Un service de recherche gratuit fournit 50 millions de jetons de raisonnement agentique gratuits par mois. Sur les niveaux supérieurs, vous pouvez choisir entre le plan gratuit (par défaut) et le plan standard. |
| Norme | Le plan standard est tarifé à l'utilisation après que le quota gratuit mensuel a été consommé. Une fois le quota gratuit utilisé, vous êtes facturé des frais supplémentaires pour chaque million de jetons de raisonnement agentiques supplémentaires. Vous n’êtes pas averti lorsque la transition se produit. Pour plus d’informations sur les frais par devise, consultez la page de tarification de la recherche d’IA Azure. |
La facturation basée sur les jetons pour la planification des requêtes basée sur LLM et la synthèse des réponses (facultative) est payante à l’utilisation dans Azure OpenAI. Il s'agit d'un système basé sur des jetons, à la fois pour les jetons d'entrée et de sortie. Le modèle que vous affectez à la base de connaissances est celui facturé pour l’utilisation des jetons. Par exemple, si vous utilisez gpt-4o, les frais de jeton apparaissent dans la facture de gpt-4o.
La facturation par jetons pour la récupération d'agents correspond au nombre de jetons renvoyés par chaque sous-requête.
| Aspect | Pipeline à requête unique classique | Pipeline de récupération multi-requête agentique |
|---|---|---|
| Unité | Requête basée (1 000 requêtes) par unité de devise | Basé sur un jeton (1 million de jetons par unité de devise) |
| Coût par unité | Coût uniforme par requête | Coût uniforme par jeton |
| Estimation des coûts | Estimer le nombre de requêtes | Estimer l’utilisation des jetons |
| Formule gratuite | 1 000 requêtes gratuites | 50 millions de jetons gratuits |
Exemple : Estimer les coûts
La récupération agentique a deux modèles de facturation : la facturation à partir d’Azure OpenAI (planification des requêtes et, si elle est activée, synthèse des réponses) et la facturation à partir d’Azure AI Search pour la récupération agentique.
Cet exemple de tarification omet la synthèse des réponses, mais permet d’illustrer le processus d’estimation. Vos coûts peuvent être inférieurs. Pour connaître le prix réel des transactions, consultez la tarification d’Azure OpenAI.
Coûts de facturation estimés pour la planification des requêtes
Pour estimer les coûts du plan de requête en tant que paiement à l’utilisation dans Azure OpenAI, supposons que gpt-4o-mini :
- 15 cents pour 1 million de jetons d’entrée.
- 60 cents pour 1 million de jetons de sortie.
- 2 000 jetons d’entrée pour la taille moyenne des conversations de conversation.
- 350 jetons pour la taille moyenne du plan de sortie.
Coûts de facturation estimés pour l’exécution des requêtes
Pour estimer le nombre de jetons de récupération agentiques, commencez par une idée de ce à quoi ressemble un document moyen dans votre index. Par exemple, vous pourriez faire une approximation :
- 10 000 blocs, où chaque bloc est un à deux paragraphes d’un fichier PDF.
- 500 jetons par bloc.
- Chaque sous-requête reclasse jusqu’à 50 blocs.
- En moyenne, il existe trois sous-requêtes par plan de requête.
Calcul du prix d’exécution
Supposons que nous effectuons 2 000 récupérations agentiques avec trois sous-requêtes par plan. Cela nous donne environ 6 000 requêtes totales.
Rerank 50 blocs par sous-requête, qui est de 300 000 blocs totaux.
Le bloc moyen est de 500 jetons, de sorte que le nombre total de jetons utilisés pour le reclassement est de 150 millions.
Compte tenu d’un prix hypothétique de 0,022 par jeton, 3,30 $ est le coût total de reclassement en dollars américains.
Passage aux coûts du plan de requête : 2 000 jetons d’entrée multipliés par 2 000 récupérations agentiques égales à 4 millions de jetons d’entrée pour un total de 60 cents.
Estimer les coûts de sortie en fonction d’une moyenne de 350 jetons. Si nous multiplions 350 par 2 000 récupérations agentiques, nous obtenons 700 000 jetons de sortie total pour un total de 42 cents.
En mettant tout cela ensemble, vous payez environ 3,30 $ pour la récupération agentique dans Recherche Azure AI, 60 cents pour les jetons d’entrée dans Azure OpenAI et 42 cents pour les jetons de sortie dans Azure OpenAI, pour 1,02 $ pour la planification totale des requêtes. Le coût combiné de l’exécution complète est de 4,32 $.
Conseils pour contrôler les coûts
Passez en revue le journal d’activité dans la réponse pour savoir quelles requêtes ont été émises sur les sources et les paramètres utilisés. Vous pouvez réexécuter ces requêtes sur vos index et utiliser un tokeniseur public pour estimer les jetons et comparer à l’utilisation signalée par l’API. Toutefois, la reconstruction précise d’une requête ou d’une réponse n’est pas garantie. ** Les facteurs incluent le type de source de connaissances, comme les données web publiques ou une source de connaissances SharePoint distante basée sur une identité utilisateur, ce qui peut affecter la répétition des requêtes.
Réduisez le nombre de sources de connaissances (index) ; la consolidation du contenu peut réduire le volume de diffusion et de jetons.
Réduisez l’effort de raisonnement pour réduire l’utilisation de LLM pendant la planification des requêtes et l’expansion des requêtes (recherche itérative).
Organisez le contenu afin que les informations les plus pertinentes soient disponibles avec moins de sources et de documents (par exemple, des résumés ou des tableaux organisés).