Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Note
Ce document fait référence au portail Microsoft Foundry (classique).
🔄 Accédez à la documentation Microsoft Foundry (nouveau) si vous utilisez le nouveau portail.
Note
Ce document fait référence au portail Microsoft Foundry (nouveau).
Important
Les éléments marqués (aperçu) dans cet article sont actuellement en aperçu public. Cette version préliminaire est fournie sans contrat de niveau de service, et nous la déconseillons pour les charges de travail en production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’utilisation supplémentaires pour les préversions de Microsoft Azure.
Dans le monde basé sur l’IA d’aujourd’hui, Générative AI Operations (GenAIOps) révolutionne la façon dont les organisations créent et déploient des systèmes intelligents. Étant donné que les entreprises utilisent de plus en plus des agents et des applications IA pour transformer la prise de décision, améliorer les expériences client et alimenter l’innovation, un élément est essentiel : des infrastructures d’évaluation robustes. L’évaluation n’est pas seulement un point de contrôle. C’est la base de la qualité et de la confiance dans les applications IA. Sans évaluation et surveillance rigoureuses, les systèmes IA peuvent produire du contenu qui est :
- Fabriqué ou sans fondement dans la réalité
- Non pertinent ou incohérent
- Néfaste pour perpétuer les risques et stéréotypes liés au contenu
- Dangereux dans la diffusion de fausses informations
- Vulnérable aux attaques de sécurité
C’est là que l’observabilité devient essentielle. Ces fonctionnalités mesurent à la fois la fréquence et la gravité des risques dans les sorties d’IA, ce qui permet aux équipes de traiter systématiquement les problèmes de qualité, de sécurité et de sécurité tout au long du parcours de développement de l’IA, de la sélection du modèle approprié à la surveillance des performances de production, de la qualité et de la sécurité.
Qu’est-ce que l’observabilité ?
L’observabilité de l’IA fait référence à la possibilité de surveiller, comprendre et résoudre les problèmes des systèmes IA tout au long de leur cycle de vie. Elle implique la collecte et l’analyse des signaux tels que les métriques d’évaluation, les journaux, les traces et les sorties de modèle et d’agent pour obtenir une visibilité sur les performances, la qualité, la sécurité et l’intégrité opérationnelle.
Qu’est-ce que les évaluateurs ?
Les évaluateurs sont des outils spécialisés qui mesurent la qualité, la sécurité et la fiabilité des réponses ia. En implémentant des évaluations systématiques tout au long du cycle de vie du développement d’IA, les équipes peuvent identifier et résoudre les problèmes potentiels avant qu’elles n’affectent les utilisateurs. Les évaluateurs pris en charge suivants fournissent des fonctionnalités d’évaluation complètes sur différents types et préoccupations d’application IA :
Usage général
| Évaluateur | Objectif | Données d'entrée |
|---|---|---|
| Cohérence | Mesure la cohérence logique et le flux des réponses. | Requête, réponse |
| Fluidité | Mesure la qualité et la lisibilité du langage naturel. | Réponse |
| Assurance qualité | Mesure de manière exhaustive différents aspects de la qualité dans la réponse aux questions. | Requête, contexte, réponse, réalité fondamentale |
Pour découvrir plus d’informations, consultez Programmes d’évaluation à usage général.
Similarité textuelle
| Évaluateur | Objectif | Données d'entrée |
|---|---|---|
| Similarité | Mesure de similarité textuelle assistée par l’IA. | Requête, contexte, réalité fondamentale |
| Score F1 | La moyenne harmonique de précision et de rappel dans les jetons chevauche la réponse et la vérité terrestre. | Réponse, réalité fondamentale |
| BLEU | Le score d’évaluation bilingue Understudy pour les mesures de qualité de la traduction se chevauche en n-grammes entre la réponse et la vérité au sol. | Réponse, réalité fondamentale |
| GLEU | La variante Google-BLEU pour les mesures d’évaluation au niveau de la phrase se chevauche en n-grammes entre la réponse et la vérité au sol. | Réponse, réalité fondamentale |
| ROUGE | Les mesures d’évaluation basées sur le rappel se chevauchent en n-grammes entre la réponse et la vérité sur le terrain. | Réponse, réalité fondamentale |
| MÉTÉORE | Métrique pour l’évaluation de la traduction avec des mesures de classement explicite se chevauchent en n-grammes entre la réponse et la vérité au sol. | Réponse, réalité fondamentale |
Pour découvrir plus d’informations, voir Programmes d’évaluation de similarité textuelle
RAG (Génération augmentée de récupération)
| Évaluateur | Objectif | Données d'entrée |
|---|---|---|
| Récupération | Mesure la façon dont le système récupère efficacement les informations pertinentes. | Requête, contexte |
| Récupération de Documents (aperçu) | Mesure la précision dans la récupération donne la vérité au sol. | Vérité de base, documents récupérés |
| Fondement | Mesure la cohérence de la réponse par rapport au contexte récupéré. | Requête (facultatif), contexte, réponse |
| Groundedness Pro (préversion) | Mesure si la réponse est cohérente par rapport au contexte récupéré. | Requête, contexte, réponse |
| Pertinence | Mesure la pertinence de la réponse par rapport à la requête. | Requête, réponse |
| Complétude de la réponse (aperçu) | Évalue dans quelle mesure la réponse est complète, sans omission d'informations critiques, par rapport à la vérité terrain. | Réponse, réalité fondamentale |
Pour découvrir plus d’informations, consultez Programmes d’évaluation de génération augmentée de récupération (RAG).
Sûreté et sécurité (préversion)
| Évaluateur | Objectif | Données d'entrée |
|---|---|---|
| Haine et injustice | Identifie le contenu biaisé, discriminatoire ou haineux. | Requête, réponse |
| Contenu sexuel | Identifie le contenu sexuel inapproprié. | Requête, réponse |
| Violence | Détecte le contenu violent ou l’incitation. | Requête, réponse |
| Automutilation | Détecte le contenu qui promeut ou décrit l’auto-préjudice. | Requête, réponse |
| Sécurité du contenu | Évaluation complète des diverses préoccupations en matière de sécurité. | Requête, réponse |
| Matériaux protégés | Détecte l’utilisation non autorisée du contenu protégé ou protégé par le droit d’auteur. | Requête, réponse |
| Vulnérabilité du code | Identifie les problèmes de sécurité dans le code généré. | Requête, réponse |
| Attributs non fondés | Détecte les informations fabriquées ou hallucinées déduites des interactions de l'utilisateur. | Requête, contexte, réponse |
Pour découvrir plus d’informations, consultez Programmes d’évaluation de risque et de sécurité.
Agents (préversion)
| Évaluateur | Objectif | Données d'entrée |
|---|---|---|
| Résolution d’intention | Mesure la précision de l’agent pour identifier et aborder les intentions de l’utilisateur. | Requête, réponse |
| Respect des tâches | Mesure la façon dont l’agent suit les tâches identifiées. | Requête, réponse, définitions d’outils (facultatif) |
| Précision des appels de l’outil | Mesure la façon dont l’agent sélectionne et appelle les outils appropriés. | Requête, appels d’outil ou de réponse, définitions d’outils |
| Évaluateur | Objectif | Données d'entrée |
|---|---|---|
| Respect des tâches | Mesure si l’agent suit les tâches identifiées en fonction des instructions système. | Requête, réponse, définitions d’outils (facultatif) |
| Achèvement de la tâche | Mesure si l’agent a correctement terminé la tâche demandée de bout en bout. | Requête, réponse, définitions d’outils (facultatif) |
| Résolution d’intention | Mesure la précision de l’agent pour identifier et aborder les intentions de l’utilisateur. | Requête, réponse, définitions d’outils (facultatif) |
| Efficacité de la navigation des tâches | Détermine si la séquence d’étapes de l’agent correspond à un chemin optimal ou attendu pour mesurer l’efficacité. | Réponse, réalité fondamentale |
| Précision des appels de l’outil | Mesure la qualité globale des appels d’outils, notamment la sélection, la correction des paramètres et l’efficacité. | Requête, définitions d’outils, appels d’outils (facultatif), Réponse |
| Sélection de l’outil | Mesure si l’agent a sélectionné les outils les plus appropriés et efficaces pour une tâche. | Requête, définitions d’outils, appels d’outils (facultatif), Réponse |
| Précision de l’entrée de données de l’outil | Vérifie que tous les paramètres d’appel d’outil sont corrects avec des critères stricts, notamment le sol, le type, le format, l’exhaustivité et l’adéquation. | Requête, réponse, définitions d’outils |
| Utilisation de la sortie de l’outil | Mesure si l’agent interprète et utilise correctement les sorties de l’outil dans les réponses et les appels suivants. | Requête, réponse, définitions d’outils (facultatif) |
| Réussite de l’appel de l’outil | Évalue si tous les appels d’outils s’exécutent correctement sans échecs techniques. | Réponse, définitions d’outils (facultatif) |
Pour découvrir plus d’informations, consultez Programmes d’évaluation des agents.
Outils d’évaluation Azure OpenAI (préversion)
| Évaluateur | Objectif | Données d'entrée |
|---|---|---|
| Générateur d’étiquettes de modèle | Classifie le contenu à l’aide d’instructions et d’étiquettes personnalisées. | Requête, réponse, réalité fondamentale |
| Vérificateur de chaînes | Effectue des validations de texte flexibles et de la correspondance de modèles. | Réponse |
| Similarité du texte | Évalue la qualité du texte ou détermine la proximité sémantique. | Réponse, réalité fondamentale |
| Scoreur de modèle | Génère des scores numériques (plage personnalisée) pour le contenu en fonction des instructions personnalisées. | Requête, réponse, réalité fondamentale |
Pour découvrir plus d’informations, consultez Outils d’évaluation Azure OpenAI.
Programmes d’évaluation dans le cycle de vie du développement
En utilisant ces évaluateurs stratégiquement tout au long du cycle de vie de développement, les équipes peuvent créer des applications IA plus fiables, sécurisées et efficaces qui répondent aux besoins des utilisateurs tout en réduisant les risques potentiels.
Les trois étapes de l’évaluation genAIOps
GenAIOps utilise les trois étapes suivantes.
Sélection du modèle de base
Avant de créer votre application, vous devez sélectionner la base appropriée. Cette évaluation initiale vous aide à comparer différents modèles en fonction des points suivants :
- Qualité et précision : Quelles sont les réponses du modèle pertinentes et cohérentes ?
- Performances des tâches : le modèle gère-t-il efficacement vos cas d’usage spécifiques ?
- Considérations éthiques : le modèle est-il exempt de préjugés nuisibles ?
- Profil de sécurité : Quel est le risque de générer du contenu non sécurisé ?
Outils disponibles : Benchmark Microsoft Foundry pour comparer des modèles sur des jeux de données publics ou vos propres données, ainsi que le Kit de développement logiciel (SDK) Azure AI Evaluation pour tester des points de terminaison de modèle spécifiques.
Évaluation de la préproduction
Après avoir sélectionné un modèle de base, l’étape suivante consiste à développer un agent ou une application IA. Avant de déployer sur un environnement de production, des tests approfondis sont essentiels pour vous assurer que l’agent ou l’application IA est prêt à être utilisé en temps réel.
L’évaluation de la préproduction implique :
- Test avec des jeux de données d’évaluation : ces jeux de données simulent des interactions utilisateur réalistes pour garantir que l’agent IA s’exécute comme prévu.
- Identification des cas de périphérie : recherche de scénarios où la qualité de réponse de l’agent IA peut dégrader ou produire des sorties indésirables.
- Évaluation de la robustesse : s’assurer que l’agent IA peut gérer une gamme de variations d’entrée sans baisse significative de la qualité ou de la sécurité.
- Mesure des métriques clés : les métriques telles que l’adhésion aux tâches, la réactivité, la pertinence et la sécurité sont évaluées pour confirmer la préparation à la production.
L’étape de préproduction agit comme un contrôle de qualité final, ce qui réduit le risque de déploiement d’un agent ou d’une application IA qui ne répond pas aux normes de performances ou de sécurité souhaitées.
Outils et approches d’évaluation :
Apportez vos propres données : vous pouvez évaluer vos agents et applications IA en préproduction à l’aide de vos propres données d’évaluation avec les évaluateurs pris en charge, notamment la qualité, la sécurité ou les évaluateurs personnalisés, et afficher les résultats via le portail Foundry. Utilisez l’Assistant d’évaluation de Foundry ou les évaluateurs pris en charge par Azure AI Evaluation SDK, notamment la qualité de génération, la sécurité ou les évaluateurs personnalisés. Affichez les résultats à l’aide du portail Foundry.
Simulateurs et agent de red teaming d'IA : si vous n’avez pas de données d’évaluation (données de test), les simulateurs du Kit de développement logiciel Azure AI Evaluation (SDK) peuvent vous aider en générant des requêtes thématiques ou adversariales. Ces simulateurs testent la réponse du modèle aux requêtes adaptées à la situation ou de type attaque (cas limites).
- Agent IA d’équipe rouge simule des attaques contradictoires complexes contre votre système IA à l’aide d’un large éventail d’attaques de sécurité à l’aide de l’infrastructure ouverte de Microsoft pour Python Risk Identification Tool ou PyRIT.
- Les simulateurs contradictoires injectent des requêtes statiques qui imitent des risques de sécurité potentiels ou des attaques de sécurité telles que des tentatives de jailbreak, ce qui permet d’identifier les limitations et de préparer le modèle pour des conditions inattendues.
- Les simulateurs appropriés au contexte génèrent des conversations classiques et pertinentes que vous attendez des utilisateurs pour tester la qualité des réponses. Avec les simulateurs appropriés au contexte, vous pouvez évaluer des métriques telles que la pertinence, la pertinence, la cohérence et la fluidité des réponses générées.
Les analyses automatisées utilisant l’agent d’association rouge IA améliorent l’évaluation des risques de préproduction en testant systématiquement les applications IA pour les risques. Ce processus implique des scénarios d’attaque simulés pour identifier les faiblesses des réponses de modèle avant le déploiement réel. En exécutant des analyses Red Teaming IA, vous pouvez détecter et atténuer les problèmes de sécurité potentiels avant le déploiement. Il est conseillé d’utiliser cet outil dans le cadre de processus impliquant un opérateur humain (humain dans la boucle), comme l’évaluation conventionnelle par IA utilisée en équipe rouge pour accélérer l’identification des risques et faciliter l’évaluation par un expert humain.
Vous pouvez également utiliser le portail Foundry pour tester vos applications IA génératives.
Apportez vos propres données : vous pouvez évaluer vos applications IA en préproduction à l’aide de vos propres données d’évaluation avec les évaluateurs pris en charge, notamment la qualité de génération, la sécurité ou les évaluateurs personnalisés, et afficher les résultats via le portail Foundry. Utilisez l’Assistant d’évaluation de Foundry ou les évaluateurs pris en charge par le Kit de développement logiciel (SDK) Azure AI Evaluation , notamment la qualité de génération, la sécurité ou les évaluateurs personnalisés, et affichez les résultats via le portail Foundry.
Simulateurs et agent d'équipe rouge IA : si vous n’avez pas de données dévaluation (données de test), les simulateurs peuvent vous aider en générant des requêtes liées à des sujets ou des requêtes adverses. Ces simulateurs testent la réponse du modèle aux requêtes adaptées à la situation ou de type attaque (cas limites).
Agent IA d’équipe rouge simule des attaques contradictoires complexes contre votre système IA à l’aide d’un large éventail d’attaques de sécurité à l’aide de l’infrastructure ouverte de Microsoft pour Python Risk Identification Tool ou PyRIT.
Les analyses automatisées utilisant l’agent d’association rouge IA améliorent l’évaluation des risques de préproduction en testant systématiquement les applications IA pour les risques. Ce processus implique des scénarios d’attaque simulés pour identifier les faiblesses des réponses de modèle avant le déploiement réel. En exécutant des analyses Red Teaming IA, vous pouvez détecter et atténuer les problèmes de sécurité potentiels avant le déploiement. Il est conseillé d’utiliser cet outil dans le cadre de processus impliquant un opérateur humain (humain dans la boucle), comme l’évaluation conventionnelle par IA utilisée en équipe rouge pour accélérer l’identification des risques et faciliter l’évaluation par un expert humain.
Vous pouvez également utiliser le portail Foundry pour tester vos applications IA génératives.
Une fois que vous obtenez des résultats satisfaisants, vous pouvez déployer l’application IA en production.
Surveillance post-production
Après le déploiement, la supervision continue garantit la qualité de votre application IA dans des conditions réelles.
Après le déploiement, la supervision continue garantit la qualité de votre application IA dans des conditions réelles.
- Métriques opérationnelles : mesure régulière des métriques opérationnelles clés de l’agent IA.
- Évaluation continue : permet l’évaluation de la qualité et de la sécurité du trafic de production à un taux échantillonné.
- Évaluation planifiée : active l’évaluation planifiée de la qualité et de la sécurité à l’aide d’un jeu de données de test pour détecter la dérive dans les systèmes sous-jacents.
- Équipe rouge planifiée : fournit des capacités de test adverses planifiées pour détecter les vulnérabilités de sûreté et de sécurité.
- Alertes Azure Monitor : Une action rapide et immédiate lorsque des sorties dangereuses ou inappropriées se produisent. Configurez des alertes pour l’évaluation continue, afin d'être averti(e) lorsque les résultats de l’évaluation tombent sous le seuil de taux de réussite en production.
Une surveillance efficace permet de maintenir la confiance des utilisateurs et permet une résolution rapide des problèmes.
L'observabilité fournit des fonctionnalités de surveillance complètes essentielles pour le paysage complexe de l'IA d'aujourd'hui, en constante et rapide évolution. Intégrée en toute transparence à Azure Monitor Application Insights, cette solution permet une surveillance continue des applications IA déployées pour garantir des performances, une sécurité et une qualité optimales dans les environnements de production.
Le tableau de bord Foundry Observability fournit des insights en temps réel sur les métriques critiques. Elle permet aux équipes d’identifier et de résoudre rapidement les problèmes de performances, les problèmes de sécurité ou la dégradation de la qualité.
Pour les applications basées sur agent, Foundry offre des fonctionnalités d’évaluation continue améliorées. Ces fonctionnalités peuvent fournir une visibilité plus approfondie des métriques de qualité et de sécurité. Ils peuvent créer un écosystème de supervision robuste qui s’adapte à la nature dynamique des applications IA tout en conservant des normes élevées de performances et de fiabilité.
En surveillant en continu le comportement de l’application IA en production, vous pouvez maintenir des expériences utilisateur de haute qualité et résoudre rapidement les problèmes qui se posent.
Création d’une confiance par le biais d’une évaluation systématique
GenAIOps établit un processus fiable pour la gestion des applications IA tout au long de leur cycle de vie. En implémentant une évaluation approfondie à chaque étape, à partir de la sélection du modèle par le biais du déploiement et au-delà, les équipes peuvent créer des solutions IA qui ne sont pas seulement puissantes, fiables et sécurisées.
Aide-mémoire sur l’évaluation
| Objectif | Process | Paramètres, conseils et exemples |
|---|---|---|
| Que cherchez-vous à évaluer ? | Identifier ou créer des évaluateurs pertinents |
-
Exemple de cahier de qualité et de performances - Qualité de la réponse des agents - Sécurité et protection (Exemple de notebook sur la sécurité et la protection) - Personnalisé (Exemple de notebook personnalisé) |
| Quelles données devez-vous utiliser ? | Charger ou générer un jeu de données pertinent |
-
Simulateur générique pour mesurer la qualité et les performances (exemple de notebook de simulateur générique) - Simulateur adversaire pour mesurer la sécurité (Exemple de notebook de simulateur adversaire) – AI Red Teaming Agent pour l’exécution d’analyses automatisées afin d’évaluer les vulnérabilités de sécurité (exemple de notebook de AI Red Teaming Agent) |
| Comment exécuter des évaluations sur un jeu de données ? | Exécuter l’évaluation |
-
Évaluations des agents - Exécution à distance du cloud - Exécution locale |
| Quelles ont été les performances de mon modèle/application ? | Analyser les résultats | - Afficher les scores agrégés, afficher les détails, détails des scores, comparer les séries d’évaluations |
| Quelles sont les améliorations à apporter ? | Apporter des modifications aux modèles, aux applications ou aux programmes d’évaluation | – Si les résultats de l’évaluation ne se sont pas alignés sur les commentaires humains, ajustez votre programme d’évaluation. – Si les résultats de l’évaluation sont alignés sur les commentaires humains, mais ne respectaient pas les seuils de qualité/sécurité, appliquez des atténuations ciblées. Exemple d’atténuation à appliquer : Azure AI Content Safety |
| Objectif | Process | Paramètres, conseils et exemples |
|---|---|---|
| Que cherchez-vous à évaluer ? | Identifier ou créer des évaluateurs pertinents |
-
QUALITÉ RAG - Qualité des agents - Sécurité et protection (Exemple de notebook sur la sécurité et la protection) - Personnalisé (Exemple de notebook personnalisé) |
| Quelles données devez-vous utiliser ? | Charger ou générer un jeu de données pertinent |
-
Génération de jeu de données synthétique – AI Red Teaming Agent pour l’exécution d’analyses automatisées afin d’évaluer les vulnérabilités de sécurité (exemple de notebook de AI Red Teaming Agent) |
| Comment exécuter des évaluations sur un jeu de données ? | Exécuter l’évaluation |
-
Évaluations des agents - Exécution à distance du cloud |
| Quelles ont été les performances de mon modèle/application ? | Analyser les résultats | - Afficher les scores agrégés, afficher les détails, détails des scores, comparer les séries d’évaluations |
| Quelles sont les améliorations à apporter ? | Apporter des modifications aux modèles, aux applications ou aux programmes d’évaluation | – Si les résultats de l’évaluation ne se sont pas alignés sur les commentaires humains, ajustez votre programme d’évaluation. – Si les résultats de l’évaluation sont alignés sur les commentaires humains, mais ne respectaient pas les seuils de qualité/sécurité, appliquez des atténuations ciblées. Exemple d’atténuation à appliquer : Azure AI Content Safety |
Apportez votre propre réseau virtuel pour l’évaluation
À des fins d’isolation réseau, vous pouvez apporter votre propre réseau virtuel à des fins d’évaluation. Pour en savoir plus, consultez Comment configurer une liaison privée.
Note
Les données d’évaluation sont envoyées à Application Insights si Application Insights est connecté. La prise en charge du réseau virtuel pour Application Insights et le traçage n’est pas disponible. La source de données inline n’est pas prise en charge.
Important
Pour éviter les échecs d’exécution lors des évaluations et des red teamings, attribuez le rôle d'Utilisateur Azure AI à l'identité managée du projet lors de la configuration initiale du projet.
Support de la région de réseau virtuel
L'apport de votre propre réseau virtuel pour l'évaluation est pris en charge dans toutes les régions, à l’exception de l’Inde centrale, de l’Asie de l'Est, de l’Europe du Nord et du Centre du Qatar.
Soutien régional
Actuellement, certains programmes d’évaluation assistés par l’IA sont disponibles uniquement dans les régions suivantes :
| Région | Haine et injustice, Sexuel, Violent, Automutilation, Attaque indirecte, Vulnérabilités du code, Attributs sans fondement | Groundedness Pro | Matériel protégé |
|---|---|---|---|
| Est des États-Unis 2 | Soutenu | Soutenu | Soutenu |
| Suède Centre | Soutenu | Soutenu | N/A |
| USA Centre Nord | Soutenu | N/A | N/A |
| France Centrale | Soutenu | N/A | N/A |
| Suisse Ouest | Soutenu | N/A | N/A |
Prise en charge de la région dévaluation du terrain de jeu de l’agent
| Région | Statut |
|---|---|
| East US | Soutenu |
| Est des États-Unis 2 | Soutenu |
| West US | Soutenu |
| Ouest des États-Unis 2 | Soutenu |
| Ouest des États-Unis 3 | Soutenu |
| France Centrale | Soutenu |
| Norvège Est | Soutenu |
| Suède Centre | Soutenu |
Tarification
Les fonctionnalités d’observabilité telles que les évaluations de risque et de sécurité et les évaluations continues sont facturées en fonction de la consommation, comme indiqué dans notre page de tarification Azure.