Observabilité dans l’IA générative

Note

Ce document fait référence au portail Microsoft Foundry (classique).

🔄 Accédez à la documentation Microsoft Foundry (nouveau) si vous utilisez le nouveau portail.

Note

Ce document fait référence au portail Microsoft Foundry (nouveau).

Important

Les éléments marqués (aperçu) dans cet article sont actuellement en aperçu public. Cette version préliminaire est fournie sans contrat de niveau de service, et nous la déconseillons pour les charges de travail en production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’utilisation supplémentaires pour les préversions de Microsoft Azure.

Dans le monde basé sur l’IA d’aujourd’hui, Générative AI Operations (GenAIOps) révolutionne la façon dont les organisations créent et déploient des systèmes intelligents. Étant donné que les entreprises utilisent de plus en plus des agents et des applications IA pour transformer la prise de décision, améliorer les expériences client et alimenter l’innovation, un élément est essentiel : des infrastructures d’évaluation robustes. L’évaluation n’est pas seulement un point de contrôle. C’est la base de la qualité et de la confiance dans les applications IA. Sans évaluation et surveillance rigoureuses, les systèmes IA peuvent produire du contenu qui est :

Fabriqué ou sans fondement dans la réalité
Non pertinent ou incohérent
Néfaste pour perpétuer les risques et stéréotypes liés au contenu
Dangereux dans la diffusion de fausses informations
Vulnérable aux attaques de sécurité

C’est là que l’observabilité devient essentielle. Ces fonctionnalités mesurent à la fois la fréquence et la gravité des risques dans les sorties d’IA, ce qui permet aux équipes de traiter systématiquement les problèmes de qualité, de sécurité et de sécurité tout au long du parcours de développement de l’IA, de la sélection du modèle approprié à la surveillance des performances de production, de la qualité et de la sécurité.

Qu’est-ce que l’observabilité ?

L’observabilité de l’IA fait référence à la possibilité de surveiller, comprendre et résoudre les problèmes des systèmes IA tout au long de leur cycle de vie. Elle implique la collecte et l’analyse des signaux tels que les métriques d’évaluation, les journaux, les traces et les sorties de modèle et d’agent pour obtenir une visibilité sur les performances, la qualité, la sécurité et l’intégrité opérationnelle.

Qu’est-ce que les évaluateurs ?

Les évaluateurs sont des outils spécialisés qui mesurent la qualité, la sécurité et la fiabilité des réponses ia. En implémentant des évaluations systématiques tout au long du cycle de vie du développement d’IA, les équipes peuvent identifier et résoudre les problèmes potentiels avant qu’elles n’affectent les utilisateurs. Les évaluateurs pris en charge suivants fournissent des fonctionnalités d’évaluation complètes sur différents types et préoccupations d’application IA :

Usage général

Évaluateur	Objectif	Données d'entrée
Cohérence	Mesure la cohérence logique et le flux des réponses.	Requête, réponse
Fluidité	Mesure la qualité et la lisibilité du langage naturel.	Réponse
Assurance qualité	Mesure de manière exhaustive différents aspects de la qualité dans la réponse aux questions.	Requête, contexte, réponse, réalité fondamentale

Pour découvrir plus d’informations, consultez Programmes d’évaluation à usage général.

Similarité textuelle

Évaluateur	Objectif	Données d'entrée
Similarité	Mesure de similarité textuelle assistée par l’IA.	Requête, contexte, réalité fondamentale
Score F1	La moyenne harmonique de précision et de rappel dans les jetons chevauche la réponse et la vérité terrestre.	Réponse, réalité fondamentale
BLEU	Le score d’évaluation bilingue Understudy pour les mesures de qualité de la traduction se chevauche en n-grammes entre la réponse et la vérité au sol.	Réponse, réalité fondamentale
GLEU	La variante Google-BLEU pour les mesures d’évaluation au niveau de la phrase se chevauche en n-grammes entre la réponse et la vérité au sol.	Réponse, réalité fondamentale
ROUGE	Les mesures d’évaluation basées sur le rappel se chevauchent en n-grammes entre la réponse et la vérité sur le terrain.	Réponse, réalité fondamentale
MÉTÉORE	Métrique pour l’évaluation de la traduction avec des mesures de classement explicite se chevauchent en n-grammes entre la réponse et la vérité au sol.	Réponse, réalité fondamentale

Pour découvrir plus d’informations, voir Programmes d’évaluation de similarité textuelle

RAG (Génération augmentée de récupération)

Évaluateur	Objectif	Données d'entrée
Récupération	Mesure la façon dont le système récupère efficacement les informations pertinentes.	Requête, contexte
Récupération de Documents (aperçu)	Mesure la précision dans la récupération donne la vérité au sol.	Vérité de base, documents récupérés
Fondement	Mesure la cohérence de la réponse par rapport au contexte récupéré.	Requête (facultatif), contexte, réponse
Groundedness Pro (préversion)	Mesure si la réponse est cohérente par rapport au contexte récupéré.	Requête, contexte, réponse
Pertinence	Mesure la pertinence de la réponse par rapport à la requête.	Requête, réponse
Complétude de la réponse (aperçu)	Évalue dans quelle mesure la réponse est complète, sans omission d'informations critiques, par rapport à la vérité terrain.	Réponse, réalité fondamentale

Pour découvrir plus d’informations, consultez Programmes d’évaluation de génération augmentée de récupération (RAG).

Sûreté et sécurité (préversion)

Évaluateur	Objectif	Données d'entrée
Haine et injustice	Identifie le contenu biaisé, discriminatoire ou haineux.	Requête, réponse
Contenu sexuel	Identifie le contenu sexuel inapproprié.	Requête, réponse
Violence	Détecte le contenu violent ou l’incitation.	Requête, réponse
Automutilation	Détecte le contenu qui promeut ou décrit l’auto-préjudice.	Requête, réponse
Sécurité du contenu	Évaluation complète des diverses préoccupations en matière de sécurité.	Requête, réponse
Matériaux protégés	Détecte l’utilisation non autorisée du contenu protégé ou protégé par le droit d’auteur.	Requête, réponse
Vulnérabilité du code	Identifie les problèmes de sécurité dans le code généré.	Requête, réponse
Attributs non fondés	Détecte les informations fabriquées ou hallucinées déduites des interactions de l'utilisateur.	Requête, contexte, réponse

Pour découvrir plus d’informations, consultez Programmes d’évaluation de risque et de sécurité.

Agents (préversion)

Évaluateur	Objectif	Données d'entrée
Résolution d’intention	Mesure la précision de l’agent pour identifier et aborder les intentions de l’utilisateur.	Requête, réponse
Respect des tâches	Mesure la façon dont l’agent suit les tâches identifiées.	Requête, réponse, définitions d’outils (facultatif)
Précision des appels de l’outil	Mesure la façon dont l’agent sélectionne et appelle les outils appropriés.	Requête, appels d’outil ou de réponse, définitions d’outils

Évaluateur	Objectif	Données d'entrée
Respect des tâches	Mesure si l’agent suit les tâches identifiées en fonction des instructions système.	Requête, réponse, définitions d’outils (facultatif)
Achèvement de la tâche	Mesure si l’agent a correctement terminé la tâche demandée de bout en bout.	Requête, réponse, définitions d’outils (facultatif)
Résolution d’intention	Mesure la précision de l’agent pour identifier et aborder les intentions de l’utilisateur.	Requête, réponse, définitions d’outils (facultatif)
Efficacité de la navigation des tâches	Détermine si la séquence d’étapes de l’agent correspond à un chemin optimal ou attendu pour mesurer l’efficacité.	Réponse, réalité fondamentale
Précision des appels de l’outil	Mesure la qualité globale des appels d’outils, notamment la sélection, la correction des paramètres et l’efficacité.	Requête, définitions d’outils, appels d’outils (facultatif), Réponse
Sélection de l’outil	Mesure si l’agent a sélectionné les outils les plus appropriés et efficaces pour une tâche.	Requête, définitions d’outils, appels d’outils (facultatif), Réponse
Précision de l’entrée de données de l’outil	Vérifie que tous les paramètres d’appel d’outil sont corrects avec des critères stricts, notamment le sol, le type, le format, l’exhaustivité et l’adéquation.	Requête, réponse, définitions d’outils
Utilisation de la sortie de l’outil	Mesure si l’agent interprète et utilise correctement les sorties de l’outil dans les réponses et les appels suivants.	Requête, réponse, définitions d’outils (facultatif)
Réussite de l’appel de l’outil	Évalue si tous les appels d’outils s’exécutent correctement sans échecs techniques.	Réponse, définitions d’outils (facultatif)

Pour découvrir plus d’informations, consultez Programmes d’évaluation des agents.

Outils d’évaluation Azure OpenAI (préversion)

Évaluateur	Objectif	Données d'entrée
Générateur d’étiquettes de modèle	Classifie le contenu à l’aide d’instructions et d’étiquettes personnalisées.	Requête, réponse, réalité fondamentale
Vérificateur de chaînes	Effectue des validations de texte flexibles et de la correspondance de modèles.	Réponse
Similarité du texte	Évalue la qualité du texte ou détermine la proximité sémantique.	Réponse, réalité fondamentale
Scoreur de modèle	Génère des scores numériques (plage personnalisée) pour le contenu en fonction des instructions personnalisées.	Requête, réponse, réalité fondamentale

Pour découvrir plus d’informations, consultez Outils d’évaluation Azure OpenAI.

Programmes d’évaluation dans le cycle de vie du développement

En utilisant ces évaluateurs stratégiquement tout au long du cycle de vie de développement, les équipes peuvent créer des applications IA plus fiables, sécurisées et efficaces qui répondent aux besoins des utilisateurs tout en réduisant les risques potentiels.

Les trois étapes de l’évaluation genAIOps

GenAIOps utilise les trois étapes suivantes.

Sélection du modèle de base

Avant de créer votre application, vous devez sélectionner la base appropriée. Cette évaluation initiale vous aide à comparer différents modèles en fonction des points suivants :

Qualité et précision : Quelles sont les réponses du modèle pertinentes et cohérentes ?
Performances des tâches : le modèle gère-t-il efficacement vos cas d’usage spécifiques ?
Considérations éthiques : le modèle est-il exempt de préjugés nuisibles ?
Profil de sécurité : Quel est le risque de générer du contenu non sécurisé ?

Outils disponibles : Benchmark Microsoft Foundry pour comparer des modèles sur des jeux de données publics ou vos propres données, ainsi que le Kit de développement logiciel (SDK) Azure AI Evaluation pour tester des points de terminaison de modèle spécifiques.

Évaluation de la préproduction

Après avoir sélectionné un modèle de base, l’étape suivante consiste à développer un agent ou une application IA. Avant de déployer sur un environnement de production, des tests approfondis sont essentiels pour vous assurer que l’agent ou l’application IA est prêt à être utilisé en temps réel.

L’évaluation de la préproduction implique :

Test avec des jeux de données d’évaluation : ces jeux de données simulent des interactions utilisateur réalistes pour garantir que l’agent IA s’exécute comme prévu.
Identification des cas de périphérie : recherche de scénarios où la qualité de réponse de l’agent IA peut dégrader ou produire des sorties indésirables.
Évaluation de la robustesse : s’assurer que l’agent IA peut gérer une gamme de variations d’entrée sans baisse significative de la qualité ou de la sécurité.
Mesure des métriques clés : les métriques telles que l’adhésion aux tâches, la réactivité, la pertinence et la sécurité sont évaluées pour confirmer la préparation à la production.

L’étape de préproduction agit comme un contrôle de qualité final, ce qui réduit le risque de déploiement d’un agent ou d’une application IA qui ne répond pas aux normes de performances ou de sécurité souhaitées.

Outils et approches d’évaluation :

Apportez vos propres données : vous pouvez évaluer vos agents et applications IA en préproduction à l’aide de vos propres données d’évaluation avec les évaluateurs pris en charge, notamment la qualité, la sécurité ou les évaluateurs personnalisés, et afficher les résultats via le portail Foundry. Utilisez l’Assistant d’évaluation de Foundry ou les évaluateurs pris en charge par Azure AI Evaluation SDK, notamment la qualité de génération, la sécurité ou les évaluateurs personnalisés. Affichez les résultats à l’aide du portail Foundry.
Simulateurs et agent de red teaming d'IA : si vous n’avez pas de données d’évaluation (données de test), les simulateurs du Kit de développement logiciel Azure AI Evaluation (SDK) peuvent vous aider en générant des requêtes thématiques ou adversariales. Ces simulateurs testent la réponse du modèle aux requêtes adaptées à la situation ou de type attaque (cas limites).
- Agent IA d’équipe rouge simule des attaques contradictoires complexes contre votre système IA à l’aide d’un large éventail d’attaques de sécurité à l’aide de l’infrastructure ouverte de Microsoft pour Python Risk Identification Tool ou PyRIT.
- Les simulateurs contradictoires injectent des requêtes statiques qui imitent des risques de sécurité potentiels ou des attaques de sécurité telles que des tentatives de jailbreak, ce qui permet d’identifier les limitations et de préparer le modèle pour des conditions inattendues.
- Les simulateurs appropriés au contexte génèrent des conversations classiques et pertinentes que vous attendez des utilisateurs pour tester la qualité des réponses. Avec les simulateurs appropriés au contexte, vous pouvez évaluer des métriques telles que la pertinence, la pertinence, la cohérence et la fluidité des réponses générées.
Les analyses automatisées utilisant l’agent d’association rouge IA améliorent l’évaluation des risques de préproduction en testant systématiquement les applications IA pour les risques. Ce processus implique des scénarios d’attaque simulés pour identifier les faiblesses des réponses de modèle avant le déploiement réel. En exécutant des analyses Red Teaming IA, vous pouvez détecter et atténuer les problèmes de sécurité potentiels avant le déploiement. Il est conseillé d’utiliser cet outil dans le cadre de processus impliquant un opérateur humain (humain dans la boucle), comme l’évaluation conventionnelle par IA utilisée en équipe rouge pour accélérer l’identification des risques et faciliter l’évaluation par un expert humain.

Vous pouvez également utiliser le portail Foundry pour tester vos applications IA génératives.

Apportez vos propres données : vous pouvez évaluer vos applications IA en préproduction à l’aide de vos propres données d’évaluation avec les évaluateurs pris en charge, notamment la qualité de génération, la sécurité ou les évaluateurs personnalisés, et afficher les résultats via le portail Foundry. Utilisez l’Assistant d’évaluation de Foundry ou les évaluateurs pris en charge par le Kit de développement logiciel (SDK) Azure AI Evaluation , notamment la qualité de génération, la sécurité ou les évaluateurs personnalisés, et affichez les résultats via le portail Foundry.
Simulateurs et agent d'équipe rouge IA : si vous n’avez pas de données dévaluation (données de test), les simulateurs peuvent vous aider en générant des requêtes liées à des sujets ou des requêtes adverses. Ces simulateurs testent la réponse du modèle aux requêtes adaptées à la situation ou de type attaque (cas limites).

Agent IA d’équipe rouge simule des attaques contradictoires complexes contre votre système IA à l’aide d’un large éventail d’attaques de sécurité à l’aide de l’infrastructure ouverte de Microsoft pour Python Risk Identification Tool ou PyRIT.

Les analyses automatisées utilisant l’agent d’association rouge IA améliorent l’évaluation des risques de préproduction en testant systématiquement les applications IA pour les risques. Ce processus implique des scénarios d’attaque simulés pour identifier les faiblesses des réponses de modèle avant le déploiement réel. En exécutant des analyses Red Teaming IA, vous pouvez détecter et atténuer les problèmes de sécurité potentiels avant le déploiement. Il est conseillé d’utiliser cet outil dans le cadre de processus impliquant un opérateur humain (humain dans la boucle), comme l’évaluation conventionnelle par IA utilisée en équipe rouge pour accélérer l’identification des risques et faciliter l’évaluation par un expert humain.

Vous pouvez également utiliser le portail Foundry pour tester vos applications IA génératives.

Une fois que vous obtenez des résultats satisfaisants, vous pouvez déployer l’application IA en production.

Surveillance post-production

Après le déploiement, la supervision continue garantit la qualité de votre application IA dans des conditions réelles.

Métriques opérationnelles : mesure régulière des métriques opérationnelles clés de l’agent IA.
Évaluation continue : permet l’évaluation de la qualité et de la sécurité du trafic de production à un taux échantillonné.
Évaluation planifiée : active l’évaluation planifiée de la qualité et de la sécurité à l’aide d’un jeu de données de test pour détecter la dérive dans les systèmes sous-jacents.
Équipe rouge planifiée : fournit des capacités de test adverses planifiées pour détecter les vulnérabilités de sûreté et de sécurité.
Alertes Azure Monitor : Une action rapide et immédiate lorsque des sorties dangereuses ou inappropriées se produisent. Configurez des alertes pour l’évaluation continue, afin d'être averti(e) lorsque les résultats de l’évaluation tombent sous le seuil de taux de réussite en production.

Une surveillance efficace permet de maintenir la confiance des utilisateurs et permet une résolution rapide des problèmes.

L'observabilité fournit des fonctionnalités de surveillance complètes essentielles pour le paysage complexe de l'IA d'aujourd'hui, en constante et rapide évolution. Intégrée en toute transparence à Azure Monitor Application Insights, cette solution permet une surveillance continue des applications IA déployées pour garantir des performances, une sécurité et une qualité optimales dans les environnements de production.

Le tableau de bord Foundry Observability fournit des insights en temps réel sur les métriques critiques. Elle permet aux équipes d’identifier et de résoudre rapidement les problèmes de performances, les problèmes de sécurité ou la dégradation de la qualité.

Pour les applications basées sur agent, Foundry offre des fonctionnalités d’évaluation continue améliorées. Ces fonctionnalités peuvent fournir une visibilité plus approfondie des métriques de qualité et de sécurité. Ils peuvent créer un écosystème de supervision robuste qui s’adapte à la nature dynamique des applications IA tout en conservant des normes élevées de performances et de fiabilité.

En surveillant en continu le comportement de l’application IA en production, vous pouvez maintenir des expériences utilisateur de haute qualité et résoudre rapidement les problèmes qui se posent.

Création d’une confiance par le biais d’une évaluation systématique

GenAIOps établit un processus fiable pour la gestion des applications IA tout au long de leur cycle de vie. En implémentant une évaluation approfondie à chaque étape, à partir de la sélection du modèle par le biais du déploiement et au-delà, les équipes peuvent créer des solutions IA qui ne sont pas seulement puissantes, fiables et sécurisées.

Aide-mémoire sur l’évaluation

Objectif	Process	Paramètres, conseils et exemples
Que cherchez-vous à évaluer ?	Identifier ou créer des évaluateurs pertinents	- Exemple de cahier de qualité et de performances - Qualité de la réponse des agents - Sécurité et protection (Exemple de notebook sur la sécurité et la protection) - Personnalisé (Exemple de notebook personnalisé)
Quelles données devez-vous utiliser ?	Charger ou générer un jeu de données pertinent	- Simulateur générique pour mesurer la qualité et les performances (exemple de notebook de simulateur générique) - Simulateur adversaire pour mesurer la sécurité (Exemple de notebook de simulateur adversaire) – AI Red Teaming Agent pour l’exécution d’analyses automatisées afin d’évaluer les vulnérabilités de sécurité (exemple de notebook de AI Red Teaming Agent)
Comment exécuter des évaluations sur un jeu de données ?	Exécuter l’évaluation	- Évaluations des agents - Exécution à distance du cloud - Exécution locale
Quelles ont été les performances de mon modèle/application ?	Analyser les résultats	- Afficher les scores agrégés, afficher les détails, détails des scores, comparer les séries d’évaluations
Quelles sont les améliorations à apporter ?	Apporter des modifications aux modèles, aux applications ou aux programmes d’évaluation	– Si les résultats de l’évaluation ne se sont pas alignés sur les commentaires humains, ajustez votre programme d’évaluation. – Si les résultats de l’évaluation sont alignés sur les commentaires humains, mais ne respectaient pas les seuils de qualité/sécurité, appliquez des atténuations ciblées. Exemple d’atténuation à appliquer : Azure AI Content Safety

Objectif	Process	Paramètres, conseils et exemples
Que cherchez-vous à évaluer ?	Identifier ou créer des évaluateurs pertinents	- QUALITÉ RAG - Qualité des agents - Sécurité et protection (Exemple de notebook sur la sécurité et la protection) - Personnalisé (Exemple de notebook personnalisé)
Quelles données devez-vous utiliser ?	Charger ou générer un jeu de données pertinent	- Génération de jeu de données synthétique – AI Red Teaming Agent pour l’exécution d’analyses automatisées afin d’évaluer les vulnérabilités de sécurité (exemple de notebook de AI Red Teaming Agent)
Comment exécuter des évaluations sur un jeu de données ?	Exécuter l’évaluation	- Évaluations des agents - Exécution à distance du cloud
Quelles ont été les performances de mon modèle/application ?	Analyser les résultats	- Afficher les scores agrégés, afficher les détails, détails des scores, comparer les séries d’évaluations
Quelles sont les améliorations à apporter ?	Apporter des modifications aux modèles, aux applications ou aux programmes d’évaluation	– Si les résultats de l’évaluation ne se sont pas alignés sur les commentaires humains, ajustez votre programme d’évaluation. – Si les résultats de l’évaluation sont alignés sur les commentaires humains, mais ne respectaient pas les seuils de qualité/sécurité, appliquez des atténuations ciblées. Exemple d’atténuation à appliquer : Azure AI Content Safety

Apportez votre propre réseau virtuel pour l’évaluation

À des fins d’isolation réseau, vous pouvez apporter votre propre réseau virtuel à des fins d’évaluation. Pour en savoir plus, consultez Comment configurer une liaison privée.

Note

Les données d’évaluation sont envoyées à Application Insights si Application Insights est connecté. La prise en charge du réseau virtuel pour Application Insights et le traçage n’est pas disponible. La source de données inline n’est pas prise en charge.

Important

Pour éviter les échecs d’exécution lors des évaluations et des red teamings, attribuez le rôle d'Utilisateur Azure AI à l'identité managée du projet lors de la configuration initiale du projet.

Support de la région de réseau virtuel

L'apport de votre propre réseau virtuel pour l'évaluation est pris en charge dans toutes les régions, à l’exception de l’Inde centrale, de l’Asie de l'Est, de l’Europe du Nord et du Centre du Qatar.

Soutien régional

Actuellement, certains programmes d’évaluation assistés par l’IA sont disponibles uniquement dans les régions suivantes :

Région	Haine et injustice, Sexuel, Violent, Automutilation, Attaque indirecte, Vulnérabilités du code, Attributs sans fondement	Groundedness Pro	Matériel protégé
Est des États-Unis 2	Soutenu	Soutenu	Soutenu
Suède Centre	Soutenu	Soutenu	N/A
USA Centre Nord	Soutenu	N/A	N/A
France Centrale	Soutenu	N/A	N/A
Suisse Ouest	Soutenu	N/A	N/A

Prise en charge de la région dévaluation du terrain de jeu de l’agent

Région	Statut
East US	Soutenu
Est des États-Unis 2	Soutenu
West US	Soutenu
Ouest des États-Unis 2	Soutenu
Ouest des États-Unis 3	Soutenu
France Centrale	Soutenu
Norvège Est	Soutenu
Suède Centre	Soutenu

Tarification

Les fonctionnalités d’observabilité telles que les évaluations de risque et de sécurité et les évaluations continues sont facturées en fonction de la consommation, comme indiqué dans notre page de tarification Azure.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2025-12-20

Partager via

Observabilité dans l’IA générative

Qu’est-ce que l’observabilité ?

Qu’est-ce que les évaluateurs ?

Usage général

Similarité textuelle

RAG (Génération augmentée de récupération)

Sûreté et sécurité (préversion)

Agents (préversion)

Outils d’évaluation Azure OpenAI (préversion)

Programmes d’évaluation dans le cycle de vie du développement

Les trois étapes de l’évaluation genAIOps

Sélection du modèle de base

Évaluation de la préproduction

Surveillance post-production

Création d’une confiance par le biais d’une évaluation systématique

Aide-mémoire sur l’évaluation

Apportez votre propre réseau virtuel pour l’évaluation

Support de la région de réseau virtuel

Soutien régional

Prise en charge de la région dévaluation du terrain de jeu de l’agent

Tarification

Contenu connexe

Commentaires

Ressources supplémentaires