Atténuer les risques potentiels

Effectué

Après avoir déterminé une ligne de base et un moyen de mesurer la sortie dangereuse générée par une solution, vous pouvez prendre des mesures pour atténuer les dommages potentiels, et quand il convient de retester le système modifié et de comparer les niveaux de préjudice par rapport à la base de référence.

L’atténuation des dommages potentiels dans une solution d’IA générative implique une approche en couches, dans laquelle les techniques d’atténuation peuvent être appliquées à chacune des quatre couches, comme illustré ici :

Diagramme montrant le modèle, le système de sécurité, l’application et les couches de positionnement d’une solution IA générative.

  1. Modèle
  2. Système de sécurité
  3. Message système et ancrage
  4. Expérience utilisateur

1 : La couche modèle

La couche de modèle se compose d’un ou plusieurs modèles d’INTELLIGENCE artificielle générative au cœur de votre solution. Par exemple, votre solution peut être générée autour d’un modèle tel que GPT-4.

Les atténuations que vous pouvez appliquer au niveau de la couche modèle sont les suivantes :

  • Sélection d’un modèle approprié pour l’utilisation de la solution prévue. Par exemple, alors que GPT-4 peut être un modèle puissant et polyvalent, dans une solution qui n’est nécessaire que pour classifier de petites entrées de texte spécifiques, un modèle plus simple peut fournir les fonctionnalités requises avec un risque moindre de génération de contenu nuisible.
  • Ajuster un modèle de base avec vos propres données d’apprentissage afin que les réponses qu’il génère soient plus pertinentes et étendues à votre scénario de solution.

La couche du système de sécurité

La couche système de sécurité inclut des configurations et des fonctionnalités au niveau de la plateforme qui aident à atténuer les dommages. Par exemple, Microsoft Foundry inclut la prise en charge des filtres de contenu qui appliquent des critères pour supprimer les invites et les réponses en fonction de la classification du contenu en quatre niveaux de gravité (sécurisé, faible, moyen et élevé) pour quatre catégories de préjudice potentiel (haine, sexualité, violence et auto-préjudice).

D’autres atténuations de la couche système de sécurité peuvent inclure des algorithmes de détection des abus pour déterminer si la solution est systématiquement maltraitée (par exemple, par le biais de volumes élevés de requêtes automatisées d’un bot) et de notifications d’alerte qui permettent une réponse rapide à des abus potentiels du système ou à un comportement dangereux.

3 : Le message système et la couche d'ancrage

Cette couche se concentre sur la construction d'instructions soumises au modèle. Les techniques d’atténuation des dommages que vous pouvez appliquer à cette couche sont les suivantes :

  • Spécification des entrées système qui définissent des paramètres comportementaux pour le modèle.
  • Application de l’ingénierie des invites pour ajouter des données d’ancrage aux invites d’entrée, optimisant ainsi la probabilité d’une sortie pertinente et non dangereuse.
  • Utilisation d’une approche de génération augmentée de récupération (RAG) pour récupérer des données contextuelles à partir de sources de données fiables et les inclure dans des invites.

4 : Couche d’expérience utilisateur

La couche expérience utilisateur inclut l’application logicielle par laquelle les utilisateurs interagissent avec le modèle d’IA générative ainsi que la documentation ou d'autres supports utilisateur qui décrivent l’utilisation de la solution à ses utilisateurs et parties prenantes.

La conception de l’interface utilisateur de l’application pour limiter les entrées à des sujets ou types spécifiques, ou l’application d’une validation d’entrée et de sortie peut atténuer le risque de réponses potentiellement dangereuses.

La documentation et d’autres descriptions d’une solution d’IA générative doivent être correctement transparentes sur les fonctionnalités et les limitations du système, les modèles sur lesquels il est basé et tous les dommages potentiels qui peuvent ne pas toujours être traités par les mesures d’atténuation que vous avez mises en place.