Mitigar posibles daños

Completado

Después de determinar una línea de base y una forma de medir la salida perjudicial generada por una solución, puede tomar medidas para mitigar los posibles daños y, cuando corresponda, vuelva a probar el sistema modificado y compare los niveles de daño con la línea base.

La mitigación de posibles daños en una solución de IA generativa implica un enfoque en capas, en el que se pueden aplicar técnicas de mitigación en cada una de las cuatro capas, como se muestra aquí:

Diagrama que muestra el modelo, el sistema de seguridad, la aplicación y las capas de posicionamiento de una solución de IA generativa.

  1. Modelo
  2. Sistema de seguridad
  3. Mensaje del sistema y puesta a tierra
  4. Experiencia del usuario

1: La capa del modelo

La capa de modelo consta de uno o varios modelos de IA generativos en el centro de la solución. Por ejemplo, la solución puede crearse en torno a un modelo como GPT-4.

Entre las mitigaciones que puede aplicar en la capa de modelo se incluyen:

  • Selección de un modelo adecuado para el uso previsto de la solución. Por ejemplo, aunque GPT-4 puede ser un modelo eficaz y versátil, en una solución que solo se requiere para clasificar entradas de texto pequeñas y específicas, un modelo más sencillo podría proporcionar la funcionalidad necesaria con un menor riesgo de generación de contenido perjudicial.
  • ajuste preciso un modelo fundamental con sus propios datos de entrenamiento para que las respuestas que genere sean más relevantes y tengan más ámbito en el escenario de la solución.

2: La capa del sistema de seguridad

La capa del sistema de seguridad incluye configuraciones y funcionalidades de nivel de plataforma que ayudan a mitigar los daños. Por ejemplo, Microsoft Foundry incluye compatibilidad con filtros de contenido que aplican criterios para suprimir solicitudes y respuestas en función de la clasificación de contenido en cuatro niveles de gravedad (seguros, bajos, medianos y altos) para cuatro categorías de posibles daños (odio, sexual, violencia y autolesión).

Otras mitigaciones de la capa del sistema de seguridad pueden incluir algoritmos de detección de abusos para determinar si la solución se está abusando sistemáticamente (por ejemplo, a través de grandes volúmenes de solicitudes automatizadas de un bot) y notificaciones de alerta que permiten una respuesta rápida a posibles abusos del sistema o comportamiento dañino.

3: El mensaje del sistema y la capa de base

Esta capa se centra en la construcción de indicaciones que se envían al modelo. Las técnicas de mitigación de daños que puede aplicar en esta capa incluyen:

  • Especificar entradas del sistema que definen parámetros de comportamiento para el modelo.
  • Aplicar ingeniería rápida para agregar datos de puesta a tierra a los avisos de entrada, maximizando la probabilidad de una salida relevante y no compartido.
  • Usar un enfoque de recuperación aumentada de generación (RAG) para recuperar datos contextuales de orígenes de datos de confianza e incluirlos en mensajes.

4: Nivel de experiencia del usuario

El nivel de experiencia del usuario incluye la aplicación de software a través de la cual los usuarios interactúan con el modelo de IA generativo y la documentación u otro material adjunto de usuario que describe el uso de la solución para sus usuarios y partes interesadas.

Diseñar la interfaz de usuario de la aplicación para restringir las entradas a determinados temas o tipos, o aplicar la validación de entrada y salida puede mitigar el riesgo de respuestas potencialmente perjudiciales.

La documentación y otras descripciones de una solución de IA generativa deben ser adecuadamente transparentes sobre las funcionalidades y limitaciones del sistema, los modelos en los que se basa y los posibles daños que pueden no ser siempre tratados por las medidas de mitigación que se han implementado.