Compartir a través de


Revisión humana para automatización con un mensaje

Este artículo explica el papel fundamental de la revisión humana al ejecutar un mensaje. Las solicitudes usan modelos de IA generativa con tecnología del Servicio Azure OpenAI. Aunque estos modelos son muy eficaces, a veces pueden generar información engañosa o inventada y son susceptibles a ataques de inyección rápidos.

Importante

Ataques de inyección rápida

Un ataque de inyección rápida ocurre cuando un tercero aprovecha la confianza inherente del modelo en todas las fuentes de entrada. El atacante inyecta una pregunta en el contenido con el que un usuario legítimo solicita a la solución de IA que interactúe, lo que provoca un cambio en la salida de la solución de IA y, potencialmente, en sus acciones.

Piense en un escenario en el que un desarrollador civil usa una solicitud para crear respuestas a las quejas de los clientes recopiladas de varias plataformas, como correos electrónicos, redes sociales o foros. Un atacante podría insertar una solicitud en el contenido de uno de estos orígenes, engañando al modelo para que genere una respuesta no deseada. La respuesta puede ser inapropiada, incorrecta o dañina. El envío de información incorrecta a los clientes puede dañar la reputación de la empresa y las relaciones con los clientes.

Fabricación en modelos de IA

La falsificación, también conocida como alucinación, es otro reto al que se enfrentan los modelos de IA, incluidos los modelos de IA generativa utilizados por la indicación. La fabricación ocurre cuando el modelo de IA genera información que no se basa en entradas proporcionadas o datos preexistentes, esencialmente inventando o alucinando información.

Por ejemplo, si se pide al modelo de IA que genere un resumen de un evento histórico basado en un texto determinado, puede incluir detalles o eventos que no se mencionaron en el texto fuente. Por ejemplo, un flujo de nube crea una sinopsis de una reunión basada en la transcripción de la grabación. Los datos de entrada incluyen detalles sobre los asistentes, los artículos discutidos y las decisiones tomadas. Sin embargo, el modelo podría generar un resumen que incluya un elemento de acción o una decisión que nunca se discutió en la reunión. Esta situación es un ejemplo de fabricación, donde el modelo ha alucinado información que no existe en los datos de entrada.

Para mitigar el riesgo de fabricación, es fundamental implementar prácticas responsables de IA. Esto incluye pruebas rigurosas del aviso y el flujo de nube, proporcionando al modelo la mayor cantidad de información contextual posible y, finalmente, implementando un sistema sólido para la supervisión humana.

Abordar los riesgos mediante prácticas responsables de IA

Abogamos por prácticas responsables de IA como medio para reducir los riesgos. A pesar de contar con estrategias para moderar el contenido producido por el modelo, gestionar la propensión del modelo a generar respuestas fabricadas o sucumbir a ataques de inyección sigue siendo un desafío complejo. Reconocemos estos riesgos y reafirmamos nuestro compromiso con la supervisión y el control humanos.

En reconocimiento de la necesidad de una automatización perfecta, estamos mejorando proactivamente nuestros sistemas de seguridad y buscando una comprensión más profunda de estos desafíos.

Nuestro objetivo es perfeccionar aún más los modelos de IA generativa utilizados por las solicitudes con las medidas de seguridad adecuadas, en línea con nuestros principios de IA responsable por diseño, devolviendo el control a los desarrolladores siempre que sea posible.