Compartir a través de


Serie de formación en red team de IA: protección de sistemas de inteligencia artificial generativa

La serie de aprendizaje de Microsoft AI Red Teaming 101 ayuda a los profesionales a proteger los sistemas de inteligencia artificial generativos frente a amenazas emergentes. Esta serie profundiza en vulnerabilidades, técnicas de ataque y estrategias de defensa, lo que proporciona información práctica y experiencia práctica. Tanto si es experto en seguridad, ingeniero de aprendizaje automático como líder empresarial, obtendrá conocimientos prácticos a través de casos prácticos, episodios modulares y herramientas de pruebas automatizadas. Explora temas como ataques por inyección de mensajes, técnicas adversariales de múltiples turnos y métodos de defensa escalables para mejorar tu experiencia en seguridad de la IA.

Por qué ver esta serie de entrenamiento

Obtenga consejos útiles para ayudar a identificar, aprovechar y defenderse contra vulnerabilidades críticas en sistemas de inteligencia artificial generativa. Obtenga información sobre procedimientos recomendados, técnicas e instrucciones basados en lecciones reales del equipo rojo de IA de Microsoft.

Quién debe ver esta serie de entrenamiento

La serie de formación es útil para los equipos de seguridad, ingenieros de aprendizaje automático, profesionales de inteligencia artificial y líderes empresariales que trabajan con IA. Se centra principalmente en:

  • Profesionales de seguridad: obtenga información sobre vectores de ataque y estrategias de defensa específicos de la inteligencia artificial.
  • Profesionales de aprendizaje automático e ingenieros de inteligencia artificial: agregue pruebas de seguridad a los flujos de trabajo de desarrollo de inteligencia artificial.
  • Arquitectos de empresa y seguridad: cree sistemas de inteligencia artificial seguros y explore las amenazas emergentes.

Sugerencia

Los vídeos de AI Red Teaming 101 son modulares, por lo que puede saltar a cualquier sección de interés o empezar al principio y verlos todos. Descargue las diapositivas y siga su propio ritmo.

¿Qué incluye la serie de formación?

La serie de entrenamiento proporciona instrucciones sobre cómo comprender las vulnerabilidades de inteligencia artificial generativa, ejecutar técnicas de ataque e implementar medidas defensivas. El taller incluye demostraciones prácticas, casos prácticos y herramientas de pruebas automatizadas basadas en las prácticas de seguridad de inteligencia artificial de producción de Microsoft.

Sugerencia

Todos los episodios incluyen demostraciones prácticas y acceso a los laboratorios de red teaming de Microsoft para adquirir experiencia práctica.

Introducción y aspectos básicos

Episodio 1: ¿Qué es el red teaming de IA? - Introducción a los fundamentos del red teaming de inteligencia artificial, los riesgos clave de la inteligencia artificial generativa y la misión del equipo rojo de IA de Microsoft

Episodio 2: Cómo funcionan los modelos de IA generativos: descripción de la arquitectura del modelo, las fases de entrenamiento y por qué estos modelos crean riesgos de seguridad únicos

Parte A: Técnicas básicas de ataque

Episodio 3: Explicación de la inyección directa de instrucciones - Cómo los atacantes manipulan el comportamiento de los modelos inyectando instrucciones maliciosas, incluyendo estudios de casos reales como el ataque al chatbot SUV de 1 dólar

Episodio 4: Explicación de la inyección indirecta de mensajes - ataques sigilosos en los que las instrucciones malintencionadas están ocultas en orígenes de datos externos, como correos electrónicos, sitios web o bases de datos

Episodio 5: Ataques de una sola vuelta - Técnicas avanzadas de ingeniería de instrucciones, incluyendo el hackeo de personas, la manipulación emocional y la evasión de filtros con trucos de codificación

Episodio 6: Ataques multiturno - técnicas como Skeleton Key y Crescendo que conducen gradualmente a los modelos a eludir las protecciones de seguridad

Parte B: Defensa y mitigación

Episodio 7: Defensa contra ataques - Estrategias de mitigación y técnicas de salvaguardia, incluidos los métodos de defensa específicos de Microsoft (delimitación, marcado de datos y codificación)

Parte C: Automatización y escalado

Episodio 8: Automatización del red teaming de IA con PyRIT - Introducción a la herramienta de código abierto de Microsoft para automatizar y escalar pruebas adversariales de los sistemas de inteligencia artificial generativa, la Herramienta de Identificación de Riesgos de Python (PyRIT)

Episodio 9: Automatización de ataques Single-Turn : demostración práctica de la configuración de conjuntos de datos, destinos y lógica de puntuación para enviar muchas solicitudes a la vez mediante PyRIT

Episodio 10: Automatización de ataques multiturno: técnicas avanzadas de automatización para conversaciones multiturno, incluidas conversaciones de modelos adversarios y pruebas de sistemas de generación de texto e imágenes

Conocimientos que adquirirá

Después de completar esta serie de entrenamiento, comprenderá lo siguiente:

  • Aspectos básicos de la formación de equipos rojos de IA frente a los enfoques tradicionales de formación de equipos rojos
  • Vulnerabilidades principales en sistemas de inteligencia artificial generativa, como la inyección de mensajes y la desalineación del modelo
  • Técnicas de ataque, desde la simple manipulación de avisos a sofisticadas estrategias adversarias multivuelta
  • Estrategias de defensa, incluyendo técnicas de mitigación probadas como los métodos Spotlighting de Microsoft
  • Herramientas de automatización para escalar los esfuerzos de formación de equipos rojos mediante PyRIT y otras herramientas de código abierto
  • Aplicaciones del mundo real con laboratorios prácticos y casos de estudio del trabajo de seguridad de IA en producción de Microsoft