Série de treinamento de agrupamento vermelho de IA: protegendo sistemas de IA generativos

A série de treinamento do AI Red Teaming 101 da Microsoft ajuda os profissionais a proteger sistemas de IA generativos contra ameaças emergentes. Esta série se aprofunda em vulnerabilidades, técnicas de ataque e estratégias de defesa, fornecendo insights acionáveis e experiência prática. Se você for um especialista em segurança, engenheiro de machine learning ou líder de negócios, obterá conhecimento prático por meio de estudos de caso reais, episódios modulares e ferramentas de teste automatizadas. Explore tópicos como ataques de injeção de prompt, técnicas adversariais de múltiplos turnos e métodos de defesa escaláveis para aprimorar sua experiência em segurança de IA.

Por que assistir a esta série de treinamento

Obtenha conselhos acionáveis para ajudar a identificar, explorar e defender contra vulnerabilidades críticas em sistemas de IA generativos. Aprenda as melhores práticas, técnicas e diretrizes com base em lições do mundo real da Equipe Vermelha de IA da Microsoft.

Quem deve assistir a esta série de treinamento

A série de treinamento é útil para equipes de segurança, engenheiros de ML, profissionais de IA e líderes empresariais que trabalham com IA. Ele se concentra principalmente em:

Profissionais de segurança: saiba mais sobre vetores de ataque específicos de IA e estratégias de defesa.
Profissionais de ML e engenheiros de IA: adicione testes de segurança aos fluxos de trabalho de desenvolvimento de IA.
Arquitetos corporativos e de segurança: crie sistemas de IA seguros e explore ameaças emergentes.

Dica

Os vídeos do AI Red Teaming 101 são modulares, portanto, você pode ir para qualquer seção de interesse ou começar no início e assistir a todos eles. Baixe os slides e siga seu próprio ritmo.

Conteúdo da série de treinamento

A série de treinamento fornece orientação sobre como entender vulnerabilidades de IA generativas, executar técnicas de ataque e implementar medidas defensivas. O workshop inclui demonstrações práticas, estudos de caso do mundo real e ferramentas de teste automatizadas com base nas práticas de segurança de IA de produção da Microsoft.

Dica

Todos os episódios incluem demonstrações práticas e acesso aos laboratórios de red teaming da Microsoft para obter uma experiência prática.

Introdução e conceitos básicos

Episódio 1: O que é o agrupamento vermelho de IA? – Introdução aos conceitos básicos de agrupamento vermelho de IA, principais riscos na IA generativa e a missão da equipe vermelha de IA da Microsoft

Episódio 2: Como os modelos de IA generativos funcionam – Noções básicas sobre arquitetura de modelo, estágios de treinamento e por que esses modelos criam riscos de segurança exclusivos

Parte A – Técnicas de ataque principais

Episódio 3: Injeção direta de prompt explicada - Como os invasores manipulam o comportamento do modelo injetando instruções mal-intencionadas, incluindo estudos de caso do mundo real, como o ataque de chatbot SUV de US$ 1

Episódio 4: Injeção de Prompt Indireto Explicada - Ataques furtivos em que instruções mal-intencionadas estão ocultas em fontes de dados externas, como emails, sites ou bancos de dados

Episódio 5: Single-Turn Ataques - Técnicas avançadas de engenharia de prompt, incluindo hacking de persona, manipulação emocional e evasão de filtro com truques de codificação

Episódio 6: Ataques de múltiplas etapas - técnicas como Skeleton Key e Crescendo que gradualmente orientam modelos para contornar proteções de segurança

Parte B – Defesa e Mitigação

Episódio 7: Defesa contra ataques - Estratégias de mitigação e técnicas de guardrail, incluindo os métodos de defesa em destaque da Microsoft (delimitamento, marcação de dados e codificação)

Parte C – Automação e Escala

Episódio 8: Automatizando red teaming de IA com PyRIT - Introdução à ferramenta de software livre da Microsoft para automatizar e dimensionar testes adversários de sistemas de IA generativos, a PyRIT (Ferramenta de Identificação de Risco) do Python

Episódio 9: Automatizando ataques de Single-Turn – demonstração prática de configuração de conjuntos de dados, destinos e lógica de pontuação para enviar muitos prompts de uma só vez usando PyRIT

Episódio 10: Automatizando ataques em várias etapas – técnicas avançadas de automação para conversas de vários turnos, incluindo conversas com modelos adversários e testes de sistemas de geração de imagem e texto.

O que você aprenderá

Depois de concluir esta série de treinamento, você entenderá:

Conceitos básicos do agrupamento vermelho de IA versus abordagens tradicionais de agrupamento vermelho
Principais vulnerabilidades em sistemas de IA generativos, como injeção de comandos e desalinhamento de modelo.
Técnicas de ataque, desde manipulação de prompt simples até estratégias adversariais sofisticadas de múltiplos turnos
Estratégias de defesa, incluindo técnicas comprovadas de mitigação, como os métodos spotlighting da Microsoft
Ferramentas de automação para dimensionar esforços de agrupamento vermelho usando PyRIT e outras ferramentas de software livre
Aplicações reais com laboratórios práticos e estudos de caso do trabalho de segurança de IA realizado pela Microsoft

Last updated on 2025-07-15

Compartilhar via