AI 紅隊演練訓練系列：生成式 AI 系統的安全性

Microsoft的 AI Red Teaming 101 訓練系列 可協助專業人員保護產生 AI 系統免於新興威脅。此系列深入探討弱點、攻擊技術和防禦策略，提供可採取動作的深入解析和實際作體驗。無論您是安全性專家、機器學習工程師或業務領導者，您都會透過真實世界的案例研究、模組化情節和自動化測試工具獲得實用知識。探索提示插入式攻擊、多回合對抗技術和可調整防禦方法等主題，以增強 AI 安全性專業知識。

為什麼觀看此訓練系列

取得切實可行的建議，以協助識別、利用及防禦生成式 AI 系統中的重要弱點。根據Microsoft AI Red Team的實際經驗，瞭解最佳實務、技術和指導原則。

誰應該觀看此培訓課程系列

此訓練系列適用於使用 AI 的安全性小組、ML 工程師、AI 從業者和業務領導者。它主要著重於：

安全性專業人員：瞭解 AI 特定的攻擊媒介和防禦策略。
ML 從業者和 AI 工程師：將安全性測試新增至 AI 開發工作流程。
企業和安全性架構師：建立安全的 AI 系統並探索新興威脅。

小提示

AI Red Teaming 101 影片是模組化的，因此您可以跳到任何感興趣的區段，或從頭開始觀看所有影片。下載投影片，並依照您自己的步調進行。

訓練系列的內容

訓練系列提供了解產生 AI 弱點、執行攻擊技術及實作防禦措施的指引。研討會包含實作示範、真實案例研究，以及基於 Microsoft 產品人工智慧安全性實踐的自動化測試工具。

小提示

所有集數包括親自示範和存取Microsoft的紅隊實驗室，以獲得實際經驗。

簡介和基本概念

第 1 集：什麼是 AI 紅隊？ - AI 紅色小組基本概念簡介、產生 AI 的主要風險，以及 Microsoft AI 紅色小組的使命

第 2 集：產生 AI 模型的運作方式 - 瞭解模型架構、定型階段，以及這些模型為何會產生獨特的安全性風險

第 A 部分 - 核心攻擊技術

第 3 集：直接指令注入解析 - 攻擊者如何藉由注入惡意指令來操控模型行為，包括真實案例研究，例如著名的「1美元 SUV 聊天機器人攻擊」

第 4 集：間接提示插入說明 - 隱性攻擊，其中惡意指示會隱藏在外部數據源中，例如電子郵件、網站或資料庫

第 5 集：Single-Turn 攻擊 - 進階提示工程技術，包括人物角色入侵、情感操控和規避過濾器與編碼技巧

第6集：多重回合攻擊 - 如 Skeleton Key 和 Crescendo 等技術，逐步引導模型繞過安全防護措施

第 B 部分 - 防禦與風險降低

第 7 集：防禦攻擊 - 風險降低策略和護欄技術，包括Microsoft聚光燈防禦方法（分隔、數據標記和編碼）

第 C 部分 - 自動化與擴展

第 8 集：使用 PyRIT 將 AI 紅隊自動化 - Microsoft 的開放原始碼工具簡介，用於自動化和擴展生成式 AI 系統的對抗性測試，即 Python 風險識別工具（PyRIT）

第 9 集：自動化 Single-Turn 攻擊 - 使用 PyRIT 一次傳送許多提示的實作示範：設定數據集、目標和評分邏輯

第 10 集：自動化多回合攻擊 - 多回合交談的進階自動化技術，包括對立模型對話，以及測試文字和影像產生系統

您學到什麼

完成此訓練系列之後，您將瞭解：

AI 紅色小組與傳統紅色小組方法的基本概念
產生式 AI 系統中的核心弱點，例如提示插入和模型不對齊
攻擊技巧，從簡單的提示作到複雜的多回合對抗策略
防禦策略，包括已證實的緩解技術，例如Microsoft的聚光燈方法
使用 PyRIT 和其他開放原始碼工具擴展紅隊工作的自動化工具
結合Microsoft在生產環境中AI安全性工作的案例研究與實際操作實驗室的實際應用。

Last updated on 2025-07-09

共用方式為