Microsoft的 AI Red Teaming 101 訓練系列 可協助專業人員保護產生 AI 系統免於新興威脅。 此系列深入探討弱點、攻擊技術和防禦策略,提供可採取動作的深入解析和實際作體驗。 無論您是安全性專家、機器學習工程師或業務領導者,您都會透過真實世界的案例研究、模組化情節和自動化測試工具獲得實用知識。 探索提示插入式攻擊、多回合對抗技術和可調整防禦方法等主題,以增強 AI 安全性專業知識。
為什麼觀看此訓練系列
取得切實可行的建議,以協助識別、利用及防禦生成式 AI 系統中的重要弱點。 根據Microsoft AI Red Team的實際經驗,瞭解最佳實務、技術和指導原則。
誰應該觀看此培訓課程系列
此訓練系列適用於使用 AI 的安全性小組、ML 工程師、AI 從業者和業務領導者。 它主要著重於:
- 安全性專業人員:瞭解 AI 特定的攻擊媒介和防禦策略。
- ML 從業者和 AI 工程師:將安全性測試新增至 AI 開發工作流程。
- 企業和安全性架構師:建立安全的 AI 系統並探索新興威脅。
小提示
AI Red Teaming 101 影片是模組化的,因此您可以跳到任何感興趣的區段,或從頭開始觀看所有影片。 下載投影片,並依照您自己的步調進行。
訓練系列的內容
訓練系列提供了解產生 AI 弱點、執行攻擊技術及實作防禦措施的指引。 研討會包含實作示範、真實案例研究,以及基於 Microsoft 產品人工智慧安全性實踐的自動化測試工具。
小提示
所有集數包括親自示範和存取Microsoft的紅隊實驗室,以獲得實際經驗。
簡介和基本概念
第 1 集:什麼是 AI 紅隊? - AI 紅色小組基本概念簡介、產生 AI 的主要風險,以及 Microsoft AI 紅色小組的使命
第 2 集:產生 AI 模型的運作方式 - 瞭解模型架構、定型階段,以及這些模型為何會產生獨特的安全性風險
第 A 部分 - 核心攻擊技術
第 3 集:直接指令注入解析 - 攻擊者如何藉由注入惡意指令來操控模型行為,包括真實案例研究,例如著名的「1美元 SUV 聊天機器人攻擊」
第 4 集:間接提示插入說明 - 隱性攻擊,其中惡意指示會隱藏在外部數據源中,例如電子郵件、網站或資料庫
第 5 集:Single-Turn 攻擊 - 進階提示工程技術,包括人物角色入侵、情感操控和規避過濾器與編碼技巧
第6集:多重回合攻擊 - 如 Skeleton Key 和 Crescendo 等技術,逐步引導模型繞過安全防護措施
第 B 部分 - 防禦與風險降低
第 7 集:防禦攻擊 - 風險降低策略和護欄技術,包括Microsoft聚光燈防禦方法(分隔、數據標記和編碼)
第 C 部分 - 自動化與擴展
第 8 集:使用 PyRIT 將 AI 紅隊自動化 - Microsoft 的開放原始碼工具簡介,用於自動化和擴展生成式 AI 系統的對抗性測試,即 Python 風險識別工具(PyRIT)
第 9 集:自動化 Single-Turn 攻擊 - 使用 PyRIT 一次傳送許多提示的實作示範:設定數據集、目標和評分邏輯
第 10 集:自動化多回合攻擊 - 多回合交談的進階自動化技術,包括對立模型對話,以及測試文字和影像產生系統
您學到什麼
完成此訓練系列之後,您將瞭解:
- AI 紅色小組與傳統紅色小組方法的基本概念
- 產生式 AI 系統中的核心弱點,例如提示插入和模型不對齊
- 攻擊技巧,從簡單的提示作到複雜的多回合對抗策略
- 防禦策略,包括已證實的緩解技術,例如Microsoft的聚光燈方法
- 使用 PyRIT 和其他開放原始碼工具擴展紅隊工作的自動化工具
- 結合Microsoft在生產環境中AI安全性工作的案例研究與實際操作實驗室的實際應用。