共用方式為


AI 紅隊演練訓練系列:生成式 AI 系統的安全性

Microsoft的 AI Red Teaming 101 訓練系列 可協助專業人員保護產生 AI 系統免於新興威脅。 此系列深入探討弱點、攻擊技術和防禦策略,提供可採取動作的深入解析和實際作體驗。 無論您是安全性專家、機器學習工程師或業務領導者,您都會透過真實世界的案例研究、模組化情節和自動化測試工具獲得實用知識。 探索提示插入式攻擊、多回合對抗技術和可調整防禦方法等主題,以增強 AI 安全性專業知識。

為什麼觀看此訓練系列

取得切實可行的建議,以協助識別、利用及防禦生成式 AI 系統中的重要弱點。 根據Microsoft AI Red Team的實際經驗,瞭解最佳實務、技術和指導原則。

誰應該觀看此培訓課程系列

此訓練系列適用於使用 AI 的安全性小組、ML 工程師、AI 從業者和業務領導者。 它主要著重於:

  • 安全性專業人員:瞭解 AI 特定的攻擊媒介和防禦策略。
  • ML 從業者和 AI 工程師:將安全性測試新增至 AI 開發工作流程。
  • 企業和安全性架構師:建立安全的 AI 系統並探索新興威脅。

小提示

AI Red Teaming 101 影片是模組化的,因此您可以跳到任何感興趣的區段,或從頭開始觀看所有影片。 下載投影片,並依照您自己的步調進行。

訓練系列的內容

訓練系列提供了解產生 AI 弱點、執行攻擊技術及實作防禦措施的指引。 研討會包含實作示範、真實案例研究,以及基於 Microsoft 產品人工智慧安全性實踐的自動化測試工具。

小提示

所有集數包括親自示範和存取Microsoft的紅隊實驗室,以獲得實際經驗。

簡介和基本概念

第 1 集:什麼是 AI 紅隊? - AI 紅色小組基本概念簡介、產生 AI 的主要風險,以及 Microsoft AI 紅色小組的使命

第 2 集:產生 AI 模型的運作方式 - 瞭解模型架構、定型階段,以及這些模型為何會產生獨特的安全性風險

第 A 部分 - 核心攻擊技術

第 3 集:直接指令注入解析 - 攻擊者如何藉由注入惡意指令來操控模型行為,包括真實案例研究,例如著名的「1美元 SUV 聊天機器人攻擊」

第 4 集:間接提示插入說明 - 隱性攻擊,其中惡意指示會隱藏在外部數據源中,例如電子郵件、網站或資料庫

第 5 集:Single-Turn 攻擊 - 進階提示工程技術,包括人物角色入侵、情感操控和規避過濾器與編碼技巧

第6集:多重回合攻擊 - 如 Skeleton Key 和 Crescendo 等技術,逐步引導模型繞過安全防護措施

第 B 部分 - 防禦與風險降低

第 7 集:防禦攻擊 - 風險降低策略和護欄技術,包括Microsoft聚光燈防禦方法(分隔、數據標記和編碼)

第 C 部分 - 自動化與擴展

第 8 集:使用 PyRIT 將 AI 紅隊自動化 - Microsoft 的開放原始碼工具簡介,用於自動化和擴展生成式 AI 系統的對抗性測試,即 Python 風險識別工具(PyRIT)

第 9 集:自動化 Single-Turn 攻擊 - 使用 PyRIT 一次傳送許多提示的實作示範:設定數據集、目標和評分邏輯

第 10 集:自動化多回合攻擊 - 多回合交談的進階自動化技術,包括對立模型對話,以及測試文字和影像產生系統

您學到什麼

完成此訓練系列之後,您將瞭解:

  • AI 紅色小組與傳統紅色小組方法的基本概念
  • 產生式 AI 系統中的核心弱點,例如提示插入和模型不對齊
  • 攻擊技巧,從簡單的提示作到複雜的多回合對抗策略
  • 防禦策略,包括已證實的緩解技術,例如Microsoft的聚光燈方法
  • 使用 PyRIT 和其他開放原始碼工具擴展紅隊工作的自動化工具
  • 結合Microsoft在生產環境中AI安全性工作的案例研究與實際操作實驗室的實際應用。