Kartieren potenzieller Schäden

Abgeschlossen

Die erste Phase eines verantwortungsvollen generativen KI-Prozesses besteht darin, die potenziellen Schäden zuzuordnen, die sich auf Ihre geplante Lösung auswirken könnten. In dieser Phase gibt es vier Schritte, wie hier gezeigt:

Diagramm mit Schritten zum Identifizieren, Priorisieren, Testen und Teilen potenzieller Schäden.

  1. Identifizieren potenzieller Schäden
  2. Priorisieren identifizierter Schäden
  3. Testen und Überprüfen der priorisierten Schäden
  4. Dokumentieren und Freigeben der überprüften Schäden

1: Identifizieren potenzieller Schäden

Die potenziellen Schäden, die für Ihre generative KI-Lösung relevant sind, sind von mehreren Faktoren abhängig, einschließlich der spezifischen Dienste und Modelle, die zum Generieren der Ausgabe verwendet werden, sowie alle Feinabstimmungs- oder Erdungsdaten, die zum Anpassen der Ausgaben verwendet werden. Einige häufige Arten potenzieller Schäden in einer generativen KI-Lösung sind:

  • Generieren von Inhalten, die anstößig, abständisch oder diskriminierend sind.
  • Generieren von Inhalten, die faktenbezogene Ungenauigkeiten enthalten.
  • Generieren von Inhalten, die illegale oder unethische Verhaltensweisen oder Praktiken fördern oder unterstützen.

Wenn Sie die bekannten Einschränkungen und Das Verhalten der Dienste und Modelle in Ihrer Lösung vollständig verstehen möchten, lesen Sie die verfügbare Dokumentation. Der Azure OpenAI-Dienst enthält z. B. eine Transparenzhinweis; die Sie verwenden können, um bestimmte Überlegungen im Zusammenhang mit dem Dienst und den darin enthaltenen Modellen zu verstehen. Darüber hinaus können einzelne Modellentwickler Dokumentationen wie die OpenAI-Systemkarte für das GPT-4-Modellbereitstellen.

Erwägen Sie die Überprüfung der Anleitungen im Microsoft Responsible AI Impact Assessment Guide und die Verwendung der zugehörigen Vorlage für verantwortungsvolle KI-Folgenabschätzung, um potenzielle Schäden zu dokumentieren.

Überprüfen Sie die Informationen und Richtlinien für die Ressourcen, die Sie verwenden, um potenzielle Schäden zu erkennen.

2: Priorisieren der Schäden

Bewerten Sie für jeden potenziellen Schaden, den Sie identifiziert haben, die Wahrscheinlichkeit des Auftretens und das resultierende Ausmaß der Auswirkungen, falls dies der Fall ist. Verwenden Sie dann diese Informationen, um die wahrscheinlichsten und wirkungsvollsten Schäden zuerst zu priorisieren. Diese Priorisierung ermöglicht es Ihnen, sich auf das Auffinden und Verringern der schädlichsten Risiken in Ihrer Lösung zu konzentrieren.

Die Priorisierung muss die beabsichtigte Verwendung der Lösung sowie das Missbrauchspotenzial berücksichtigen; und kann subjektiv sein. Angenommen, Sie entwickeln einen intelligenten Küchenkopilot, der Rezeptunterstützung für Köche und Amateurkochen bietet. Mögliche Schäden können folgendes umfassen:

  • Die Lösung liefert ungenaue Kochzeiten, was zu nicht ausreichend gegarten Lebensmitteln führt, die Krankheiten verursachen könnten.
  • Wenn Sie dazu aufgefordert werden, liefert die Lösung ein Rezept für ein tödliches Gift, das aus alltäglichen Zutaten hergestellt werden kann.

Obwohl keine dieser Ergebnisse wünschenswert ist, können Sie entscheiden, dass das Potenzial der Lösung, die Schaffung eines tödlichen Giftes zu unterstützen, höhere Auswirkungen hat als das Potenzial, untercookierte Lebensmittel zu schaffen. Angesichts des Kernnutzungsszenarios der Lösung können Sie jedoch auch annehmen, dass die Häufigkeit, mit der ungenaue Kochzeiten vorgeschlagen werden, wahrscheinlich viel höher ist als die Anzahl der Benutzer, die explizit nach einem Giftrezept fragen. Die endgültige Prioritätsfestlegung ist ein Diskussionsthema für das Entwicklungsteam, was die Konsultation von Politik- oder Rechtsexperten beinhalten kann, um die erforderliche Priorisierung zu erreichen.

3: Testen und Überprüfen des Vorhandenseins von Schäden

Nachdem Sie nun eine priorisierte Liste haben, können Sie Ihre Lösung testen, um zu überprüfen, ob die Schäden auftreten und falls ja, unter welchen Bedingungen. Ihre Tests zeigen möglicherweise auch das Vorhandensein zuvor nicht identifizierter Schäden an, die Sie der Liste hinzufügen können.

Ein gängiger Ansatz zum Testen potenzieller Schäden oder Sicherheitsrisiken in einer Softwarelösung ist die Verwendung von "red team"-Tests, bei denen ein Team von Testern die Lösung absichtlich auf Schwachstellen untersucht und versucht, schädliche Ergebnisse zu erzielen. Beispieltests für die zuvor besprochene intelligente Copilot-Lösung könnten das Anfordern von Giftrezepten oder schnelle Rezepte umfassen, die Zutaten enthalten, die gründlich gekocht werden sollten. Die Erfolge des Red Teams sollten dokumentiert und überprüft werden, um die realistische Wahrscheinlichkeit des Auftretens negativer Folgen bei der Verwendung der Lösung zu ermitteln.

Hinweis

Red Teaming ist eine Strategie, die häufig verwendet wird, um Sicherheitsrisiken oder andere Schwachstellen zu finden, die die Integrität einer Softwarelösung gefährden können. Indem Sie diesen Ansatz erweitern, um schädliche Inhalte aus generativer KI zu finden, können Sie einen verantwortungsvollen KI-Prozess implementieren, der auf vorhandenen Cybersicherheitspraktiken basiert und ergänzt.

Weitere Informationen zum Red Teaming für generative KI-Lösungen finden Sie unter Einführung in das rote Teaming großer Sprachmodelle (LLMs) in der Azure OpenAI Service-Dokumentation.

4: Dokumentieren und Teilen von Details zu Schäden

Wenn Sie Beweise gesammelt haben, um das Vorhandensein potenzieller Schäden in der Lösung zu unterstützen, dokumentieren Sie die Details, und teilen Sie sie mit den Beteiligten. Die priorisierte Liste der Schäden sollte dann beibehalten und hinzugefügt werden, wenn neue Schäden identifiziert werden.