Minimieren potenzieller Schäden

Abgeschlossen

Nachdem Sie einen Basisplan und eine Möglichkeit zum Messen der von einer Lösung erzeugten schädlichen Ergebnisse ermittelt haben, können Sie Maßnahmen ergreifen, um potenzielle Schäden zu mindern und gegebenenfalls das geänderte System erneut zu testen und Schadensstufen mit dem Basisplan zu vergleichen.

Die Risikominderung potenzieller Schäden in einer generativen KI-Lösung umfasst einen mehrschichtigen Ansatz, bei dem Gegenmaßnahmen auf jeder von vier Ebenen angewendet werden können, wie hier gezeigt:

Diagramm, das das Modell, das Sicherheitssystem, die Anwendung und die Positionierungsebenen einer generativen KI-Lösung zeigt.

  1. Modell
  2. Sicherheitssystem
  3. Systemnachricht und Grounding
  4. Benutzererfahrung

1: Die Modellebene

Die Modellschicht besteht aus einem oder mehreren generativen KI-Modellen im Herzen Ihrer Lösung. Ihre Lösung kann beispielsweise um ein Modell wie GPT-4 herum erstellt werden.

Gegenmaßnahmen, die Sie auf der Modelleebene anwenden können, beinhalten:

  • Wählen Sie ein Modell aus, das für die beabsichtigte Lösung geeignet ist. Während GPT-4 beispielsweise ein leistungsfähiges und vielseitiges Modell sein kann, kann ein einfacheres Modell in einer Lösung, die nur für die Klassifizierung kleiner, bestimmter Texteingaben erforderlich ist, die erforderliche Funktionalität mit geringerem Risiko für die Generierung schädlicher Inhalte bereitstellen.
  • Optimieren Sie ein grundlegendes Modell mit Ihren eigenen Schulungsdaten, sodass die generierten Antworten wahrscheinlich relevanter und auf Ihr Lösungsszenario ausgerichtet sind.

2: Die Sicherheitssystemschicht

Die Sicherheitssystemebene umfasst Konfigurationen und Funktionen auf Plattformebene, die dazu beitragen, Schäden zu mindern. Microsoft Foundry enthält beispielsweise Unterstützung für Inhaltsfilter , die Kriterien anwenden, um Aufforderungen und Antworten basierend auf der Klassifizierung von Inhalten in vier Schweregrade (sicher, niedrig, mittel und hoch) für vier Kategorien potenzieller Schäden (Hass, Sexuelle, Gewalt und Selbstschäden) zu unterdrücken.

Andere Sicherheitssystemebenenminderungen können Missbrauchserkennungsalgorithmen umfassen, um festzustellen, ob die Lösung systematisch missbraucht wird (z. B. durch hohe Mengen automatisierter Anforderungen von einem Bot) und Warnungsbenachrichtigungen, die eine schnelle Reaktion auf potenzielle Systemmissbrauch oder schädliches Verhalten ermöglichen.

3: Die Ebene Systemnachricht und Grounding

Diese Ebene konzentriert sich auf die Erstellung von Aufforderungen, die an das Modell übermittelt werden. Zu den Schadensminderungstechniken, die Sie auf dieser Ebene anwenden können, gehören:

  • Angeben von Systemeingaben, die Verhaltensparameter für das Modell definieren.
  • Anwenden von Prompt-Engineering, um Fundierungsdaten zu Eingabeaufforderungen hinzuzufügen und die Wahrscheinlichkeit einer relevanten, unschädlichen Ausgabe zu maximieren.
  • Verwendung eines Retrieval Augmented Generation (RAG) Ansatzes, um Kontextdaten aus vertrauenswürdigen Datenquellen abzurufen und in Prompts einzubinden.

4: Die Benutzererfahrungsebene

Die Benutzerschicht umfasst die Softwareanwendung, mit der Benutzer mit dem generativen KI-Modell interagieren, sowie die Dokumentation oder andere Benutzermaterialien, die den Benutzern und Interessengruppen die Verwendung der Lösung erklären.

Das Entwerfen der Anwendungsbenutzeroberfläche, um Eingaben auf bestimmte Themen oder Typen zu beschränken, oder das Anwenden der Eingabe- und Ausgabeüberprüfung kann das Risiko potenziell schädlicher Reaktionen verringern.

Dokumentationen und andere Beschreibungen einer generativen KI-Lösung sollten angemessen transparent über die Funktionen und Einschränkungen des Systems, die Modelle, auf denen sie basiert, sowie über alle potenziellen Schäden sein, die möglicherweise nicht immer durch die von Ihnen getroffenen Abhilfemaßnahmen abgedeckt werden.