Freigeben über


Bedrohungsmodellierung AI/ML-Systeme und Abhängigkeiten

Von Andrew Marshall, Jugal Parikh, Emre Kiciman und Ram Shankar Siva Kumar

Besonderer Dank an Raul Rojas und den AETHER Security Engineering Workstream

November 2019

Dieses Dokument ist ein Lieferumfang der AETHER Engineering Practices for AI Working Group und ergänzt vorhandene SDL-Methoden zur Bedrohungsmodellierung, indem sie neue Anleitungen zur Bedrohungsenumeration und -entschärfung für den KI- und Machine Learning-Raum bereitstellen. Sie soll während der Überprüfungen des Sicherheitsdesigns wie folgt als Referenz verwendet werden:

  1. Produkte/Dienste, die mit ai/ML-basierten Diensten interagieren oder Abhängigkeiten einnehmen

  2. Produkte/Dienstleistungen, die mit AI/ML im Kern aufgebaut werden

Die herkömmliche Abmilderung von Sicherheitsbedrohungen ist wichtiger denn je. Die vom Security Development Lifecycle festgelegten Anforderungen sind unerlässlich, um eine Produktsicherheitsgrundlage zu schaffen, auf der diese Anleitung aufbaut. Wenn herkömmliche Sicherheitsbedrohungen nicht adressiert werden, erleichtert dies die in diesem Dokument behandelten AI/ML-spezifischen Angriffe sowohl im Software- als auch im physischen Bereich, und macht Kompromisse in den tieferen Schichten des Softwarestapels trivial. Eine Einführung in neue Sicherheitsbedrohungen in diesem Bereich finden Sie unter Sichern der Zukunft von KI und ML bei Microsoft.

Die Fähigkeiten von Sicherheitsingenieuren und Datenwissenschaftlern überschneiden sich in der Regel nicht. Diese Anleitung bietet eine Möglichkeit für beide Disziplinen, strukturierte Gespräche über diese neuartigen Bedrohungen und Abhilfemaßnahmen zu führen, ohne dass Sicherheitsingenieure zu Datenwissenschaftlern werden müssen oder umgekehrt.

Dieses Dokument ist in zwei Abschnitte unterteilt:

  1. "Wesentliche neue Überlegungen zur Bedrohungsmodellierung konzentrieren sich auf neue Denkansätze und Fragen, die bei der Modellierung von Bedrohungen für KI/ML-Systeme zu stellen sind." Sowohl Data Scientists als auch Sicherheitsingenieure sollten dies überprüfen, da es ihr Playbook für Diskussionen zur Bedrohungsmodellierung und die Priorisierung der Risikominderung sein wird.
  2. "KI/ML-spezifische Bedrohungen und ihre Gegenmaßnahmen" enthält Details zu bestimmten Angriffen sowie spezifischen Maßnahmen zur Risikominderung, die heute zum Schutz von Microsoft-Produkten und -Diensten gegen diese Bedrohungen verwendet werden. Dieser Abschnitt richtet sich in erster Linie an Datenwissenschaftler, die möglicherweise spezifische Bedrohungsminderungen als Ausgabe des Prozesses zur Risikomodellierung/Sicherheitsüberprüfung implementieren müssen.

Diese Anleitung basiert auf einer Adversarial Machine Learning Threat Taxonomy, die von Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen und Jeffrey Snover mit dem Titel "Failure Modes in Machine Learning" erstellt wurde. Anleitungen zur Behandlung von Sicherheitsbedrohungen, die in diesem Dokument beschrieben sind, finden Sie in der SDL Bug Bar für KI/ML-Bedrohungen. All dies sind lebende Dokumente, die sich im Laufe der Zeit mit der Bedrohungslandschaft entwickeln werden.

Wichtige neue Überlegungen in der Bedrohungsmodellierung: Ändern der Art und Weise, wie Sie Vertrauensgrenzen anzeigen

Gehen Sie von einer Kompromittierung bzw. Vergiftung der Daten aus, die Sie beim Training verwenden, sowie des Datenanbieters. Lernen Sie, anomale und böswillige Dateneinträge zu erkennen und zwischen ihnen zu unterscheiden und wiederherzustellen.

Zusammenfassung

Schulungsdatenspeicher und die Systeme, die sie hosten, sind Teil Ihres Bereichs für die Bedrohungsmodellierung. Die größte Sicherheitsbedrohung in maschinellem Lernen ist heute eine Datenvergiftung aufgrund des Mangels an Standarderkennungen und Gegenmaßnahmen in diesem Bereich, kombiniert mit Abhängigkeit von nicht vertrauenswürdigen/nicht behandelten öffentlichen Datasets als Quellen von Schulungsdaten. Das Nachverfolgen der Provenienz und der Herkunft Ihrer Daten ist unerlässlich, um ihre Vertrauenswürdigkeit zu gewährleisten und einen "Garbage In, Garbage Out"-Schulungszyklus zu vermeiden.

Fragen, die Sie in einer Sicherheitsüberprüfung stellen möchten

  • Wenn Ihre Daten vergiftet oder manipuliert werden, wie würden Sie wissen?

    -Welche Telemetrie haben Sie, um eine Abweichung in der Qualität Ihrer Trainingsdaten zu erkennen?

  • Trainieren Sie mit Eingaben, die vom Benutzer bereitgestellt wurden?

    -Welche Art von Eingabeüberprüfung/Bereinigung tun Sie für diesen Inhalt?

    -Ist die Struktur dieser Daten ähnlich wie Datenblatte für Datasets?

  • Wenn Sie gegen Online-Datenspeicher trainieren, welche Schritte ergreifen Sie, um die Sicherheit der Verbindung zwischen Ihrem Modell und den Daten sicherzustellen?

    -Haben sie eine Möglichkeit, Sicherheitsverletzungen für Verbraucher ihrer Datenfeeds zu melden?

    -Sind sie überhaupt dazu in der Lage?

  • Wie sensibel sind die Daten, aus der Sie trainieren?

    -Katalogisieren Sie es, oder steuern Sie die Hinzufügung/Aktualisierung/Löschung von Dateneinträgen?

  • Kann Ihr Modell vertrauliche Daten ausgeben?

    -Wurden diese Daten mit der Zustimmung der Quelle erhalten?

  • Gibt das Modell nur Ergebnisse aus, die erforderlich sind, um sein Ziel zu erreichen?

  • Gibt Ihr Modell unformatierte Konfidenzergebnisse oder eine andere direkte Ausgabe zurück, die aufgezeichnet und dupliziert werden kann?

  • Welche Auswirkungen haben Ihre Schulungsdaten, die durch Angriffe/Invertierung Ihres Modells wiederhergestellt werden?

  • Wenn das Vertrauensniveau Ihrer Modellausgabe plötzlich abnimmt, können Sie herausfinden, wie und warum, und die Daten, die den Rückgang verursacht haben?

  • Haben Sie eine wohlgeformte Eingabe für Ihr Modell definiert? Was tun Sie, um sicherzustellen, dass Eingaben diesem Format entsprechen, und was tun Sie, wenn dies nicht der Fall ist?

  • Wenn Ihre Ausgaben falsch sind, aber keine Fehler gemeldet werden, woran würden Sie es erkennen?

  • Wissen Sie, ob Ihre Trainingsalgorithmen auf mathematischer Ebene widerstandsfähig für adversariale Eingaben sind?

  • Wie kann man sich von einer gegnerischen Kontamination Ihrer Trainingsdaten erholen?

    -Können Sie feindliche Inhalte isolieren und betroffene Modelle neu trainieren?

    -Können Sie ein Rollback auf ein Modell einer früheren Version für eine erneute Schulung ausführen?

  • Verwenden Sie Verstärkungslernen für unaufbereitete öffentliche Inhalte?

  • Denken Sie über die Herkunft Ihrer Daten nach – wenn Sie ein Problem feststellen, könnten Sie es bis zu seiner Einführung in den Datensatz nachverfolgen? Wenn nicht, ist das ein Problem?

  • Wissen Sie, wo Ihre Schulungsdaten stammen, und identifizieren Sie statistische Normen, um zu verstehen, wie Anomalien aussehen

    -Welche Elemente Ihrer Schulungsdaten sind anfällig für äußeren Einfluss?

    -Wer kann zu den Datensätzen beitragen, aus denen Sie trainieren?

    - Wie würden Sie Ihre Quellen von Schulungsdaten angreifen, um einen Wettbewerber zu schädigen?

  • Adversarial Perturbation (alle Varianten)

  • Datenvergiftung (alle Varianten)

Beispielangriffe

  • Erzwingen, dass unbedenkliche E-Mails als Spam klassifiziert werden oder ein bösartiges Beispiel unentdeckt bleibt

  • Vom Angreifer gestaltete Eingaben, die das Konfidenzniveau der richtigen Klassifizierung reduzieren, insbesondere in Szenarien mit hohen Folgen

  • Angreifer fügt Rauschen zufällig in die Quelldaten ein, die klassifiziert werden, um die Wahrscheinlichkeit zu verringern, dass die richtige Klassifizierung in Zukunft verwendet wird, wodurch das Modell effektiv dumbiert wird.

  • Verunreinigung von Schulungsdaten, um die Fehlklassifizierung ausgewählter Datenpunkte zu erzwingen, was dazu führt, dass ein System bestimmte Maßnahmen ergreift oder auslässt.

Identifizieren Sie Maßnahmen, die Ihr Modell oder Produkt/Service ergreifen könnte und die Kunden online oder im physischen Bereich Schaden zufügen können.

Zusammenfassung

Wenn sie nicht abgeschwächt werden, können Angriffe auf KI/ML-Systeme ihren Weg in die physische Welt finden. Jedes Szenario, das dazu missbraucht werden kann, Nutzern psychologisch oder physisch zu schaden, stellt ein katastrophales Risiko für Ihr Produkt/Ihre Dienstleistung dar. Dies erstreckt sich auf alle vertraulichen Daten über Ihre Kunden, die für Schulungen und Designentscheidungen verwendet werden, die diese privaten Datenpunkte offen legen können.

Fragen, die Sie in einer Sicherheitsüberprüfung stellen möchten

  • Trainieren Sie mit gegnerischen Beispielen? Welche Auswirkungen hat sie auf die Modellausgabe in der physischen Domäne?

  • Wie sieht das Trolling für Ihr Produkt/Ihren Service aus? Wie können Sie sie erkennen und darauf reagieren?

  • Was wäre erforderlich, um Ihr Modell dazu zu bringen, ein Ergebnis zu liefern, das Ihren Dienst dazu bringt, den Zugriff legitimer Benutzer zu verweigern?

  • Welche Auswirkungen hat Ihr Modell, das kopiert/gestohlen wird?

  • Kann Ihr Modell verwendet werden, um die Mitgliedschaft einer einzelnen Person in einer bestimmten Gruppe oder einfach in den Schulungsdaten abzuleiten?

  • Kann ein Angreifer Reputationsschäden oder PR-Rückschlag zu Ihrem Produkt verursachen, indem er gezwungen wird, bestimmte Aktionen auszuführen?

  • Wie gehen Sie mit ordnungsgemäß formatierten, aber stark voreingenommenen Daten um, wie zum Beispiel von Trollen?

  • Für jede Möglichkeit, mit dem Modell zu interagieren oder abzufragen, kann diese Methode abgefragt werden, um Schulungsdaten oder Modellfunktionen offenzulegen?

  • Mitgliedschaftsinferenz

  • Modellinversion

  • Modelldiebstahl

Beispielangriffe

  • Wiederherstellung und Extraktion von Schulungsdaten durch wiederholtes Abfragen des Modells für maximale Konfidenzergebnisse

  • Duplizierung des Modells an sich durch erschöpfenden Abgleich von Abfragen und Antworten

  • Das Abfragen des Modells auf eine Weise, die ein bestimmtes Element privater Daten anzeigt, wurde in den Schulungssatz aufgenommen.

  • Selbstfahrende Autos werden dazu vertrickt, Stoppschilder/Ampeln zu ignorieren

  • Unterhaltungs-Bots, die dazu manipuliert wurden, gutartige Benutzer zu belästigen

Identifizieren aller Quellen von AI/ML-Abhängigkeiten sowie Frontend-Präsentationsebenen in Ihrer Daten-/Modell-Lieferkette

Zusammenfassung

Viele Angriffe in KI und Maschinellem Lernen beginnen mit legitimem Zugriff auf APIs, die angezeigt werden, um Abfragezugriff auf ein Modell bereitzustellen. Aufgrund der umfangreichen Datenquellen und der vielfältigen Benutzererfahrungen, die hier beteiligt sind, stellt authentifizierter, aber "unsachgemäßer" (hier gibt es einen Graubereich) Drittzugriff auf Ihre Modelle ein Risiko dar, da die Möglichkeit besteht, als Präsentationsebene über einem von Microsoft bereitgestellten Dienst zu agieren.

Fragen, die Sie in einer Sicherheitsüberprüfung stellen möchten

  • Welche Kunden/Partner werden authentifiziert, um auf Ihr Modell oder Ihre Dienst-APIs zuzugreifen?

    -Können sie als Präsentationsebene über Ihrem Dienst fungieren?

    -Können Sie den Zugriff im Falle einer Sicherheitsverletzung umgehend widerrufen?

    -Was ist Ihre Wiederherstellungsstrategie im Falle einer böswilligen Nutzung Ihres Diensts oder Ihrer Abhängigkeiten?

  • Kann eine Drittpartei eine Fassade um Ihr Modell herum bauen, um es neu zu nutzen und Microsoft oder seinen Kunden Schaden zuzufügen?

  • Bieten Kunden Ihnen Schulungsdaten direkt an?

    - Wie sichern Sie diese Daten?

    - Was geschieht, wenn es böswillig ist und Ihr Dienst das Ziel ist?

  • Wie sieht hier ein falsches Positiv aus? Was sind die Auswirkungen eines falsch-negativen Ergebnisses?

  • Können Sie die Abweichung von "True Positive" und "False Positive" über mehrere Modelle hinweg nachverfolgen und messen?

  • Welche Art von Telemetrie benötigen Sie, um die Vertrauenswürdigkeit Ihrer Modellausgabe Ihren Kunden zu beweisen?

  • Identifizieren Sie alle Drittanbieterabhängigkeiten in Ihrer ML/Trainingsdatenversorgungskette – nicht nur Open-Source-Software, sondern auch Datenanbieter.

    - Warum verwenden Sie sie und wie überprüfen Sie ihre Vertrauenswürdigkeit?

  • Verwenden Sie vorgefertigte Modelle von 3rd-Parteien oder übermitteln Schulungsdaten an 3 rd-Party-MLaaS-Anbieter?

  • Inventarisieren Sie Nachrichten über Angriffe auf ähnliche Produkte/Dienstleistungen. Verstehen, dass viele KI/ML-Bedrohungen zwischen Modelltypen übertragen werden, welche Auswirkungen haben diese Angriffe auf Ihre eigenen Produkte?

  • Reprogrammierung neuronaler Netzwerke

  • Adversariale Beispiele in der physischen Domäne

  • Böswillige ML-Anbieter rufen Schulungsdaten ab

  • Angriff auf die ML-Lieferkette

  • Hintertüre Modell

  • Kompromittierte ML-spezifische Abhängigkeiten

Beispielangriffe

  • Ein bösartiger MLaaS-Anbieter manipuliert Dein Modell mit einer gezielten Umgehung.

  • Feindlicher Kunde findet Sicherheitsanfälligkeit in einer gängigen OSS-Abhängigkeit, die Sie verwenden, lädt manipulierte Trainingsdaten hoch, um Ihren Dienst zu kompromittieren.

  • Skrupelloser Partner verwendet Gesichtserkennungs-APIs und erstellt eine Präsentationsebene über Ihrem Dienst, um Deep Fakes zu produzieren.

KI/ML-spezifische Bedrohungen und deren Gegenmaßnahmen

Nr. 1: Feindliche Störung

BESCHREIBUNG

Bei Angriffen imTurbationsstil ändert der Angreifer die Abfrage stehlend, um eine gewünschte Antwort von einem produktionsgestützten Modell zu erhalten[1]. Dies ist eine Verletzung der Modelleingabeintegrität, die zu Fuzzing-Stil-Angriffen führt, bei denen das Endergebnis nicht notwendigerweise eine Zugriffsverletzung oder EOP ist, sondern stattdessen die Klassifizierungsleistung des Modells beeinträchtigt. Dies kann auch durch Trolle sichtbar werden, die bestimmte Zielwörter so verwenden, dass die KI sie verbietet und effektiv verhindert, dass legitime Benutzer einen Dienst erhalten, wenn ihr Name einem "verbotenen" Wort entspricht.

Diagramm, das zeigt, dass die Angriffsschwierigkeiten zunehmen, wenn die Komplexität steigt und die Fähigkeit abnimmt. [24]

Variant #1a: Gezielte Fehlklassifizierung

In diesem Fall generieren Angreifer ein Beispiel, das sich nicht in der Eingabeklasse des Zielklassifizierers befindet, sondern vom Modell als diese bestimmte Eingabeklasse klassifiziert wird. Das adversariale Beispiel kann wie zufälliges Rauschen für menschliche Augen erscheinen, aber Angreifer verfügen über einige Kenntnisse des Zielcomputerlernsystems, um ein weißes Rauschen zu erzeugen, das nicht zufällig ist, sondern einige bestimmte Aspekte des Zielmodells ausnutzt. Der Gegner gibt ein Eingabebeispiel, das kein legitimes Beispiel ist, aber das Zielsystem klassifiziert es als legitime Klasse.

Beispiele

Ein Diagramm, das zeigt, dass ein Foto von gezieltem Rauschen von einem Bildklassifizierer fälschlicherweise klassifiziert wird, was zu einem Foto eines Busses führt. [6]

Gegenmaßnahmen

  • Stärkung der adversarialen Robustheit mithilfe von Modellkonfidenz durch adversariales Training [19]: Die Autoren schlagen das Hochvertrauens-Nachbar (HCNN) Framework vor, das Konfidenzinformationen und die nächste-Nachbarsuche kombiniert, um die Robustheit eines Basismodells zu verstärken. Dies kann dazu beitragen, zwischen richtigen und falschen Modellvorhersagen in einer Nachbarschaft eines Punkts zu unterscheiden, der aus der zugrunde liegenden Schulungsverteilung entnommen wird.

  • Attributionsgesteuerte Kausalanalyse [20]: Die Autoren untersuchen die Verbindung zwischen der Resilienz mit adversarialen Störungen und der attributionsbasierten Erklärung einzelner Entscheidungen, die von Machine Learning-Modellen generiert werden. Sie berichten, dass adversariale Eingaben nicht robust im Attributionsraum sind, d. h., das Maskieren einiger Features mit hoher Attribution führt zu einer Veränderung der Unbestimmtheit des Machine Learning-Modells in den adversarialen Beispielen. Im Gegensatz dazu sind die natürlichen Eingaben im Attributionsraum robust.

    Eine Abbildung mit zwei Ansätzen zur Bestimmung der Fehlklassifizierung von Eingabewerten 9,9 als 9,4. [20]

Mit diesen Ansätzen können machine Learning-Modelle widerstandsfähiger gegenüber Angreiferangriffen werden, da das Täuschen dieses zweistufigen Kognitionssystems nicht nur den Angriff auf das ursprüngliche Modell erfordert, sondern auch sicherstellen muss, dass die für das adversariale Beispiel generierte Zuordnung den ursprünglichen Beispielen ähnelt. Beide Systeme müssen gleichzeitig für einen erfolgreichen Angreiferangriff kompromittiert werden.

Herkömmliche Parallelen

Remoteerweiterung von Berechtigungen, da angreifer jetzt die Kontrolle über Ihr Modell haben

Schweregrad

Kritisch

Variant-#1b: Quell-/Ziel-Fehlklassifizierung

Dies wird als ein Versuch eines Angreifers charakterisiert, ein Modell so zu manipulieren, dass es das von ihnen gewünschte Label für eine bestimmte Eingabe zurückgibt. Dies erzwingt in der Regel, dass ein Modell ein falsch positives oder falsch negatives Ergebnis zurückgibt. Das Endergebnis ist eine subtile Übernahme der Klassifizierungsgenauigkeit des Modells, durch die ein Angreifer gezielte Umgehungen nach Belieben auslösen kann.

Dieser Angriff hat zwar erhebliche nachteilige Auswirkungen auf die Klassifizierungsgenauigkeit, kann aber auch zeitintensiver sein, da ein Angreifer nicht nur die Quelldaten bearbeiten darf, sodass er nicht mehr richtig bezeichnet wird, sondern auch speziell mit der gewünschten betrügerischen Bezeichnung gekennzeichnet ist. Diese Angriffe umfassen häufig mehrere Schritte/Versuche, eine Fehlklassifizierung zu erzwingen [3]. Wenn das Modell anfällig für die Übertragung von Lernangriffen ist, die gezielte Fehlklassifizierung erzwingen, gibt es möglicherweise keinen erkennbaren Fußabdruck für den Angreiferdatenverkehr, da die Probingangriffe offline ausgeführt werden können.

Beispiele

Erzwingen von gutartigen E-Mails, dass sie als Spam klassifiziert werden oder ein schädliches Beispiel nicht erkannt wird. Diese werden auch als Modellhinterziehung oder Imitierungsangriffe bezeichnet.

Gegenmaßnahmen

Reaktive/defensive Erkennungsaktionen

  • Implementieren Sie einen minimalen Zeitschwellenwert zwischen Aufrufen der API, der Klassifizierungsergebnisse bereitstellt. Dies verlangsamt multistufige Angriffstests, indem die Gesamtzeit erhöht wird, die erforderlich ist, um eine erfolgreiche Störung zu finden.

Proaktive/Schutzaktionen

  • Feature-Denoising zur Verbesserung der robusten Abwehrmechanismen [22]: Die Autoren entwickeln eine neue Netzwerkarchitektur, die die robuste Abwehrfähigkeit durch Feature-Denoising erhöht. Insbesondere enthalten die Netzwerke Blöcke, die die Features mit nicht-lokalen Mitteln oder anderen Filtern entrauschen; die gesamten Netzwerke werden End-to-End trainiert. In Kombination mit adversarialem Training verbessern die denoising Feature-Netzwerke erheblich den neuesten Stand der Technik bei der Robustheit gegen gegnerische Angriffe sowohl in White-Box- als auch Black-Box-Angriffsszenarien.

  • Adversarielles Training und Regularisierung: Trainieren Sie mit bekannten adversariellen Beispielen, um Widerstandsfähigkeit und Robustheit gegen bösartige Eingaben aufzubauen. Dies kann auch als eine Form der Regularisierung betrachtet werden, die die Norm von Eingabegradienten bestraft und die Vorhersagefunktion des Klassifizierers glatter macht (Erhöhung des Eingabemargin). Dazu gehören korrekte Klassifizierungen mit niedrigeren Konfidenzraten.

Ein Diagramm, das die Änderung der Steigung der Vorhersagefunktion mit gegnerischem Training zeigt.

Investieren Sie in die Entwicklung monotoner Klassifizierung mit auswahl monotoner Merkmale. Dadurch wird sichergestellt, dass der Gegner den Klassifizierer nicht umgehen kann, indem er einfach Merkmale aus der negativen Klasse hinzufügt [13].

  • Feature-Squeezing [18] kann verwendet werden, um DNN-Modelle zu verstärken, indem adversarielle Beispiele erkannt werden. Der Suchraum, der einem Angreifer zur Verfügung steht, wird reduziert, indem Stichproben zusammengeführt werden, die vielen verschiedenen Merkmalsvektoren im ursprünglichen Raum entsprechen und zu einer einzigen Stichprobe konsolidiert werden. Durch den Vergleich der Vorhersage eines DNN-Modells für die ursprüngliche Eingabe mit der Quezfunktion kann die Queezingfunktion dazu beitragen, adversariale Beispiele zu erkennen. Wenn die ursprünglichen und komprimierten Beispiele wesentlich unterschiedliche Ausgaben aus dem Modell erzeugen, ist die Eingabe wahrscheinlich adversarial. Durch die Messung der Meinungsverschiedenheiten zwischen Vorhersagen und Auswählen eines Schwellenwerts kann das System die richtige Vorhersage für legitime Beispiele ausgeben und gegnerische Eingaben ablehnen.

    Eine Abbildung, die das Ergebnis des Feature-Squeezing zeigt.

    Ein Diagramm, das den Fluss der Eingabe durch ein Feature-Squeezing-Framework zeigt. [18]

  • Zertifizierte Verteidigungen gegen adversariale Beispiele [22]: Die Autoren schlagen eine Methode basierend auf einer semidefiniten Entspannung vor, die ein Zertifikat ausstellt, dass für ein gegebenes Netzwerk und Testeingaben kein Angriff den Fehler zwingen kann, einen bestimmten Wert zu überschreiten. Zweitens, da dieses Zertifikat unterschiedlich ist, optimieren Autoren es gemeinsam mit den Netzwerkparametern und stellen einen adaptiven Regularizer bereit, der die Stabilität gegenüber allen Angriffen fördert.

Antwortaktionen

  • Ausgeben von Warnungen zu Klassifizierungsergebnissen mit hoher Varianz zwischen Klassifizierern, insbesondere, wenn sie von einem einzelnen Benutzer oder einer kleinen Gruppe von Benutzern stammen.

Herkömmliche Parallelen

Remoteerweiterung von Berechtigungen

Schweregrad

Kritisch

Variant #1c: Zufällige Fehlklassifizierung

Dies ist eine spezielle Variante, bei der die Zielklassifizierung des Angreifers alles andere sein kann als die legitime Quellklassifizierung. Der Angriff besteht normalerweise darin, zufällig Rauschen in die zu klassifizierenden Quelldaten einzufügen, um die Wahrscheinlichkeit zu verringern, dass die Daten in Zukunft korrekt klassifiziert werden [3].

Beispiele

Zwei Fotos einer Katze. Ein Foto wird als Tabbykatze klassifiziert. Nach adversarialer Perturbation wird das andere Foto als Guacamole klassifiziert.

Gegenmaßnahmen

Identisch mit Variant 1a.

Herkömmliche Parallelen

Nicht persistente Dienstverweigerung

Schweregrad

Von Bedeutung

Variant #1d: Konfidenzreduktion

Ein Angreifer kann Eingaben erstellen, um das Konfidenzniveau der richtigen Klassifizierung zu verringern, insbesondere in Szenarien mit hohen Folgen. Dies kann auch in Form einer großen Anzahl falsch-positiver Meldungen erfolgen, die dafür bestimmt sind, Administratoren oder Überwachungssysteme mit betrügerischen Warnungen zu überschwemmen, die sich nicht von legitimen Warnungen unterscheiden lassen [3].

Beispiele

Zwei Fotos eines Stoppzeichens. Das Foto auf der linken Seite zeigt ein Vertrauensniveau von 96 Prozent. Nach einer adversariellen Störung zeigt das Foto auf der rechten Seite ein Vertrauensniveau von 13 Prozent.

Gegenmaßnahmen
  • Zusätzlich zu den in Variante #1a behandelten Aktionen kann die Ereignisbegrenzung verwendet werden, um das Volumen von Warnungen aus einer einzigen Quelle zu reduzieren.
Herkömmliche Parallelen

Nicht persistente Dienstverweigerung

Schweregrad

Von Bedeutung

#2a gezielte Datenvergiftung

BESCHREIBUNG

Ziel des Angreifers ist es, das in der Schulungsphase generierte Computermodell zu verunreinigen, sodass Vorhersagen zu neuen Daten in der Testphase geändert werden[1]. Bei gezielten Vergiftungsangriffen möchte der Angreifer bestimmte Beispiele falsch klassifizieren, um bestimmte Aktionen zu ergreifen oder ausgelassen zu machen.

Beispiele

Übermitteln von AV-Software als Schadsoftware, um ihre Fehlklassifizierung als böswillig zu erzwingen und die Verwendung gezielter AV-Software auf Clientsystemen zu beseitigen.

Gegenmaßnahmen
  • Definieren sie Anomaliesensoren, um die Datenverteilung täglich zu untersuchen und abweichungen zu benachrichtigen

    Tägliches Messen der Trainingsdatenvariation, Telemetrie für Schiefe/Drift

  • Eingabeüberprüfung, sowohl Bereinigung als auch Integritätsprüfung

  • Vergiftungen von Modellen injizieren abgelegene Trainingsproben. Zwei Hauptstrategien zur Bekämpfung dieser Bedrohung:

    -Datenbereinigung/ Validierung: Entfernen von Vergiftungsproben aus Trainingsdaten -Bagging zur Bekämpfung von Vergiftungsangriffen [14]

    -Reject-on-Negative-Impact (RONI) Verteidigung [15]

    -Robustes Lernen: Wählen Sie Lernalgorithmen aus, die bei Vergiftungsproben robust sind.

    -Ein solcher Ansatz wird in [21] beschrieben, in dem Autoren das Problem der Datenvergiftung in zwei Schritten behandeln: 1) Einführung einer neuartigen robusten Matrixfaktorisierungsmethode zur Wiederherstellung des wahren Unterraums und 2) neuartige robuste Prinzip-Komponentenregression, um adversariale Instanzen zu beschneiden, basierend auf der in Schritt (1) wiederhergestellten Grundlage. Sie zeichnen die notwendigen und ausreichenden Bedingungen für eine erfolgreiche Wiederherstellung des wahren Unterraums aus und stellen eine Grenze zu erwarteten Vorhersageverlusten im Vergleich zur Bodenwahrheit dar.

Herkömmliche Parallelen

Trojanischer Host, bei dem Angreifer im Netzwerk bestehen bleiben. Schulungs- oder Konfigurationsdaten werden kompromittiert und zu Vertrauenszwecken für die Modellerstellung verwendet.

Schweregrad

Kritisch

#2b Indiskriminate Datenvergiftung

BESCHREIBUNG

Ziel ist es, die Qualität/Integrität des angegriffenen Datasets zu ruinieren. Viele Datensätze sind öffentlich/nicht vertrauenswürdig/ungenpflegt, sodass dadurch zusätzliche Bedenken hinsichtlich der Möglichkeit entstehen, solche Verletzungen der Datenintegrität überhaupt zu erkennen. Die Schulung zu unwissentlich kompromittierten Daten ist eine Garbage-In-/GarbageOut-Situation. Nach der Erkennung muss die Triage den Umfang der verletzten Daten ermitteln und isolieren/neu schulen.

Beispiele

Ein Unternehmen scrapt eine bekannte und vertrauenswürdige Website, um Daten zu Öl-Futures zu sammeln, um seine Modelle zu trainieren. Die Website des Datenanbieters wird anschließend über EINEN SQL Injection-Angriff kompromittiert. Der Angreifer kann das Dataset nach Belieben vergiften, und das Modell, das trainiert wird, hat keine Vorstellung davon, dass die Daten verunreinigt sind.

Gegenmaßnahmen

Identisch mit Variante 2a.

Herkömmliche Parallelen

Authentifizierte Denial-of-Service für eine hochwertige Ressource

Schweregrad

Von Bedeutung

#3 Modellinversionsangriffe

BESCHREIBUNG

Die privaten Features, die in Machine Learning-Modellen verwendet werden, können wiederhergestellt werden [1]. Dazu gehört das Rekonstruieren privater Schulungsdaten, auf die der Angreifer keinen Zugriff hat. Auch bekannt als Bergsteigangriffe in der biometrischen Gemeinschaft, [16, 17] wird dies dadurch erreicht, dass die Eingabe gefunden wird, die das zurückgegebene Vertrauensniveau maximiert, unter der Bedingung, dass die Klassifizierung dem Ziel entspricht [4].

Beispiele

Zwei Bilder einer Person. Ein Bild ist verschwommen und das andere Bild ist klar. [4]

Gegenmaßnahmen
  • Schnittstellen zu Modellen, die von vertraulichen Daten trainiert werden, benötigen eine starke Zugriffssteuerung.

  • Rate-Limit-Abfragen, die nach Modell zulässig sind

  • Implementieren Sie Tore zwischen Benutzern/Anrufern und dem tatsächlichen Modell, indem Sie die Eingabeüberprüfung für alle vorgeschlagenen Abfragen durchführen, alles ablehnen, was nicht der Definition der Eingabekorrektur entspricht, und nur die minimale Menge an Informationen zurückgeben, die nützlich sein müssen.

Herkömmliche Parallelen

Gezielte, verdeckte Offenlegung von Informationen

Schweregrad

Dies wird gemäß der SDL-Fehlerleiste standardmäßig als wichtig eingestuft, aber das Extrahieren von sensiblen oder persönlich identifizierbaren Daten würde dies auf kritisch erhöhen.

#4 Folgerungsangriff auf Mitgliedschaften

BESCHREIBUNG

Der Angreifer kann ermitteln, ob ein bestimmter Datensatz Teil des Schulungsdatensatzes des Modells war oder nicht[1]. Forscher konnten das Hauptverfahren eines Patienten vorhersagen (z. B. Chirurgie, die der Patient durchlaufen hat) basierend auf den Attributen (z. B. Alter, Geschlecht, Krankenhaus) [1].

Eine Abbildung, die die Komplexität eines Mitgliedschaftsableitungsangriffs zeigt. Pfeile zeigen den Fluss und die Beziehung zwischen Schulungsdatenvorhersagedaten an. [12]

Gegenmaßnahmen

Forschungsarbeiten, die die Durchführbarkeit dieses Angriffs belegen, deuten darauf hin, dass die Differenzielle Privatsphäre [4, 9] eine wirksame Gegenmaßnahme darstellen würde. Dies ist immer noch ein noch in den Anfängen befindliches Gebiet bei Microsoft, und AETHER Security Engineering empfiehlt, Fachwissen durch Investitionen in die Forschung in diesem Bereich aufzubauen. Diese Forschung müsste differenzielle Datenschutzfunktionen aufzählen und ihre praktische Wirksamkeit als Gegenmaßnahmen bewerten und dann Möglichkeiten entwerfen, wie diese Schutzmaßnahmen transparent auf unseren Onlinediensteplattformen geerbt werden können, ähnlich wie das Kompilieren von Code in Visual Studio bietet Ihnen on-by-Standardsicherheitsschutz, die für Entwickler und Benutzer transparent sind.

Die Verwendung von Neuron-Dropout und Model Stacking kann bis zu einem gewissen Grad effektive Maßnahmen sein. Die Verwendung des Neuronenabbruchs erhöht nicht nur die Resilienz eines neuralen Netzs zu diesem Angriff, sondern erhöht auch die Modellleistung [4].

Herkömmliche Parallelen

Datenschutz. Rückschlüsse auf die Aufnahme eines Datenpunkts in den Schulungssatz werden vorgenommen, aber die Schulungsdaten selbst werden nicht offengelegt.

Schweregrad

Dies ist ein Datenschutzproblem, kein Sicherheitsproblem. Es wird in den Richtlinien zur Bedrohungsmodellierung behandelt, da sich die Domänen überlappen, aber jede Antwort hier würde durch Datenschutz und nicht durch Sicherheit gesteuert werden.

#5 Modelldiebstahl

BESCHREIBUNG

Die Angreifer erstellen das zugrunde liegende Modell neu, indem sie das Modell legitim abfragen. Die Funktionalität des neuen Modells entspricht dem des zugrunde liegenden Modells[1]. Nachdem das Modell neu erstellt wurde, kann es umgekehrt werden, um Featureinformationen wiederherzustellen oder Rückschlüsse auf Schulungsdaten zu machen.

  • Lösung von Formeln – Für ein Modell, das Klassenwahrscheinlichkeiten über die API-Ausgabe zurückgibt, kann ein Angreifer Abfragen erstellen, um unbekannte Variablen in einem Modell zu ermitteln.

  • Pfadsuche – ein Angriff, der API-Besonderheiten ausnutzt, um die von einer Struktur getroffenen Entscheidungen zu extrahieren, wenn eine Eingabe klassifiziert wird [7].

  • Übertragbarkeitsangriffe - Ein Angreifer kann ein lokales Modell trainieren – möglicherweise durch Ausgeben von Vorhersageabfragen an das zielorientierte Modell - und es verwenden, um gegnerische Beispiele zu erstellen, die auf das Zielmodell übertragen werden [8]. Wenn Ihr Modell extrahiert und entdeckt wird, das anfällig für eine Art von Adversarialeingabe ist, können neue Angriffe auf Ihr produktionsgestütztes Modell vollständig offline von dem Angreifer entwickelt werden, der eine Kopie Ihres Modells extrahiert hat.

Beispiele

In Einstellungen, in denen ein ML-Modell dient, um adversariales Verhalten zu erkennen, z. B. identifizierung von Spam, Schadsoftwareklassifizierung und Anomalieerkennung des Netzwerks, kann die Modellextraktion Evasionsangriffe erleichtern [7].

Gegenmaßnahmen

Proaktive/Schutzaktionen

  • Minimieren oder verschleiern Sie die in Vorhersage-APIs zurückgegebenen Details, während sie weiterhin ihre Nützlichkeit für ehrliche Anwendungen beibehalten [7].

  • Definieren Sie eine wohlgeformte Abfrage für Ihre Modelleingaben, und geben Sie nur Ergebnisse als Reaktion auf abgeschlossene, wohlgeformte Eingaben zurück, die mit diesem Format übereinstimmen.

  • Gibt gerundete Konfidenzwerte zurück. Die meisten berechtigten Anrufer benötigen nicht mehrere Dezimalstellen zur Präzision.

Herkömmliche Parallelen

Nicht authentifizierte, schreibgeschützte Manipulation von Systemdaten, gezielte Offenlegung von hochwertigen Informationen?

Schweregrad

Wichtig in sicherheitssensitiven Modellen, andernfalls Moderat

#6 Neural Net Reprogrammierung

BESCHREIBUNG

Durch eine speziell gestaltete Abfrage von einem Angreifer können Machine Learning-Systeme auf eine Aufgabe umprogrammiert werden, die von der ursprünglichen Absicht des Erstellers abweicht [1].

Beispiele

Schwache Zugriffssteuerungen für eine Gesichtserkennungs-API ermöglichen es Drittparteien, in Apps integriert zu werden, die Microsoft-Kunden schädigen, wie z. B. ein Deepfake-Generator.

Gegenmaßnahmen
  • Starke gegenseitige Client-Server-Authentifizierung<> und Zugriffssteuerung für Modellschnittstellen

  • Abschaltung der beleidigenden Konten.

  • Identifizieren und Durchsetzen einer Service-Level-Vereinbarung für Ihre APIs. Bestimmen Sie die akzeptable Zeit bis zur Behebung eines Problems, nachdem ein Problem gemeldet wurde, und stellen Sie sicher, dass das Problem nicht mehr reproduzierbar ist, wenn das SLA abgelaufen ist.

Herkömmliche Parallelen

Dies ist ein Missbrauchsszenario. Es ist unwahrscheinlicher, einen Sicherheitsvorfall zu melden, als das Konto des Täters einfach zu deaktivieren.

Schweregrad

Wichtig bis Kritisch

#7 Adversariales Beispiel im physikalischen Bereich (Bits->Atome)

BESCHREIBUNG

Ein gegnerisches Beispiel ist eine Eingabe/Abfrage von einem bösartigen Akteur, die mit dem alleinigen Ziel gesendet wird, das maschinelle Lernsystem zu irrezuführen [1]

Beispiele

Diese Beispiele können sich im physikalischen Bereich manifestieren, zum Beispiel wenn ein selbstfahrendes Auto dazu verleitet wird, ein Stoppschild zu überfahren, weil durch den feindlichen Input eine bestimmte Lichtfarbe auf das Stoppschild gestrahlt wird, wodurch das Bilderkennungssystem gezwungen wird, das Stoppschild nicht mehr als solches zu erkennen.

Herkömmliche Parallelen

Erhöhung der Berechtigungen, Ausführung von Remotecode

Gegenmaßnahmen

Diese Angriffe manifestieren sich selbst, da Probleme in der Machine Learning-Ebene (die Daten- und Algorithmusebene unterhalb der KI-gesteuerten Entscheidungsfindung) nicht abgemildert wurden. Wie bei jeder anderen Software *oder* physischen System kann die Ebene unterhalb des Ziels immer über herkömmliche Vektoren angegriffen werden. Daher sind herkömmliche Sicherheitspraktiken wichtiger denn je, insbesondere bei der Ebene der nicht ausgelassenen Sicherheitsanfälligkeiten (daten/algo-Ebene), die zwischen KI und herkömmlicher Software verwendet werden.

Schweregrad

Kritisch

#8 Bösartige ML-Anbieter, die Schulungsdaten wiederherstellen können

BESCHREIBUNG

Ein böswilliger Anbieter stellt einen Hintertürenalgorithmus dar, bei dem die privaten Schulungsdaten wiederhergestellt werden. Sie konnten Gesichter und Texte anhand des Modells allein rekonstruieren.

Herkömmliche Parallelen

Gezielte Offenlegung von Informationen

Gegenmaßnahmen

Forschungsarbeiten, die die Rentabilität dieses Angriffs belegen, deuten darauf hin, dass die Homomorphe Verschlüsselung eine effektive Entschärfung wäre. Dies ist ein Bereich mit wenig aktuellen Investitionen bei Microsoft und AETHER Security Engineering empfiehlt die Erstellung von Fachwissen mit Forschungsinvestitionen in diesem Bereich. Diese Forschung müsste homomorphe Verschlüsselungs-Tenets aufzählen und ihre praktische Wirksamkeit als Gegenmaßnahmen im Gesicht bösartiger ML-as-a-Service-Anbieter bewerten.

Schweregrad

Wichtig, wenn Daten PII sind, andernfalls moderat

#9 Angriff auf die ML-Lieferkette

BESCHREIBUNG

Aufgrund großer Ressourcen (Daten + Berechnung), die zum Trainieren von Algorithmen erforderlich sind, besteht die aktuelle Praxis darin, Modelle wiederzuverwenden, die von großen Unternehmen trainiert wurden, und sie leicht für aufgabenhand zu ändern (z. B.: ResNet ist ein beliebtes Bilderkennungsmodell von Microsoft). Diese Modelle werden in einem Model Zoo kuratiert (Caffe hostet beliebte Bilderkennungsmodelle). In diesem Angriff greift der Angreifer die Modelle an, die in Caffe gehostet werden, wodurch der Brunnen für alle anderen vergiftet wird. [1]

Herkömmliche Parallelen
  • Kompromittierung von nicht sicherheitsrelevanten Abhängigkeiten durch Drittanbieter

  • App Store– unwissentliches Hosten von Schadsoftware

Gegenmaßnahmen
  • Minimieren Sie Abhängigkeiten von Drittanbietern für Modelle und Daten, sofern möglich.

  • Integrieren Sie diese Abhängigkeiten in Ihren Bedrohungsmodellierungsprozess.

  • Nutzen Sie starke Authentifizierung, Zugriffssteuerung und Verschlüsselung zwischen 1.- und 3.-Drittanbieter-Systemen.

Schweregrad

Kritisch

#10 Hintertür-Maschinelles Lernen

BESCHREIBUNG

Der Schulungsvorgang wird an einen böswilligen Drittanbieter ausgelagert, der Schulungsdaten manipuliert und ein trojanisches Modell geliefert hat, das gezielte Fehlklassifizierungen erzwingt, z. B. die Klassifizierung eines bestimmten Virus als nicht böswillig[1]. Dies ist ein Risiko in ML-as-a-Service-Modellgenerierungsszenarien.

Ein Beispiel, das zeigt, wie sich fehlklassifizierungen negativ auf Schulungsdaten auswirken können. Ein Foto ist ein ordnungsgemäß klassifiziertes Stoppzeichen. Nach einer Vergiftung wird das zweite Foto als Geschwindigkeitslimitzeichen bezeichnet. [12]

Herkömmliche Parallelen
  • Kompromittierung der Sicherheitsabhängigkeit von Drittanbietern

  • Kompromittierter Softwareupdatemechanismus

  • Kompromittierung der Zertifizierungsstelle

Gegenmaßnahmen
Reaktive/defensive Erkennungsaktionen
  • Der Schaden ist bereits entstanden, sobald diese Bedrohung entdeckt wurde, sodass das Modell und alle Schulungsdaten, die vom böswilligen Anbieter bereitgestellt werden, nicht vertrauenswürdig sind.
Proaktive/Schutzaktionen
  • Alle sensiblen Modelle intern trainieren

  • Katalogieren von Schulungsdaten oder sicherstellen, dass sie von einem vertrauenswürdigen Drittanbieter mit starken Sicherheitspraktiken stammt

  • Bedrohungsmodell der Interaktion zwischen dem MLaaS-Anbieter und Ihren eigenen Systemen

Antwortaktionen
  • Identisch mit der Kompromittierung externer Abhängigkeiten
Schweregrad

Kritisch

#11 Softwareabhängigkeiten des ML-Systems ausnutzen

BESCHREIBUNG

In diesem Angriff bearbeitet der Angreifer die Algorithmen NICHT. Nutzt stattdessen Software-Schwachstellen wie Pufferüberläufe oder Cross-Site-Scripting[1]. Es ist immer noch einfacher, Softwareebenen unter AI/ML zu kompromittieren, als die Lernschicht direkt anzugreifen, sodass herkömmliche Methoden zur Risikominderung von Sicherheitsrisiken, die im Security Development Lifecycle beschrieben sind, unerlässlich sind.

Herkömmliche Parallelen
  • Kompromittierte Open Source-Softwareabhängigkeit

  • Sicherheitsanfälligkeit des Webservers (XSS, CSRF, API-Eingabeüberprüfungsfehler)

Gegenmaßnahmen

Arbeiten Sie mit Ihrem Sicherheitsteam zusammen, um nach den anwendbaren bewährten Praktiken des Security Development Lifecycle/Operational Security Assurance zu handeln.

Schweregrad

Variable; Bis zu kritisch, abhängig von der Art der herkömmlichen Software-Sicherheitsanfälligkeit.

Quellenangaben

[1] Fehlermodi in Machine Learning, Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen und Jeffrey Snover, https://learn.microsoft.com/security/failure-modes-in-machine-learning

[2] AETHER Security Engineering Workstream, Datenherkunft/-zuordnung v-Team

[3] Adversariale Beispiele in Deep Learning: Charakterisierung und Divergenz, Wei, et al, https://arxiv.org/pdf/1807.00051.pdf

[4] ML-Leaks: Modell- und Datenunabhängige Mitgliedschaftsausschlussangriffe und Abwehrmaßnahmen auf Machine Learning-Modelle, Salem, et al, https://arxiv.org/pdf/1806.01246v2.pdf

[5] M. Fredrikson, S. Jha und T. Ristenpart, "Model-Inversionsangriffe, die Vertrauensinformationen ausnutzen und grundlegende Gegenmaßnahmen", in den Konferenzberichten der ACM SIGSAC Conference on Computer and Communications Security (CCS) 2015.

[6] Nicolas Papernot & Patrick McDaniel - Adversarische Beispiele im maschinellen Lernen AIWTB 2017

[7] Stiehlen maschineller Lernmodelle über Vorhersage-APIs, Florian Tramèr, Fachhochschule Polytechnique Fédérale de Lausanne (EPFL); Fan Zhang, Cornell University; Ari Juels, Cornell Tech; Michael K. Reiter, The University of North Carolina in Chapel Hill; Thomas Ristenpart, Cornell Tech

[8] Der Raum der übertragbaren Adversarial-Beispiele, Florian Tramèr , Nicolas Papernot , Ian Goodfellow , Dan Boneh , und Patrick McDaniel

[9] Verstehen von Membership Inferences in Well-Generalized-Lernmodellen Yunhui Long1 , Vincent Bindschaedler1 , Lei Wang2 , Diyue Bu2 , Xiaofeng Wang2 , Haixu Tang2 , Carl A. Gunter1 , and Kai Chen3,4

[10] Simon-Gabriel et al., Adversarielle Verwundbarkeit von neuronalen Netzwerken steigt mit der Eingabedimension, ArXiv 2018.

[11] Lyu et al., Eine einheitliche Gradienten-Regularisierungsfamilie für adversarielle Beispiele, ICDM 2015

[12] Wildmuster: Zehn Jahre nach dem Aufstieg des gegnerischen maschinellen Lernens - NeCS 2019 Battista Biggioa, Fabio Roli

[13] Andersfalls beständige Malware-Erkennung mittels monotoner Klassifikation Inigo Incer et al.

[14] Battista Biggio, Igino Corona, Giorgio Fumera, Giorgio Giacinto und Fabio Roli. Bagging-Klassifizierer zur Bekämpfung von Vergiftungsangriffen in gegnerischen Klassifizierungsaufgaben

[15] Eine verbesserte Verteidigung gegen negative Auswirkungen Hongjiang Li und Patrick P.K. Chan

[16] Adler. Sicherheitsrisiken in biometrischen Verschlüsselungssystemen. 5. Int. Konf. AVBPA, 2005

[17] Galbally, McCool, Fierrez, Marcel, Ortega-Garc. Über die Verwundbarkeit von Gesichtserkennungssystemen gegenüber Hill-Climbing-Angriffen. Patt. Rec., 2010

[18] Weilin Xu, David Evans, Yanjun Qi. Feature Squeezing: Erkennen adversarialer Beispiele in tiefen neuronalen Netzwerken. 2018 Network and Distributed System Security Symposium. 18.-21. Februar.

[19] Stärkung der adversarialen Robustität mithilfe des Modellvertrauens durch adversariales Training - Xi Wu, Uyeong Jang, Jiefeng Chen, Lingjiao Chen, Somesh Jha

[20] Attributionsgesteuerte Kausalanalyse zur Erkennung von adversarialen Beispielen, Susmit Jha, Sunny Raj, Steven Fernandes, Sumit Kumar Jha, Somesh Jha, Gunjan Verma, Brian Jalaian, Ananthram Swami

[21] Robuste lineare Regression gegen Trainingsdatenvergiftung – Chang Liu et al.

[22] Rauschentfernung zur Verbesserung der adversarialen Robustheit, Cihang Xie, Yuxin Wu, Laurens van der Maaten, Alan Yuille, Kaiming He

[23] Zertifizierte Verteidigung gegen adversariale Beispiele - Aditi Raghunathan, Jacob Steinhardt, Percy Liang