Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Von Andrew Marshall, Jugal Parikh, Emre Kiciman und Ram Shankar Siva Kumar
Besonderer Dank an Raul Rojas und den AETHER Security Engineering Workstream
November 2019
Dieses Dokument ist ein Lieferumfang der AETHER Engineering Practices for AI Working Group und ergänzt vorhandene SDL-Methoden zur Bedrohungsmodellierung, indem sie neue Anleitungen zur Bedrohungsenumeration und -entschärfung für den KI- und Machine Learning-Raum bereitstellen. Sie soll während der Überprüfungen des Sicherheitsdesigns wie folgt als Referenz verwendet werden:
Produkte/Dienste, die mit ai/ML-basierten Diensten interagieren oder Abhängigkeiten einnehmen
Produkte/Dienstleistungen, die mit AI/ML im Kern aufgebaut werden
Die herkömmliche Abmilderung von Sicherheitsbedrohungen ist wichtiger denn je. Die vom Security Development Lifecycle festgelegten Anforderungen sind unerlässlich, um eine Produktsicherheitsgrundlage zu schaffen, auf der diese Anleitung aufbaut. Wenn herkömmliche Sicherheitsbedrohungen nicht adressiert werden, erleichtert dies die in diesem Dokument behandelten AI/ML-spezifischen Angriffe sowohl im Software- als auch im physischen Bereich, und macht Kompromisse in den tieferen Schichten des Softwarestapels trivial. Eine Einführung in neue Sicherheitsbedrohungen in diesem Bereich finden Sie unter Sichern der Zukunft von KI und ML bei Microsoft.
Die Fähigkeiten von Sicherheitsingenieuren und Datenwissenschaftlern überschneiden sich in der Regel nicht. Diese Anleitung bietet eine Möglichkeit für beide Disziplinen, strukturierte Gespräche über diese neuartigen Bedrohungen und Abhilfemaßnahmen zu führen, ohne dass Sicherheitsingenieure zu Datenwissenschaftlern werden müssen oder umgekehrt.
Dieses Dokument ist in zwei Abschnitte unterteilt:
- "Wesentliche neue Überlegungen zur Bedrohungsmodellierung konzentrieren sich auf neue Denkansätze und Fragen, die bei der Modellierung von Bedrohungen für KI/ML-Systeme zu stellen sind." Sowohl Data Scientists als auch Sicherheitsingenieure sollten dies überprüfen, da es ihr Playbook für Diskussionen zur Bedrohungsmodellierung und die Priorisierung der Risikominderung sein wird.
- "KI/ML-spezifische Bedrohungen und ihre Gegenmaßnahmen" enthält Details zu bestimmten Angriffen sowie spezifischen Maßnahmen zur Risikominderung, die heute zum Schutz von Microsoft-Produkten und -Diensten gegen diese Bedrohungen verwendet werden. Dieser Abschnitt richtet sich in erster Linie an Datenwissenschaftler, die möglicherweise spezifische Bedrohungsminderungen als Ausgabe des Prozesses zur Risikomodellierung/Sicherheitsüberprüfung implementieren müssen.
Diese Anleitung basiert auf einer Adversarial Machine Learning Threat Taxonomy, die von Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen und Jeffrey Snover mit dem Titel "Failure Modes in Machine Learning" erstellt wurde. Anleitungen zur Behandlung von Sicherheitsbedrohungen, die in diesem Dokument beschrieben sind, finden Sie in der SDL Bug Bar für KI/ML-Bedrohungen. All dies sind lebende Dokumente, die sich im Laufe der Zeit mit der Bedrohungslandschaft entwickeln werden.
Wichtige neue Überlegungen in der Bedrohungsmodellierung: Ändern der Art und Weise, wie Sie Vertrauensgrenzen anzeigen
Gehen Sie von einer Kompromittierung bzw. Vergiftung der Daten aus, die Sie beim Training verwenden, sowie des Datenanbieters. Lernen Sie, anomale und böswillige Dateneinträge zu erkennen und zwischen ihnen zu unterscheiden und wiederherzustellen.
Zusammenfassung
Schulungsdatenspeicher und die Systeme, die sie hosten, sind Teil Ihres Bereichs für die Bedrohungsmodellierung. Die größte Sicherheitsbedrohung in maschinellem Lernen ist heute eine Datenvergiftung aufgrund des Mangels an Standarderkennungen und Gegenmaßnahmen in diesem Bereich, kombiniert mit Abhängigkeit von nicht vertrauenswürdigen/nicht behandelten öffentlichen Datasets als Quellen von Schulungsdaten. Das Nachverfolgen der Provenienz und der Herkunft Ihrer Daten ist unerlässlich, um ihre Vertrauenswürdigkeit zu gewährleisten und einen "Garbage In, Garbage Out"-Schulungszyklus zu vermeiden.
Fragen, die Sie in einer Sicherheitsüberprüfung stellen möchten
Wenn Ihre Daten vergiftet oder manipuliert werden, wie würden Sie wissen?
-Welche Telemetrie haben Sie, um eine Abweichung in der Qualität Ihrer Trainingsdaten zu erkennen?
Trainieren Sie mit Eingaben, die vom Benutzer bereitgestellt wurden?
-Welche Art von Eingabeüberprüfung/Bereinigung tun Sie für diesen Inhalt?
-Ist die Struktur dieser Daten ähnlich wie Datenblatte für Datasets?
Wenn Sie gegen Online-Datenspeicher trainieren, welche Schritte ergreifen Sie, um die Sicherheit der Verbindung zwischen Ihrem Modell und den Daten sicherzustellen?
-Haben sie eine Möglichkeit, Sicherheitsverletzungen für Verbraucher ihrer Datenfeeds zu melden?
-Sind sie überhaupt dazu in der Lage?
Wie sensibel sind die Daten, aus der Sie trainieren?
-Katalogisieren Sie es, oder steuern Sie die Hinzufügung/Aktualisierung/Löschung von Dateneinträgen?
Kann Ihr Modell vertrauliche Daten ausgeben?
-Wurden diese Daten mit der Zustimmung der Quelle erhalten?
Gibt das Modell nur Ergebnisse aus, die erforderlich sind, um sein Ziel zu erreichen?
Gibt Ihr Modell unformatierte Konfidenzergebnisse oder eine andere direkte Ausgabe zurück, die aufgezeichnet und dupliziert werden kann?
Welche Auswirkungen haben Ihre Schulungsdaten, die durch Angriffe/Invertierung Ihres Modells wiederhergestellt werden?
Wenn das Vertrauensniveau Ihrer Modellausgabe plötzlich abnimmt, können Sie herausfinden, wie und warum, und die Daten, die den Rückgang verursacht haben?
Haben Sie eine wohlgeformte Eingabe für Ihr Modell definiert? Was tun Sie, um sicherzustellen, dass Eingaben diesem Format entsprechen, und was tun Sie, wenn dies nicht der Fall ist?
Wenn Ihre Ausgaben falsch sind, aber keine Fehler gemeldet werden, woran würden Sie es erkennen?
Wissen Sie, ob Ihre Trainingsalgorithmen auf mathematischer Ebene widerstandsfähig für adversariale Eingaben sind?
Wie kann man sich von einer gegnerischen Kontamination Ihrer Trainingsdaten erholen?
-Können Sie feindliche Inhalte isolieren und betroffene Modelle neu trainieren?
-Können Sie ein Rollback auf ein Modell einer früheren Version für eine erneute Schulung ausführen?
Verwenden Sie Verstärkungslernen für unaufbereitete öffentliche Inhalte?
Denken Sie über die Herkunft Ihrer Daten nach – wenn Sie ein Problem feststellen, könnten Sie es bis zu seiner Einführung in den Datensatz nachverfolgen? Wenn nicht, ist das ein Problem?
Wissen Sie, wo Ihre Schulungsdaten stammen, und identifizieren Sie statistische Normen, um zu verstehen, wie Anomalien aussehen
-Welche Elemente Ihrer Schulungsdaten sind anfällig für äußeren Einfluss?
-Wer kann zu den Datensätzen beitragen, aus denen Sie trainieren?
- Wie würden Sie Ihre Quellen von Schulungsdaten angreifen, um einen Wettbewerber zu schädigen?
Verwandte Bedrohungen und Gegenmaßnahmen in diesem Dokument
Adversarial Perturbation (alle Varianten)
Datenvergiftung (alle Varianten)
Beispielangriffe
Erzwingen, dass unbedenkliche E-Mails als Spam klassifiziert werden oder ein bösartiges Beispiel unentdeckt bleibt
Vom Angreifer gestaltete Eingaben, die das Konfidenzniveau der richtigen Klassifizierung reduzieren, insbesondere in Szenarien mit hohen Folgen
Angreifer fügt Rauschen zufällig in die Quelldaten ein, die klassifiziert werden, um die Wahrscheinlichkeit zu verringern, dass die richtige Klassifizierung in Zukunft verwendet wird, wodurch das Modell effektiv dumbiert wird.
Verunreinigung von Schulungsdaten, um die Fehlklassifizierung ausgewählter Datenpunkte zu erzwingen, was dazu führt, dass ein System bestimmte Maßnahmen ergreift oder auslässt.
Identifizieren Sie Maßnahmen, die Ihr Modell oder Produkt/Service ergreifen könnte und die Kunden online oder im physischen Bereich Schaden zufügen können.
Zusammenfassung
Wenn sie nicht abgeschwächt werden, können Angriffe auf KI/ML-Systeme ihren Weg in die physische Welt finden. Jedes Szenario, das dazu missbraucht werden kann, Nutzern psychologisch oder physisch zu schaden, stellt ein katastrophales Risiko für Ihr Produkt/Ihre Dienstleistung dar. Dies erstreckt sich auf alle vertraulichen Daten über Ihre Kunden, die für Schulungen und Designentscheidungen verwendet werden, die diese privaten Datenpunkte offen legen können.
Fragen, die Sie in einer Sicherheitsüberprüfung stellen möchten
Trainieren Sie mit gegnerischen Beispielen? Welche Auswirkungen hat sie auf die Modellausgabe in der physischen Domäne?
Wie sieht das Trolling für Ihr Produkt/Ihren Service aus? Wie können Sie sie erkennen und darauf reagieren?
Was wäre erforderlich, um Ihr Modell dazu zu bringen, ein Ergebnis zu liefern, das Ihren Dienst dazu bringt, den Zugriff legitimer Benutzer zu verweigern?
Welche Auswirkungen hat Ihr Modell, das kopiert/gestohlen wird?
Kann Ihr Modell verwendet werden, um die Mitgliedschaft einer einzelnen Person in einer bestimmten Gruppe oder einfach in den Schulungsdaten abzuleiten?
Kann ein Angreifer Reputationsschäden oder PR-Rückschlag zu Ihrem Produkt verursachen, indem er gezwungen wird, bestimmte Aktionen auszuführen?
Wie gehen Sie mit ordnungsgemäß formatierten, aber stark voreingenommenen Daten um, wie zum Beispiel von Trollen?
Für jede Möglichkeit, mit dem Modell zu interagieren oder abzufragen, kann diese Methode abgefragt werden, um Schulungsdaten oder Modellfunktionen offenzulegen?
Verwandte Bedrohungen und Gegenmaßnahmen in diesem Dokument
Mitgliedschaftsinferenz
Modellinversion
Modelldiebstahl
Beispielangriffe
Wiederherstellung und Extraktion von Schulungsdaten durch wiederholtes Abfragen des Modells für maximale Konfidenzergebnisse
Duplizierung des Modells an sich durch erschöpfenden Abgleich von Abfragen und Antworten
Das Abfragen des Modells auf eine Weise, die ein bestimmtes Element privater Daten anzeigt, wurde in den Schulungssatz aufgenommen.
Selbstfahrende Autos werden dazu vertrickt, Stoppschilder/Ampeln zu ignorieren
Unterhaltungs-Bots, die dazu manipuliert wurden, gutartige Benutzer zu belästigen
Identifizieren aller Quellen von AI/ML-Abhängigkeiten sowie Frontend-Präsentationsebenen in Ihrer Daten-/Modell-Lieferkette
Zusammenfassung
Viele Angriffe in KI und Maschinellem Lernen beginnen mit legitimem Zugriff auf APIs, die angezeigt werden, um Abfragezugriff auf ein Modell bereitzustellen. Aufgrund der umfangreichen Datenquellen und der vielfältigen Benutzererfahrungen, die hier beteiligt sind, stellt authentifizierter, aber "unsachgemäßer" (hier gibt es einen Graubereich) Drittzugriff auf Ihre Modelle ein Risiko dar, da die Möglichkeit besteht, als Präsentationsebene über einem von Microsoft bereitgestellten Dienst zu agieren.
Fragen, die Sie in einer Sicherheitsüberprüfung stellen möchten
Welche Kunden/Partner werden authentifiziert, um auf Ihr Modell oder Ihre Dienst-APIs zuzugreifen?
-Können sie als Präsentationsebene über Ihrem Dienst fungieren?
-Können Sie den Zugriff im Falle einer Sicherheitsverletzung umgehend widerrufen?
-Was ist Ihre Wiederherstellungsstrategie im Falle einer böswilligen Nutzung Ihres Diensts oder Ihrer Abhängigkeiten?
Kann eine Drittpartei eine Fassade um Ihr Modell herum bauen, um es neu zu nutzen und Microsoft oder seinen Kunden Schaden zuzufügen?
Bieten Kunden Ihnen Schulungsdaten direkt an?
- Wie sichern Sie diese Daten?
- Was geschieht, wenn es böswillig ist und Ihr Dienst das Ziel ist?
Wie sieht hier ein falsches Positiv aus? Was sind die Auswirkungen eines falsch-negativen Ergebnisses?
Können Sie die Abweichung von "True Positive" und "False Positive" über mehrere Modelle hinweg nachverfolgen und messen?
Welche Art von Telemetrie benötigen Sie, um die Vertrauenswürdigkeit Ihrer Modellausgabe Ihren Kunden zu beweisen?
Identifizieren Sie alle Drittanbieterabhängigkeiten in Ihrer ML/Trainingsdatenversorgungskette – nicht nur Open-Source-Software, sondern auch Datenanbieter.
- Warum verwenden Sie sie und wie überprüfen Sie ihre Vertrauenswürdigkeit?
Verwenden Sie vorgefertigte Modelle von 3rd-Parteien oder übermitteln Schulungsdaten an 3 rd-Party-MLaaS-Anbieter?
Inventarisieren Sie Nachrichten über Angriffe auf ähnliche Produkte/Dienstleistungen. Verstehen, dass viele KI/ML-Bedrohungen zwischen Modelltypen übertragen werden, welche Auswirkungen haben diese Angriffe auf Ihre eigenen Produkte?
Verwandte Bedrohungen und Gegenmaßnahmen in diesem Dokument
Reprogrammierung neuronaler Netzwerke
Adversariale Beispiele in der physischen Domäne
Böswillige ML-Anbieter rufen Schulungsdaten ab
Angriff auf die ML-Lieferkette
Hintertüre Modell
Kompromittierte ML-spezifische Abhängigkeiten
Beispielangriffe
Ein bösartiger MLaaS-Anbieter manipuliert Dein Modell mit einer gezielten Umgehung.
Feindlicher Kunde findet Sicherheitsanfälligkeit in einer gängigen OSS-Abhängigkeit, die Sie verwenden, lädt manipulierte Trainingsdaten hoch, um Ihren Dienst zu kompromittieren.
Skrupelloser Partner verwendet Gesichtserkennungs-APIs und erstellt eine Präsentationsebene über Ihrem Dienst, um Deep Fakes zu produzieren.
KI/ML-spezifische Bedrohungen und deren Gegenmaßnahmen
Nr. 1: Feindliche Störung
BESCHREIBUNG
Bei Angriffen imTurbationsstil ändert der Angreifer die Abfrage stehlend, um eine gewünschte Antwort von einem produktionsgestützten Modell zu erhalten[1]. Dies ist eine Verletzung der Modelleingabeintegrität, die zu Fuzzing-Stil-Angriffen führt, bei denen das Endergebnis nicht notwendigerweise eine Zugriffsverletzung oder EOP ist, sondern stattdessen die Klassifizierungsleistung des Modells beeinträchtigt. Dies kann auch durch Trolle sichtbar werden, die bestimmte Zielwörter so verwenden, dass die KI sie verbietet und effektiv verhindert, dass legitime Benutzer einen Dienst erhalten, wenn ihr Name einem "verbotenen" Wort entspricht.
[24]
Variant #1a: Gezielte Fehlklassifizierung
In diesem Fall generieren Angreifer ein Beispiel, das sich nicht in der Eingabeklasse des Zielklassifizierers befindet, sondern vom Modell als diese bestimmte Eingabeklasse klassifiziert wird. Das adversariale Beispiel kann wie zufälliges Rauschen für menschliche Augen erscheinen, aber Angreifer verfügen über einige Kenntnisse des Zielcomputerlernsystems, um ein weißes Rauschen zu erzeugen, das nicht zufällig ist, sondern einige bestimmte Aspekte des Zielmodells ausnutzt. Der Gegner gibt ein Eingabebeispiel, das kein legitimes Beispiel ist, aber das Zielsystem klassifiziert es als legitime Klasse.
Beispiele
[6]
Gegenmaßnahmen
Stärkung der adversarialen Robustheit mithilfe von Modellkonfidenz durch adversariales Training [19]: Die Autoren schlagen das Hochvertrauens-Nachbar (HCNN) Framework vor, das Konfidenzinformationen und die nächste-Nachbarsuche kombiniert, um die Robustheit eines Basismodells zu verstärken. Dies kann dazu beitragen, zwischen richtigen und falschen Modellvorhersagen in einer Nachbarschaft eines Punkts zu unterscheiden, der aus der zugrunde liegenden Schulungsverteilung entnommen wird.
Attributionsgesteuerte Kausalanalyse [20]: Die Autoren untersuchen die Verbindung zwischen der Resilienz mit adversarialen Störungen und der attributionsbasierten Erklärung einzelner Entscheidungen, die von Machine Learning-Modellen generiert werden. Sie berichten, dass adversariale Eingaben nicht robust im Attributionsraum sind, d. h., das Maskieren einiger Features mit hoher Attribution führt zu einer Veränderung der Unbestimmtheit des Machine Learning-Modells in den adversarialen Beispielen. Im Gegensatz dazu sind die natürlichen Eingaben im Attributionsraum robust.
[20]
Mit diesen Ansätzen können machine Learning-Modelle widerstandsfähiger gegenüber Angreiferangriffen werden, da das Täuschen dieses zweistufigen Kognitionssystems nicht nur den Angriff auf das ursprüngliche Modell erfordert, sondern auch sicherstellen muss, dass die für das adversariale Beispiel generierte Zuordnung den ursprünglichen Beispielen ähnelt. Beide Systeme müssen gleichzeitig für einen erfolgreichen Angreiferangriff kompromittiert werden.
Herkömmliche Parallelen
Remoteerweiterung von Berechtigungen, da angreifer jetzt die Kontrolle über Ihr Modell haben
Schweregrad
Kritisch
Variant-#1b: Quell-/Ziel-Fehlklassifizierung
Dies wird als ein Versuch eines Angreifers charakterisiert, ein Modell so zu manipulieren, dass es das von ihnen gewünschte Label für eine bestimmte Eingabe zurückgibt. Dies erzwingt in der Regel, dass ein Modell ein falsch positives oder falsch negatives Ergebnis zurückgibt. Das Endergebnis ist eine subtile Übernahme der Klassifizierungsgenauigkeit des Modells, durch die ein Angreifer gezielte Umgehungen nach Belieben auslösen kann.
Dieser Angriff hat zwar erhebliche nachteilige Auswirkungen auf die Klassifizierungsgenauigkeit, kann aber auch zeitintensiver sein, da ein Angreifer nicht nur die Quelldaten bearbeiten darf, sodass er nicht mehr richtig bezeichnet wird, sondern auch speziell mit der gewünschten betrügerischen Bezeichnung gekennzeichnet ist. Diese Angriffe umfassen häufig mehrere Schritte/Versuche, eine Fehlklassifizierung zu erzwingen [3]. Wenn das Modell anfällig für die Übertragung von Lernangriffen ist, die gezielte Fehlklassifizierung erzwingen, gibt es möglicherweise keinen erkennbaren Fußabdruck für den Angreiferdatenverkehr, da die Probingangriffe offline ausgeführt werden können.
Beispiele
Erzwingen von gutartigen E-Mails, dass sie als Spam klassifiziert werden oder ein schädliches Beispiel nicht erkannt wird. Diese werden auch als Modellhinterziehung oder Imitierungsangriffe bezeichnet.
Gegenmaßnahmen
Reaktive/defensive Erkennungsaktionen
- Implementieren Sie einen minimalen Zeitschwellenwert zwischen Aufrufen der API, der Klassifizierungsergebnisse bereitstellt. Dies verlangsamt multistufige Angriffstests, indem die Gesamtzeit erhöht wird, die erforderlich ist, um eine erfolgreiche Störung zu finden.
Proaktive/Schutzaktionen
Feature-Denoising zur Verbesserung der robusten Abwehrmechanismen [22]: Die Autoren entwickeln eine neue Netzwerkarchitektur, die die robuste Abwehrfähigkeit durch Feature-Denoising erhöht. Insbesondere enthalten die Netzwerke Blöcke, die die Features mit nicht-lokalen Mitteln oder anderen Filtern entrauschen; die gesamten Netzwerke werden End-to-End trainiert. In Kombination mit adversarialem Training verbessern die denoising Feature-Netzwerke erheblich den neuesten Stand der Technik bei der Robustheit gegen gegnerische Angriffe sowohl in White-Box- als auch Black-Box-Angriffsszenarien.
Adversarielles Training und Regularisierung: Trainieren Sie mit bekannten adversariellen Beispielen, um Widerstandsfähigkeit und Robustheit gegen bösartige Eingaben aufzubauen. Dies kann auch als eine Form der Regularisierung betrachtet werden, die die Norm von Eingabegradienten bestraft und die Vorhersagefunktion des Klassifizierers glatter macht (Erhöhung des Eingabemargin). Dazu gehören korrekte Klassifizierungen mit niedrigeren Konfidenzraten.
Investieren Sie in die Entwicklung monotoner Klassifizierung mit auswahl monotoner Merkmale. Dadurch wird sichergestellt, dass der Gegner den Klassifizierer nicht umgehen kann, indem er einfach Merkmale aus der negativen Klasse hinzufügt [13].
Feature-Squeezing [18] kann verwendet werden, um DNN-Modelle zu verstärken, indem adversarielle Beispiele erkannt werden. Der Suchraum, der einem Angreifer zur Verfügung steht, wird reduziert, indem Stichproben zusammengeführt werden, die vielen verschiedenen Merkmalsvektoren im ursprünglichen Raum entsprechen und zu einer einzigen Stichprobe konsolidiert werden. Durch den Vergleich der Vorhersage eines DNN-Modells für die ursprüngliche Eingabe mit der Quezfunktion kann die Queezingfunktion dazu beitragen, adversariale Beispiele zu erkennen. Wenn die ursprünglichen und komprimierten Beispiele wesentlich unterschiedliche Ausgaben aus dem Modell erzeugen, ist die Eingabe wahrscheinlich adversarial. Durch die Messung der Meinungsverschiedenheiten zwischen Vorhersagen und Auswählen eines Schwellenwerts kann das System die richtige Vorhersage für legitime Beispiele ausgeben und gegnerische Eingaben ablehnen.
[18]Zertifizierte Verteidigungen gegen adversariale Beispiele [22]: Die Autoren schlagen eine Methode basierend auf einer semidefiniten Entspannung vor, die ein Zertifikat ausstellt, dass für ein gegebenes Netzwerk und Testeingaben kein Angriff den Fehler zwingen kann, einen bestimmten Wert zu überschreiten. Zweitens, da dieses Zertifikat unterschiedlich ist, optimieren Autoren es gemeinsam mit den Netzwerkparametern und stellen einen adaptiven Regularizer bereit, der die Stabilität gegenüber allen Angriffen fördert.
Antwortaktionen
- Ausgeben von Warnungen zu Klassifizierungsergebnissen mit hoher Varianz zwischen Klassifizierern, insbesondere, wenn sie von einem einzelnen Benutzer oder einer kleinen Gruppe von Benutzern stammen.
Herkömmliche Parallelen
Remoteerweiterung von Berechtigungen
Schweregrad
Kritisch
Variant #1c: Zufällige Fehlklassifizierung
Dies ist eine spezielle Variante, bei der die Zielklassifizierung des Angreifers alles andere sein kann als die legitime Quellklassifizierung. Der Angriff besteht normalerweise darin, zufällig Rauschen in die zu klassifizierenden Quelldaten einzufügen, um die Wahrscheinlichkeit zu verringern, dass die Daten in Zukunft korrekt klassifiziert werden [3].
Beispiele
Gegenmaßnahmen
Identisch mit Variant 1a.
Herkömmliche Parallelen
Nicht persistente Dienstverweigerung
Schweregrad
Von Bedeutung
Variant #1d: Konfidenzreduktion
Ein Angreifer kann Eingaben erstellen, um das Konfidenzniveau der richtigen Klassifizierung zu verringern, insbesondere in Szenarien mit hohen Folgen. Dies kann auch in Form einer großen Anzahl falsch-positiver Meldungen erfolgen, die dafür bestimmt sind, Administratoren oder Überwachungssysteme mit betrügerischen Warnungen zu überschwemmen, die sich nicht von legitimen Warnungen unterscheiden lassen [3].
Beispiele
Gegenmaßnahmen
- Zusätzlich zu den in Variante #1a behandelten Aktionen kann die Ereignisbegrenzung verwendet werden, um das Volumen von Warnungen aus einer einzigen Quelle zu reduzieren.
Herkömmliche Parallelen
Nicht persistente Dienstverweigerung
Schweregrad
Von Bedeutung
#2a gezielte Datenvergiftung
BESCHREIBUNG
Ziel des Angreifers ist es, das in der Schulungsphase generierte Computermodell zu verunreinigen, sodass Vorhersagen zu neuen Daten in der Testphase geändert werden[1]. Bei gezielten Vergiftungsangriffen möchte der Angreifer bestimmte Beispiele falsch klassifizieren, um bestimmte Aktionen zu ergreifen oder ausgelassen zu machen.
Beispiele
Übermitteln von AV-Software als Schadsoftware, um ihre Fehlklassifizierung als böswillig zu erzwingen und die Verwendung gezielter AV-Software auf Clientsystemen zu beseitigen.
Gegenmaßnahmen
Definieren sie Anomaliesensoren, um die Datenverteilung täglich zu untersuchen und abweichungen zu benachrichtigen
Tägliches Messen der Trainingsdatenvariation, Telemetrie für Schiefe/Drift
Eingabeüberprüfung, sowohl Bereinigung als auch Integritätsprüfung
Vergiftungen von Modellen injizieren abgelegene Trainingsproben. Zwei Hauptstrategien zur Bekämpfung dieser Bedrohung:
-Datenbereinigung/ Validierung: Entfernen von Vergiftungsproben aus Trainingsdaten -Bagging zur Bekämpfung von Vergiftungsangriffen [14]
-Reject-on-Negative-Impact (RONI) Verteidigung [15]
-Robustes Lernen: Wählen Sie Lernalgorithmen aus, die bei Vergiftungsproben robust sind.
-Ein solcher Ansatz wird in [21] beschrieben, in dem Autoren das Problem der Datenvergiftung in zwei Schritten behandeln: 1) Einführung einer neuartigen robusten Matrixfaktorisierungsmethode zur Wiederherstellung des wahren Unterraums und 2) neuartige robuste Prinzip-Komponentenregression, um adversariale Instanzen zu beschneiden, basierend auf der in Schritt (1) wiederhergestellten Grundlage. Sie zeichnen die notwendigen und ausreichenden Bedingungen für eine erfolgreiche Wiederherstellung des wahren Unterraums aus und stellen eine Grenze zu erwarteten Vorhersageverlusten im Vergleich zur Bodenwahrheit dar.
Herkömmliche Parallelen
Trojanischer Host, bei dem Angreifer im Netzwerk bestehen bleiben. Schulungs- oder Konfigurationsdaten werden kompromittiert und zu Vertrauenszwecken für die Modellerstellung verwendet.
Schweregrad
Kritisch
#2b Indiskriminate Datenvergiftung
BESCHREIBUNG
Ziel ist es, die Qualität/Integrität des angegriffenen Datasets zu ruinieren. Viele Datensätze sind öffentlich/nicht vertrauenswürdig/ungenpflegt, sodass dadurch zusätzliche Bedenken hinsichtlich der Möglichkeit entstehen, solche Verletzungen der Datenintegrität überhaupt zu erkennen. Die Schulung zu unwissentlich kompromittierten Daten ist eine Garbage-In-/GarbageOut-Situation. Nach der Erkennung muss die Triage den Umfang der verletzten Daten ermitteln und isolieren/neu schulen.
Beispiele
Ein Unternehmen scrapt eine bekannte und vertrauenswürdige Website, um Daten zu Öl-Futures zu sammeln, um seine Modelle zu trainieren. Die Website des Datenanbieters wird anschließend über EINEN SQL Injection-Angriff kompromittiert. Der Angreifer kann das Dataset nach Belieben vergiften, und das Modell, das trainiert wird, hat keine Vorstellung davon, dass die Daten verunreinigt sind.
Gegenmaßnahmen
Identisch mit Variante 2a.
Herkömmliche Parallelen
Authentifizierte Denial-of-Service für eine hochwertige Ressource
Schweregrad
Von Bedeutung
#3 Modellinversionsangriffe
BESCHREIBUNG
Die privaten Features, die in Machine Learning-Modellen verwendet werden, können wiederhergestellt werden [1]. Dazu gehört das Rekonstruieren privater Schulungsdaten, auf die der Angreifer keinen Zugriff hat. Auch bekannt als Bergsteigangriffe in der biometrischen Gemeinschaft, [16, 17] wird dies dadurch erreicht, dass die Eingabe gefunden wird, die das zurückgegebene Vertrauensniveau maximiert, unter der Bedingung, dass die Klassifizierung dem Ziel entspricht [4].
Beispiele
[4]
Gegenmaßnahmen
Schnittstellen zu Modellen, die von vertraulichen Daten trainiert werden, benötigen eine starke Zugriffssteuerung.
Rate-Limit-Abfragen, die nach Modell zulässig sind
Implementieren Sie Tore zwischen Benutzern/Anrufern und dem tatsächlichen Modell, indem Sie die Eingabeüberprüfung für alle vorgeschlagenen Abfragen durchführen, alles ablehnen, was nicht der Definition der Eingabekorrektur entspricht, und nur die minimale Menge an Informationen zurückgeben, die nützlich sein müssen.
Herkömmliche Parallelen
Gezielte, verdeckte Offenlegung von Informationen
Schweregrad
Dies wird gemäß der SDL-Fehlerleiste standardmäßig als wichtig eingestuft, aber das Extrahieren von sensiblen oder persönlich identifizierbaren Daten würde dies auf kritisch erhöhen.
#4 Folgerungsangriff auf Mitgliedschaften
BESCHREIBUNG
Der Angreifer kann ermitteln, ob ein bestimmter Datensatz Teil des Schulungsdatensatzes des Modells war oder nicht[1]. Forscher konnten das Hauptverfahren eines Patienten vorhersagen (z. B. Chirurgie, die der Patient durchlaufen hat) basierend auf den Attributen (z. B. Alter, Geschlecht, Krankenhaus) [1].
[12]
Gegenmaßnahmen
Forschungsarbeiten, die die Durchführbarkeit dieses Angriffs belegen, deuten darauf hin, dass die Differenzielle Privatsphäre [4, 9] eine wirksame Gegenmaßnahme darstellen würde. Dies ist immer noch ein noch in den Anfängen befindliches Gebiet bei Microsoft, und AETHER Security Engineering empfiehlt, Fachwissen durch Investitionen in die Forschung in diesem Bereich aufzubauen. Diese Forschung müsste differenzielle Datenschutzfunktionen aufzählen und ihre praktische Wirksamkeit als Gegenmaßnahmen bewerten und dann Möglichkeiten entwerfen, wie diese Schutzmaßnahmen transparent auf unseren Onlinediensteplattformen geerbt werden können, ähnlich wie das Kompilieren von Code in Visual Studio bietet Ihnen on-by-Standardsicherheitsschutz, die für Entwickler und Benutzer transparent sind.
Die Verwendung von Neuron-Dropout und Model Stacking kann bis zu einem gewissen Grad effektive Maßnahmen sein. Die Verwendung des Neuronenabbruchs erhöht nicht nur die Resilienz eines neuralen Netzs zu diesem Angriff, sondern erhöht auch die Modellleistung [4].
Herkömmliche Parallelen
Datenschutz. Rückschlüsse auf die Aufnahme eines Datenpunkts in den Schulungssatz werden vorgenommen, aber die Schulungsdaten selbst werden nicht offengelegt.
Schweregrad
Dies ist ein Datenschutzproblem, kein Sicherheitsproblem. Es wird in den Richtlinien zur Bedrohungsmodellierung behandelt, da sich die Domänen überlappen, aber jede Antwort hier würde durch Datenschutz und nicht durch Sicherheit gesteuert werden.
#5 Modelldiebstahl
BESCHREIBUNG
Die Angreifer erstellen das zugrunde liegende Modell neu, indem sie das Modell legitim abfragen. Die Funktionalität des neuen Modells entspricht dem des zugrunde liegenden Modells[1]. Nachdem das Modell neu erstellt wurde, kann es umgekehrt werden, um Featureinformationen wiederherzustellen oder Rückschlüsse auf Schulungsdaten zu machen.
Lösung von Formeln – Für ein Modell, das Klassenwahrscheinlichkeiten über die API-Ausgabe zurückgibt, kann ein Angreifer Abfragen erstellen, um unbekannte Variablen in einem Modell zu ermitteln.
Pfadsuche – ein Angriff, der API-Besonderheiten ausnutzt, um die von einer Struktur getroffenen Entscheidungen zu extrahieren, wenn eine Eingabe klassifiziert wird [7].
Übertragbarkeitsangriffe - Ein Angreifer kann ein lokales Modell trainieren – möglicherweise durch Ausgeben von Vorhersageabfragen an das zielorientierte Modell - und es verwenden, um gegnerische Beispiele zu erstellen, die auf das Zielmodell übertragen werden [8]. Wenn Ihr Modell extrahiert und entdeckt wird, das anfällig für eine Art von Adversarialeingabe ist, können neue Angriffe auf Ihr produktionsgestütztes Modell vollständig offline von dem Angreifer entwickelt werden, der eine Kopie Ihres Modells extrahiert hat.
Beispiele
In Einstellungen, in denen ein ML-Modell dient, um adversariales Verhalten zu erkennen, z. B. identifizierung von Spam, Schadsoftwareklassifizierung und Anomalieerkennung des Netzwerks, kann die Modellextraktion Evasionsangriffe erleichtern [7].
Gegenmaßnahmen
Proaktive/Schutzaktionen
Minimieren oder verschleiern Sie die in Vorhersage-APIs zurückgegebenen Details, während sie weiterhin ihre Nützlichkeit für ehrliche Anwendungen beibehalten [7].
Definieren Sie eine wohlgeformte Abfrage für Ihre Modelleingaben, und geben Sie nur Ergebnisse als Reaktion auf abgeschlossene, wohlgeformte Eingaben zurück, die mit diesem Format übereinstimmen.
Gibt gerundete Konfidenzwerte zurück. Die meisten berechtigten Anrufer benötigen nicht mehrere Dezimalstellen zur Präzision.
Herkömmliche Parallelen
Nicht authentifizierte, schreibgeschützte Manipulation von Systemdaten, gezielte Offenlegung von hochwertigen Informationen?
Schweregrad
Wichtig in sicherheitssensitiven Modellen, andernfalls Moderat
#6 Neural Net Reprogrammierung
BESCHREIBUNG
Durch eine speziell gestaltete Abfrage von einem Angreifer können Machine Learning-Systeme auf eine Aufgabe umprogrammiert werden, die von der ursprünglichen Absicht des Erstellers abweicht [1].
Beispiele
Schwache Zugriffssteuerungen für eine Gesichtserkennungs-API ermöglichen es Drittparteien, in Apps integriert zu werden, die Microsoft-Kunden schädigen, wie z. B. ein Deepfake-Generator.
Gegenmaßnahmen
Starke gegenseitige Client-Server-Authentifizierung<> und Zugriffssteuerung für Modellschnittstellen
Abschaltung der beleidigenden Konten.
Identifizieren und Durchsetzen einer Service-Level-Vereinbarung für Ihre APIs. Bestimmen Sie die akzeptable Zeit bis zur Behebung eines Problems, nachdem ein Problem gemeldet wurde, und stellen Sie sicher, dass das Problem nicht mehr reproduzierbar ist, wenn das SLA abgelaufen ist.
Herkömmliche Parallelen
Dies ist ein Missbrauchsszenario. Es ist unwahrscheinlicher, einen Sicherheitsvorfall zu melden, als das Konto des Täters einfach zu deaktivieren.
Schweregrad
Wichtig bis Kritisch
#7 Adversariales Beispiel im physikalischen Bereich (Bits->Atome)
BESCHREIBUNG
Ein gegnerisches Beispiel ist eine Eingabe/Abfrage von einem bösartigen Akteur, die mit dem alleinigen Ziel gesendet wird, das maschinelle Lernsystem zu irrezuführen [1]
Beispiele
Diese Beispiele können sich im physikalischen Bereich manifestieren, zum Beispiel wenn ein selbstfahrendes Auto dazu verleitet wird, ein Stoppschild zu überfahren, weil durch den feindlichen Input eine bestimmte Lichtfarbe auf das Stoppschild gestrahlt wird, wodurch das Bilderkennungssystem gezwungen wird, das Stoppschild nicht mehr als solches zu erkennen.
Herkömmliche Parallelen
Erhöhung der Berechtigungen, Ausführung von Remotecode
Gegenmaßnahmen
Diese Angriffe manifestieren sich selbst, da Probleme in der Machine Learning-Ebene (die Daten- und Algorithmusebene unterhalb der KI-gesteuerten Entscheidungsfindung) nicht abgemildert wurden. Wie bei jeder anderen Software *oder* physischen System kann die Ebene unterhalb des Ziels immer über herkömmliche Vektoren angegriffen werden. Daher sind herkömmliche Sicherheitspraktiken wichtiger denn je, insbesondere bei der Ebene der nicht ausgelassenen Sicherheitsanfälligkeiten (daten/algo-Ebene), die zwischen KI und herkömmlicher Software verwendet werden.
Schweregrad
Kritisch
#8 Bösartige ML-Anbieter, die Schulungsdaten wiederherstellen können
BESCHREIBUNG
Ein böswilliger Anbieter stellt einen Hintertürenalgorithmus dar, bei dem die privaten Schulungsdaten wiederhergestellt werden. Sie konnten Gesichter und Texte anhand des Modells allein rekonstruieren.
Herkömmliche Parallelen
Gezielte Offenlegung von Informationen
Gegenmaßnahmen
Forschungsarbeiten, die die Rentabilität dieses Angriffs belegen, deuten darauf hin, dass die Homomorphe Verschlüsselung eine effektive Entschärfung wäre. Dies ist ein Bereich mit wenig aktuellen Investitionen bei Microsoft und AETHER Security Engineering empfiehlt die Erstellung von Fachwissen mit Forschungsinvestitionen in diesem Bereich. Diese Forschung müsste homomorphe Verschlüsselungs-Tenets aufzählen und ihre praktische Wirksamkeit als Gegenmaßnahmen im Gesicht bösartiger ML-as-a-Service-Anbieter bewerten.
Schweregrad
Wichtig, wenn Daten PII sind, andernfalls moderat
#9 Angriff auf die ML-Lieferkette
BESCHREIBUNG
Aufgrund großer Ressourcen (Daten + Berechnung), die zum Trainieren von Algorithmen erforderlich sind, besteht die aktuelle Praxis darin, Modelle wiederzuverwenden, die von großen Unternehmen trainiert wurden, und sie leicht für aufgabenhand zu ändern (z. B.: ResNet ist ein beliebtes Bilderkennungsmodell von Microsoft). Diese Modelle werden in einem Model Zoo kuratiert (Caffe hostet beliebte Bilderkennungsmodelle). In diesem Angriff greift der Angreifer die Modelle an, die in Caffe gehostet werden, wodurch der Brunnen für alle anderen vergiftet wird. [1]
Herkömmliche Parallelen
Kompromittierung von nicht sicherheitsrelevanten Abhängigkeiten durch Drittanbieter
App Store– unwissentliches Hosten von Schadsoftware
Gegenmaßnahmen
Minimieren Sie Abhängigkeiten von Drittanbietern für Modelle und Daten, sofern möglich.
Integrieren Sie diese Abhängigkeiten in Ihren Bedrohungsmodellierungsprozess.
Nutzen Sie starke Authentifizierung, Zugriffssteuerung und Verschlüsselung zwischen 1.- und 3.-Drittanbieter-Systemen.
Schweregrad
Kritisch
#10 Hintertür-Maschinelles Lernen
BESCHREIBUNG
Der Schulungsvorgang wird an einen böswilligen Drittanbieter ausgelagert, der Schulungsdaten manipuliert und ein trojanisches Modell geliefert hat, das gezielte Fehlklassifizierungen erzwingt, z. B. die Klassifizierung eines bestimmten Virus als nicht böswillig[1]. Dies ist ein Risiko in ML-as-a-Service-Modellgenerierungsszenarien.
[12]
Herkömmliche Parallelen
Kompromittierung der Sicherheitsabhängigkeit von Drittanbietern
Kompromittierter Softwareupdatemechanismus
Kompromittierung der Zertifizierungsstelle
Gegenmaßnahmen
Reaktive/defensive Erkennungsaktionen
- Der Schaden ist bereits entstanden, sobald diese Bedrohung entdeckt wurde, sodass das Modell und alle Schulungsdaten, die vom böswilligen Anbieter bereitgestellt werden, nicht vertrauenswürdig sind.
Proaktive/Schutzaktionen
Alle sensiblen Modelle intern trainieren
Katalogieren von Schulungsdaten oder sicherstellen, dass sie von einem vertrauenswürdigen Drittanbieter mit starken Sicherheitspraktiken stammt
Bedrohungsmodell der Interaktion zwischen dem MLaaS-Anbieter und Ihren eigenen Systemen
Antwortaktionen
- Identisch mit der Kompromittierung externer Abhängigkeiten
Schweregrad
Kritisch
#11 Softwareabhängigkeiten des ML-Systems ausnutzen
BESCHREIBUNG
In diesem Angriff bearbeitet der Angreifer die Algorithmen NICHT. Nutzt stattdessen Software-Schwachstellen wie Pufferüberläufe oder Cross-Site-Scripting[1]. Es ist immer noch einfacher, Softwareebenen unter AI/ML zu kompromittieren, als die Lernschicht direkt anzugreifen, sodass herkömmliche Methoden zur Risikominderung von Sicherheitsrisiken, die im Security Development Lifecycle beschrieben sind, unerlässlich sind.
Herkömmliche Parallelen
Kompromittierte Open Source-Softwareabhängigkeit
Sicherheitsanfälligkeit des Webservers (XSS, CSRF, API-Eingabeüberprüfungsfehler)
Gegenmaßnahmen
Arbeiten Sie mit Ihrem Sicherheitsteam zusammen, um nach den anwendbaren bewährten Praktiken des Security Development Lifecycle/Operational Security Assurance zu handeln.
Schweregrad
Variable; Bis zu kritisch, abhängig von der Art der herkömmlichen Software-Sicherheitsanfälligkeit.
Quellenangaben
[1] Fehlermodi in Machine Learning, Ram Shankar Siva Kumar, David O'Brien, Kendra Albert, Salome Viljoen und Jeffrey Snover, https://learn.microsoft.com/security/failure-modes-in-machine-learning
[2] AETHER Security Engineering Workstream, Datenherkunft/-zuordnung v-Team
[3] Adversariale Beispiele in Deep Learning: Charakterisierung und Divergenz, Wei, et al, https://arxiv.org/pdf/1807.00051.pdf
[4] ML-Leaks: Modell- und Datenunabhängige Mitgliedschaftsausschlussangriffe und Abwehrmaßnahmen auf Machine Learning-Modelle, Salem, et al, https://arxiv.org/pdf/1806.01246v2.pdf
[5] M. Fredrikson, S. Jha und T. Ristenpart, "Model-Inversionsangriffe, die Vertrauensinformationen ausnutzen und grundlegende Gegenmaßnahmen", in den Konferenzberichten der ACM SIGSAC Conference on Computer and Communications Security (CCS) 2015.
[6] Nicolas Papernot & Patrick McDaniel - Adversarische Beispiele im maschinellen Lernen AIWTB 2017
[7] Stiehlen maschineller Lernmodelle über Vorhersage-APIs, Florian Tramèr, Fachhochschule Polytechnique Fédérale de Lausanne (EPFL); Fan Zhang, Cornell University; Ari Juels, Cornell Tech; Michael K. Reiter, The University of North Carolina in Chapel Hill; Thomas Ristenpart, Cornell Tech
[8] Der Raum der übertragbaren Adversarial-Beispiele, Florian Tramèr , Nicolas Papernot , Ian Goodfellow , Dan Boneh , und Patrick McDaniel
[9] Verstehen von Membership Inferences in Well-Generalized-Lernmodellen Yunhui Long1 , Vincent Bindschaedler1 , Lei Wang2 , Diyue Bu2 , Xiaofeng Wang2 , Haixu Tang2 , Carl A. Gunter1 , and Kai Chen3,4
[10] Simon-Gabriel et al., Adversarielle Verwundbarkeit von neuronalen Netzwerken steigt mit der Eingabedimension, ArXiv 2018.
[11] Lyu et al., Eine einheitliche Gradienten-Regularisierungsfamilie für adversarielle Beispiele, ICDM 2015
[12] Wildmuster: Zehn Jahre nach dem Aufstieg des gegnerischen maschinellen Lernens - NeCS 2019 Battista Biggioa, Fabio Roli
[13] Andersfalls beständige Malware-Erkennung mittels monotoner Klassifikation Inigo Incer et al.
[14] Battista Biggio, Igino Corona, Giorgio Fumera, Giorgio Giacinto und Fabio Roli. Bagging-Klassifizierer zur Bekämpfung von Vergiftungsangriffen in gegnerischen Klassifizierungsaufgaben
[15] Eine verbesserte Verteidigung gegen negative Auswirkungen Hongjiang Li und Patrick P.K. Chan
[16] Adler. Sicherheitsrisiken in biometrischen Verschlüsselungssystemen. 5. Int. Konf. AVBPA, 2005
[17] Galbally, McCool, Fierrez, Marcel, Ortega-Garc. Über die Verwundbarkeit von Gesichtserkennungssystemen gegenüber Hill-Climbing-Angriffen. Patt. Rec., 2010
[18] Weilin Xu, David Evans, Yanjun Qi. Feature Squeezing: Erkennen adversarialer Beispiele in tiefen neuronalen Netzwerken. 2018 Network and Distributed System Security Symposium. 18.-21. Februar.
[19] Stärkung der adversarialen Robustität mithilfe des Modellvertrauens durch adversariales Training - Xi Wu, Uyeong Jang, Jiefeng Chen, Lingjiao Chen, Somesh Jha
[20] Attributionsgesteuerte Kausalanalyse zur Erkennung von adversarialen Beispielen, Susmit Jha, Sunny Raj, Steven Fernandes, Sumit Kumar Jha, Somesh Jha, Gunjan Verma, Brian Jalaian, Ananthram Swami
[21] Robuste lineare Regression gegen Trainingsdatenvergiftung – Chang Liu et al.
[22] Rauschentfernung zur Verbesserung der adversarialen Robustheit, Cihang Xie, Yuxin Wu, Laurens van der Maaten, Alan Yuille, Kaiming He
[23] Zertifizierte Verteidigung gegen adversariale Beispiele - Aditi Raghunathan, Jacob Steinhardt, Percy Liang