Udostępnij przez


Moderowanie treści z uwzględnieniem bezpieczeństwa za pomocą interfejsów API sztucznej inteligencji systemu Windows

Interfejsy API sztucznej inteligencji systemu Windows, takie jak Phi Silica i Obrazowanie, używają moderowania zawartości do klasyfikowania i filtrowania potencjalnie szkodliwej zawartości z monitów użytkownika lub w rezultatach zwracanych przez modele generujące. Domyślnie ten interfejs API filtruje zawartość sklasyfikowaną jako potencjalnie szkodliwą, ale można skonfigurować poziomy poufności.

Aby uzyskać szczegółowe informacje o interfejsie API, zobacz odniesienie do interfejsu API dotyczącego moderacji bezpieczeństwa treści.

Warunki wstępne

Wykonaj kroki opisane w artykule Wprowadzenie do tworzenia aplikacji za pomocą interfejsów API sztucznej inteligencji systemu Windows.

Dostosowywanie moderowania bezpieczeństwa zawartości

Moderowanie zawartości można dostosować w wierszu polecenia wejściowego do modelu generowania i wygenerowanych danych wyjściowych sztucznej inteligencji. Moderowanie zawartości interfejsu API sztucznej inteligencji systemu Windows jest projektowane i implementowane podobnie jak w przypadku bezpieczeństwa zawartości usługi Azure AI.

Kategorie szkód i krzywd

Kategorie szkód obsługiwane przez interfejsy API sztucznej inteligencji systemu Windows są zgodne z kategoriami zdefiniowanymi przez bezpieczeństwo zawartości usługi Azure AI. Kategorie szkód obejmują nienawiść i dyskryminację, seksualność, przemoc oraz samookaleczenie (wiele kategorii można przypisać do tej samej zawartości).

Kategoria Opis Nazwa interfejsu API
Nienawiść Zawartość, która atakuje lub używa języka dyskryminującego, odwołując się do osoby lub grupy tożsamości na podstawie pewnych atrybutów różnicowych tych grup. HateContentSeverity
Seksualny Treści związane z anatomicznymi narządami i genitaliami, romantycznymi relacjami i aktami seksualnymi, aktami przedstawiane w kategoriach erotycznych lub pieszczotliwych, w tym tych przedstawianych jako napaść lub wymuszony akt przemocy seksualnej przeciwko woli. SexualContentSeverity
Przemoc Zawartość związana z działaniami fizycznymi mającymi na celu zranienie, uszkodzenie lub zabicie kogoś lub czegoś; opisuje broń, pistolety i powiązane przedmioty. ViolentContentSeverity
Samookaleczenie Zawartość związana z działaniami fizycznymi mającymi na celu celowe zranienie, okaleczenie, uszkodzenie ciała lub popełnienie samobójstwa. SelfHarmContentSeverity

Poziomy ważności

Domyślnie wszystkie wywołania interfejsów API generatywnej AI Windows używają moderowania zawartości, ale poziomy surowości można dostosować.

  • high: niedostępne. Zawartość sklasyfikowana jako poziom zagrożenia 3+ (wysokie ryzyko potencjalnej szkody) jest obecnie blokowana przez model sztucznej inteligencji.

  • medium: domyślny poziom ważności jest ustawiony na medium. Zawartość sklasyfikowana jako poziom ważności 0– 3 zostanie zwrócona.

  • low: Dodatkowo obniża ryzyko powrotu potencjalnie szkodliwej zawartości. Zostanie zwrócona tylko zawartość sklasyfikowana jako poziom ważności 0–1.

Aby dowiedzieć się więcej na temat poziomów surowości, zobacz Kategorie szkód zabezpieczeń zawartości usługi Azure AI.

Przykładowy kod moderowania zawartości tekstowej

Aby skonfigurować filtry poziomu surowości moderacji zawartości tekstu, należy przekazać strukturę ContentFilterOptions jako parametr do interfejsu API używanego do generowania odpowiedzi (na przykład Phi Silica API).

W poniższym przykładzie kodu pokazano dodawanie filtrów ważności moderowania zawartości tekstu do modelu LanguageModel generowania sztucznej inteligencji systemu Microsoft Windows:

LanguageModelOptions options = new LanguageModelOptions();
ContentFilterOptions filterOptions = new ContentFilterOptions();

// prompt
filterOptions.PromptMaxAllowedSeverityLevel.Violent = SeverityLevel.Minimum;
filterOptions.PromptMaxAllowedSeverityLevel.Hate = SeverityLevel.Low;
filterOptions.PromptMaxAllowedSeverityLevel.SelfHarm = SeverityLevel.Medium;
filterOptions.PromptMaxAllowedSeverityLevel.Sexual = SeverityLevel.High;

//response
filterOptions.ResponseMaxAllowedSeverityLevel.Violent = SeverityLevel.Medium;

//image
filterOptions.ImageMaxAllowedSeverityLevel.AdultContentLevel = SeverityLevel.Medium;
filterOptions.ImageMaxAllowedSeverityLevel.RacyContentLevel = SeverityLevel.Medium;

options.ContentFilterOptions = filterOptions;

var result = await languageModel.GenerateResponseAsync(prompt, options);

Console.WriteLine(result.Text);

Zobacz także