Compartir a través de


Moderación de seguridad de contenido con las API de Windows AI

Las API de Windows AI, como PhiLice y Imaging, usan la moderación de contenido para clasificar y filtrar el contenido potencialmente dañino de las solicitudes del usuario o en las respuestas devueltas por los modelos generativos. De forma predeterminada, estas API filtran el contenido clasificado como potencialmente perjudicial, pero se pueden configurar niveles de confidencialidad.

Para obtener más información sobre la API, consulte API ref for content safety moderation (Referencia de API para moderación de seguridad de contenido).

Requisitos previos

Complete los pasos descritos en Introducción a la creación de una aplicación con las API de IA de Windows.

Ajustar la moderación de seguridad de contenido

Puede ajustar la moderación de contenido tanto en el mensaje de entrada para el modelo generativo como en la salida generada por IA. La moderación de contenido de la API de Windows AI está diseñada e implementada de forma similar a la proporcionada por la seguridad del contenido de Azure AI.

Categorías de daños

Las categorías de daños admitidas por las API de Windows AI se alinean con las definidas por la seguridad del contenido de Azure AI. Las categorías de daño incluyen Odio y equidad, Sexual, Violencia y Auto-daño (se pueden asignar varias categorías al mismo contenido).

Categoría Descripción Nombre de la API
Odio Contenido que ataca o usa lenguaje discriminatorio con referencia a una persona o grupo de identidades en función de ciertos atributos diferenciadores de estos grupos. HateContentSeverity
Sexual Contenido relacionado con órganos anatómicos y genitales, relaciones románticas y actos sexuales, actos representados en términos eróticos o cariñosos, incluidos aquellos representados como un ataque o un acto sexual forzado violento contra la voluntad de uno. SexualContentSeverity
Violencia Contenido relacionado con acciones físicas destinadas a herir, lesionar, dañar o matar a alguien o algo; describe armas, armamento y entidades relacionadas. ViolentContentSeverity
Autolesión Contenido relacionado con acciones físicas diseñadas para hacer daño, lesiones, dañar el cuerpo de uno mismo o matarse a sí mismo. SelfHarmContentSeverity

Niveles de gravedad

De forma predeterminada, todas las llamadas a las API de Windows AI generativas usan moderación de contenido, pero se pueden ajustar los niveles de gravedad.

  • high: no disponible. El contenido clasificado con un nivel de gravedad 3+ (alto riesgo de potencial daño) está actualmente bloqueado para ser retornado por el modelo de IA generativa.

  • medium: el nivel de gravedad predeterminado se establece en medium. Se devolverá el contenido clasificado como nivel de gravedad 0 - 3.

  • low: reduce aún más el riesgo de devolver contenido potencialmente dañino. Solo se devolverá el contenido clasificado como nivel de gravedad 0 - 1.

Para más información sobre los niveles de gravedad, consulte Categorías de daños de Seguridad del contenido de Azure AI.

Ejemplo de código de moderación de contenido de texto

Para configurar los filtros de gravedad para la moderación de contenido de texto, debe pasar la estructura ContentFilterOptions como parámetro a la API usada para la generación de respuestas (como la Phi Silica API).

En el ejemplo de código siguiente se muestra cómo agregar filtros de gravedad de moderación de contenido de texto al LanguageModel de Generative AI de Microsoft Windows:

LanguageModelOptions options = new LanguageModelOptions();
ContentFilterOptions filterOptions = new ContentFilterOptions();

// prompt
filterOptions.PromptMaxAllowedSeverityLevel.Violent = SeverityLevel.Minimum;
filterOptions.PromptMaxAllowedSeverityLevel.Hate = SeverityLevel.Low;
filterOptions.PromptMaxAllowedSeverityLevel.SelfHarm = SeverityLevel.Medium;
filterOptions.PromptMaxAllowedSeverityLevel.Sexual = SeverityLevel.High;

//response
filterOptions.ResponseMaxAllowedSeverityLevel.Violent = SeverityLevel.Medium;

//image
filterOptions.ImageMaxAllowedSeverityLevel.AdultContentLevel = SeverityLevel.Medium;
filterOptions.ImageMaxAllowedSeverityLevel.RacyContentLevel = SeverityLevel.Medium;

options.ContentFilterOptions = filterOptions;

var result = await languageModel.GenerateResponseAsync(prompt, options);

Console.WriteLine(result.Text);

Consulte también