Partilhar via


Impor verificações de segurança de conteúdo em solicitações LLM

APLICA-SE A: Developer | Basic | Basic v2 | Standard | Standard v2 | Premium | Premium v2

A llm-content-safety política impõe verificações de segurança de conteúdo em solicitações (prompts) de modelo de linguagem grande (LLM) transmitindo-as para o serviço de Segurança de Conteúdo do Azure AI antes de enviar para a API LLM de back-end. Quando a política está habilitada e o Azure AI Content Safety deteta conteúdo mal-intencionado, o Gerenciamento de API bloqueia a solicitação e retorna um código de 403 erro.

Observação

Os termos categoria e categorias usados no Gerenciamento de API são sinônimo de categoria de dano e categorias de dano no serviço de Segurança de Conteúdo do Azure AI. Os detalhes podem ser encontrados nas categorias Danos na página Segurança de Conteúdo do Azure AI .

Use a política em cenários como os seguintes:

  • Bloquear pedidos que contenham categorias predefinidas de conteúdo nocivo ou discurso de ódio
  • Aplicar listas de bloqueio personalizadas para impedir que conteúdo específico seja enviado
  • Proteja-se contra prompts que correspondam aos padrões de ataque

Observação

Defina os elementos da política e os elementos filho na ordem fornecida na declaração de política. Saiba mais sobre como definir ou editar políticas de Gerenciamento de API.

Pré-requisitos

  • Um recurso de Segurança de Conteúdo da IA do Azure .
  • Um back-end de Gerenciamento de API configurado para rotear chamadas de API de segurança de conteúdo e autenticar no serviço de Segurança de Conteúdo do Azure AI:
    • A identidade gerenciada do Gerenciamento de API deve ser configurada no serviço de Segurança de Conteúdo do Azure AI com a função Usuário dos Serviços Cognitivos.
    • A URL de back-end do Azure AI Content Safety, referenciada backend-id pela llm-content-safety política, precisa estar no formato https://<content-safety-service-name>.cognitiveservices.azure.com.
    • As credenciais de autorização do back-end do Azure AI Content Safety precisam ser definidas como Identidade Gerenciada habilitada com uma ID de recurso exata de https://cognitiveservices.azure.com.

Declaração de política

<llm-content-safety backend-id="name of backend entity" shield-prompt="true | false" enforce-on-completions="true | false">
    <categories output-type="FourSeverityLevels | EightSeverityLevels">
        <category name="Hate | SelfHarm | Sexual | Violence" threshold="integer" />
        <!-- If there are multiple categories, add more category elements -->
        [...]
    </categories>
    <blocklists>
        <id>blocklist-identifier</id>
        <!-- If there are multiple blocklists, add more id elements -->
        [...]
    </blocklists>
</llm-content-safety>

Atributos

Atributo Descrição Obrigatório Predefinido
ID de back-end Identificador (nome) do back-end de Segurança de Conteúdo do Azure AI para encaminhar chamadas de API de segurança de conteúdo para. São permitidas expressões de política. Sim N/A
escudo-prompt Se definido como true, o conteúdo é verificado quanto a ataques de usuários. Caso contrário, ignore esta verificação. São permitidas expressões de política. Não false
Enforce-on-completions Se definido como true, as verificações de segurança de conteúdo são aplicadas na conclusão do bate-papo para validação de resposta. Caso contrário, ignore esta verificação. São permitidas expressões de política. Não false

Elementos

Elemento Descrição Obrigatório
categorias Uma lista de category elementos que especificam configurações para bloquear solicitações quando a categoria é detetada. Não
Listas de bloqueio Uma lista de elementos da listaid de bloqueio da instância de Segurança de Conteúdo do Azure AI para a qual a deteção faz com que a solicitação seja bloqueada. São permitidas expressões de política. Não

atributos de categorias

Atributo Descrição Obrigatório Predefinido
tipo de saída Especifica como os níveis de gravidade são retornados pelo Azure AI Content Safety. O atributo deve ter um dos seguintes valores.

- FourSeverityLevels: Gravidade da produção em quatro níveis: 0,2,4,6.
- EightSeverityLevels: Gravidades da produção em oito níveis: 0,1,2,3,4,5,6,7.

São permitidas expressões de política.
Não FourSeverityLevels

atributos de categoria

Atributo Descrição Obrigatório Predefinido
nome Especifica o nome dessa categoria. O atributo deve ter um dos seguintes valores: Hate, SelfHarm, Sexual, Violence. São permitidas expressões de política. Sim N/A
limiar Especifica o valor limite para esta categoria na qual a solicitação é bloqueada. Solicitações com severidades de conteúdo inferiores ao limite não são bloqueadas. O valor deve estar entre 0 (mais restritivo) e 7 (menos restritivo). São permitidas expressões de política. Sim N/A

Utilização

Notas de utilização

  • A política é executada em uma concatenação de todo o conteúdo de texto em uma solicitação de conclusão ou conclusão do bate-papo.
  • Se a solicitação exceder o limite de caracteres do Azure AI Content Safety, um 403 erro será retornado.
  • Essa política pode ser usada várias vezes por definição de política.

Exemplo

O exemplo a seguir impõe verificações de segurança de conteúdo em solicitações LLM usando o serviço Azure AI Content Safety. A política bloqueia solicitações que contenham fala na categoria ou Hate com um nível de gravidade igual ou superior a Violence 4. Em outras palavras, o filtro permite que os níveis 0-3 continuem enquanto os níveis 4-7 são bloqueados. Aumentar o limite de uma categoria aumenta a tolerância e potencialmente diminui o número de solicitações bloqueadas. Reduzir o limite reduz a tolerância e potencialmente aumenta o número de solicitações bloqueadas. O shield-prompt atributo é definido para true verificar se há ataques adversários.

<policies>
    <inbound>
        <llm-content-safety backend-id="content-safety-backend" shield-prompt="true">
            <categories output-type="EightSeverityLevels">
                <category name="Hate" threshold="4" />
                <category name="Violence" threshold="4" />
            </categories>
        </llm-content-safety>
    </inbound>
</policies>

Para obter mais informações sobre como trabalhar com políticas, consulte: