Atenuar possíveis danos
Depois de determinar uma linha de base e uma maneira de medir a saída prejudicial gerada por uma solução, você pode tomar medidas para atenuar os possíveis danos e, quando apropriado, retestar o sistema modificado e comparar os níveis de danos com a linha de base.
A mitigação de possíveis danos em uma solução de IA gerativa envolve uma abordagem em camadas, na qual técnicas de mitigação podem ser aplicadas em cada uma das quatro camadas, conforme mostrado aqui:
- Modelo
- do Sistema de Segurança
- Aterramento e mensagem do sistema
- Experiência do usuário
1: A camada de do modelo
A camada de modelo consiste em um ou mais modelos de IA generativos no centro de sua solução. Por exemplo, sua solução pode ser criada em torno de um modelo como GPT-4.
As mitigações que você pode aplicar na camada de modelo incluem:
- Selecionando um modelo apropriado para o uso da solução pretendida. Por exemplo, embora o GPT-4 possa ser um modelo poderoso e versátil, em uma solução que é necessária apenas para classificar entradas de texto pequenas e específicas, um modelo mais simples pode fornecer a funcionalidade necessária com menor risco de geração de conteúdo prejudicial.
- Ajuste fino um modelo fundamental com seus próprios dados de treinamento para que as respostas geradas sejam mais propensas a serem relevantes e com escopo para o cenário da solução.
2: A camada de do sistema de segurança
A camada do sistema de segurança inclui configurações e funcionalidades de nível de plataforma que ajudam a reduzir os danos. Por exemplo, o Microsoft Foundry inclui suporte para filtros de conteúdo que aplicam critérios para suprimir prompts e respostas com base na classificação de conteúdo em quatro níveis de gravidade (seguro, baixo, médio e alto) para quatro categorias de danos potenciais (ódio, sexual, violência e automutilação).
Outras mitigações de camada do sistema de segurança podem incluir algoritmos de detecção de abuso para determinar se a solução está sendo sistematicamente abusada (por exemplo, por meio de grandes volumes de solicitações automatizadas de um bot) e notificações de alerta que permitem uma resposta rápida a possíveis abusos do sistema ou comportamento prejudicial.
3: A mensagem do sistema e a camada de aterramento
Essa camada se concentra na construção de prompts que são enviados para o modelo. As técnicas de mitigação de danos que você pode aplicar nesta camada incluem:
- Especificando entradas do sistema que definem parâmetros comportamentais para o modelo.
- Aplicar engenharia de prompt para adicionar dados de aterramento a prompts de entrada, maximizando a probabilidade de uma saída relevante e não dinâmica.
- Usando uma abordagem de de geração aumentada de (RAG) para recuperar dados contextuais de fontes de dados confiáveis e incluí-los em prompts.
4: A camada de de experiência do usuário
A camada de experiência do usuário inclui o aplicativo de software por meio do qual os usuários interagem com o modelo de IA generativo e documentação ou outra garantia do usuário que descreve o uso da solução para seus usuários e stakeholders.
Projetar a interface do usuário do aplicativo para restringir entradas a assuntos ou tipos específicos ou aplicar a validação de entrada e saída pode reduzir o risco de respostas potencialmente prejudiciais.
A documentação e outras descrições de uma solução de IA gerativa devem ser adequadamente transparentes sobre os recursos e limitações do sistema, os modelos nos quais ele se baseia e quaisquer possíveis danos que nem sempre podem ser resolvidos pelas medidas de mitigação que você colocou em prática.