잠재적인 피해를 파악하다
책임 있는 생성 AI 프로세스의 첫 번째 단계는 계획된 솔루션에 영향을 줄 수 있는 잠재적인 피해를 매핑하는 것입니다. 이 단계에는 다음과 같은 네 가지 단계가 있습니다.
- 잠재적인 피해 식별
- 확인된 피해 우선 순위 지정
- 우선 순위가 지정된 피해 테스트 및 확인
- 확인된 피해 문서화 및 공유
1: 잠재적인 피해 식별
생성 AI 솔루션과 관련된 잠재적 피해는 출력을 생성하는 데 사용되는 특정 서비스 및 모델뿐만 아니라 출력을 사용자 지정하는 데 사용되는 미세 조정 또는 접지 데이터를 비롯한 여러 요인에 따라 달라집니다. 생성 AI 솔루션에서 잠재적인 피해의 몇 가지 일반적인 유형은 다음과 같습니다.
- 공격적이거나, 조롱적이거나, 차별적인 콘텐츠를 생성합니다.
- 팩트 부정확성이 포함된 콘텐츠 생성
- 불법 또는 비윤리적 행동이나 관행을 장려하거나 지원하는 콘텐츠를 생성합니다.
솔루션에서 서비스 및 모델의 알려진 제한 사항 및 동작을 완전히 이해하려면 사용 가능한 설명서를 참조하세요. 예를 들어 Azure OpenAI 서비스에는 투명도 메모가 포함되어 있습니다. 서비스 및 포함된 모델과 관련된 특정 고려 사항을 이해하는 데 사용할 수 있습니다. 또한 개별 모델 개발자는 GPT-4 모델 OpenAI 시스템 카드와 같은 설명서를 제공할 수 있습니다.
Microsoft 책임 AI 영향 평가 가이드의 지침을 검토하고 관련 책임 있는 AI 영향 평가 템플릿을 사용하여 잠재적인 피해를 문서화하는 것이 좋습니다.
잠재적인 피해를 식별하는 데 사용하는 리소스에 대한 정보 및 지침을 검토합니다.
2: 피해 우선 순위 지정
식별한 각 잠재적 피해에 대해 발생 가능성과 결과 영향 수준을 평가합니다. 그런 다음, 이 정보를 사용하여 가장 가능성이 높고 영향력 있는 피해에 대한 우선 순위를 지정합니다. 이 우선 순위를 지정하면 솔루션에서 가장 유해한 위험을 찾고 완화하는 데 집중할 수 있습니다.
우선 순위 지정은 솔루션의 의도된 사용과 오용 가능성을 고려해야 합니다. 주관적일 수 있습니다. 예를 들어 요리사와 아마추어 요리사에게 레시피 지원을 제공하는 스마트 주방 부조종사 개발 중이라고 가정해 보겠습니다. 잠재적인 피해는 다음과 같습니다.
- 이 솔루션은 부정확한 요리 시간을 제공하여 질병을 일으킬 수 있는 요리가 부족합니다.
- 메시지가 표시되면 솔루션은 일상적인 재료로 제조 할 수있는 치명적인 독에 대한 조리법을 제공합니다.
이러한 결과 중 어느 것도 바람직하지 않지만, 치명적인 독극물 생성을 지원하는 솔루션의 잠재력이 미숙한 음식을 만들 가능성보다 더 높은 영향을 미친다는 것을 결정할 수 있습니다. 그러나 솔루션의 핵심 사용 시나리오를 감안할 때 부정확한 요리 시간이 제안되는 빈도가 포이즌 레시피를 명시적으로 요청하는 사용자 수보다 훨씬 높을 수 있다고 가정할 수도 있습니다. 궁극적 인 우선 순위 결정은 충분히 우선 순위를 정하기 위해 컨설팅 정책 또는 법률 전문가를 포함 할 수있는 개발 팀에 대한 논의의 주제입니다.
3: 피해의 존재 여부를 테스트하고 확인
우선 순위가 지정된 목록이 있으므로 솔루션을 테스트하여 피해가 발생하는지 확인할 수 있습니다. 그리고 만약 그렇다면, 어떤 조건에서. 테스트는 목록에 추가할 수 있는 이전에 확인되지 않은 피해가 있음을 나타낼 수도 있습니다.
소프트웨어 솔루션에서 잠재적인 피해 또는 취약성을 테스트하는 일반적인 방법은 테스터 팀이 의도적으로 약점에 대한 솔루션을 조사하고 유해한 결과를 생성하려고 시도하는 "레드 팀" 테스트를 사용하는 것입니다. 이전에 논의 된 스마트 주방 부조종사 솔루션에 대한 예제 테스트는 철저하게 요리해야 성분을 포함하는 독 조리법 또는 빠른 조리법을 요청하는 것을 포함 할 수 있습니다. 솔루션이 사용될 때 발생하는 유해한 출력의 현실적인 가능성을 결정하는 데 도움이 되도록 빨간색 팀의 성공을 문서화하고 검토해야 합니다.
비고
레드 팀은 종종 소프트웨어 솔루션의 무결성을 손상시킬 수 있는 보안 취약성 또는 기타 약점을 찾는 데 사용되는 전략입니다. 생성 AI에서 유해한 콘텐츠를 찾기 위해 이 접근 방식을 확장하면 기존 사이버 보안 사례를 기반으로 하고 보완하는 책임 있는 AI 프로세스를 구현할 수 있습니다.
생성 AI 솔루션을 위한 레드 팀에 대한 자세한 내용은 Azure OpenAI Service 설명서에서 LLM(Red Teaming Large Language Model) 소개 를 참조하세요.
4: 피해에 대한 세부 정보 문서화 및 공유
솔루션에서 잠재적인 피해의 존재를 지원하기 위해 증거를 수집한 경우 세부 정보를 문서화하고 관련자와 공유합니다. 그런 다음, 새로운 피해가 확인되면 우선 순위가 지정된 피해 목록을 유지 관리하고 추가해야 합니다.