Important
영어가 아닌 번역은 편의를 위해서만 제공됩니다. 최종 버전은 이 문서의 EN-US 버전을 참조하세요.
투명성 고지란?
AI 시스템에는 기술뿐만 아니라 이를 사용하는 사람, 영향을 받는 사람, 배포되는 환경도 포함됩니다. 의도한 목적에 맞는 시스템을 만들려면 기술의 작동 방식, 기능 및 제한 사항, 최상의 성능을 달성하는 방법에 대한 이해가 필요합니다. Microsoft의 투명성 고지는 Microsoft의 AI 기술의 작동 방식, 시스템 소유자가 시스템 성능과 동작에 영향을 줄 수 있는 선택 사항 그리고 기술, 사람, 환경을 포함한 전체 시스템에 대한 사고의 중요성을 이해하는 데 도움을 주기 위한 것입니다. 투명성 고지는 자체 시스템을 개발 또는 배포할 때 사용하거나 시스템을 사용하거나 시스템의 영향을 받을 사람들과 공유할 수 있습니다.
Microsoft의 투명성 고지는 AI 원칙을 실천하기 위한 Microsoft의 광범위한 노력의 일환입니다. 자세한 내용은 Microsoft의 AI 원칙을 참조하세요.
Azure OpenAI 모델의 기본 사항
Azure OpenAI는 개발자와 데이터 과학자가 자연어, 코드 및 이미지를 생성할 수 있는 모델을 포함하여 OpenAI의 강력한 모델을 적용할 수 있는 완전 관리형 Foundry 도구를 고객에게 제공합니다. Azure OpenAI 서비스 내에서 OpenAI 모델은 Microsoft에서 개발한 Guardrails(이전 콘텐츠 필터) 및 남용 검색 모델과 통합됩니다. 여기에서 Guardrails(이전 콘텐츠 필터)와 남용 감지에 대해 자세히 알아보세요.
Introduction
| 모델 그룹 | 텍스트/코드 | Vision | 오디오/음성 |
|---|---|---|---|
| GPT-3 및 Codex | ✅ | ||
| DALL-E 2 및 3 | ✅ | ||
| GPT-image-1 | ✅ | ||
| Whisper | ✅ | ||
| 비전이 포함된 GPT-4 Turbo | ✅ | ✅ | |
| GPT-4o GPT-4o-mini |
✅ | ✅ | ✅ |
| GPT-4.1 GPT-4.1-mini GPT-4.1-nano |
✅ | ✅ | |
| GPT-4.5 | ✅ | ✅ | |
| GPT-5 | ✅ | ✅ | |
| GPT-oss-120b | ✅ | ||
| o1 시리즈 | ✅ | ✅ | |
| o3/o3-pro | ✅ | ✅ | |
| o3-mini | ✅ | ||
| o4-mini/codex-mini1 | ✅ | ✅ | |
| o3-deep-research o4-mini-deep-research |
✅ | ||
| computer-use-preview | ✅ | ✅ |
1codex-mini 은 Codex CLI에서 사용하기 위해 특별히 미세 조정된 버전 o4-mini 입니다. 자세한 내용은 OpenAI의 설명서를 참조하세요.
관련 모델 유형에 대한 콘텐츠를 보려면 탭을 선택합니다.
완전 관리형 Azure OpenAI 서비스의 일부로 GPT-3 모델은 자연어를 분석 및 생성하고, Codex 모델은 코드 및 일반 텍스트 코드 설명을 분석 및 생성하며, GPT-4 및 추론 모델 (o 시리즈 모델 및 GPT-5 포함)은 자연어 및 코드를 이해하고 생성할 수 있습니다. 이러한 모델은 자동 회귀 아키텍처를 사용합니다. 즉, 이전 관찰의 데이터를 사용하여 가장 가능성이 큰 다음 단어를 예측합니다. 그런 다음, 새로 생성된 콘텐츠를 원본 텍스트에 추가하여 생성된 전체 응답을 생성하여 이 프로세스를 반복합니다. 응답은 입력 텍스트에 대해 조건화되므로 입력 텍스트를 변경하기만 하면 이러한 모델을 다양한 작업에 적용할 수 있습니다.
GPT-3 시리즈 모델들은 다양한 공용 텍스트 데이터에 사전 훈련됩니다. 이 데이터는 웹 크롤링(특히 인터넷의 광범위한 텍스트를 포함하고 가중치 사전 학습 데이터 세트의 60%로 구성된 필터링된 버전의 Common Crawl)과 확장된 버전의 WebText 데이터 세트, 2개의 인터넷 기반 책 corpora 및 영어 Wikipedia를 포함한 고품질 데이터 세트의 조합에서 제공됩니다. GPT-4 기본 모델은 공개적으로 사용 가능한 데이터(예: 인터넷 데이터) 및 OpenAI에서 허가한 데이터를 사용하여 학습되었습니다. 이 모델은 RLHF(사용자 피드백)와 함께 보충 학습을 사용하여 미세 조정되었습니다.
컴퓨터 사용(미리 보기) 모델은 첫 번째 턴에 텍스트 입력을 허용하고, 두 번째 및 다음 턴의 스크린샷 이미지를 허용하고 명령을 키보드와 마우스로 출력합니다. 컴퓨터 사용 모델 및 컴퓨터 사용 도구를 사용하면 개발자가 에이전트 AI 시스템을 빌드할 수 있습니다.
OpenAI의 GPT-3, GPT-4 및 Codex 연구 논문에서 학습 및 모델링 기술에 대해 자세히 알아봅니다.
미세 조정 은 감독된 미세 조정을 사용하여 기본 모델의 가중치를 조정하여 제공된 학습 집합에 따라 더 나은 응답을 제공하는 것을 의미합니다. 큰 언어 모델에 대한 모든 사용 사례 및 고려 사항은 미세 조정된 모델에 적용되지만 추가 고려 사항도 있습니다.
Important
미세 조정은 비전 또는 음성 모델이 아닌 텍스트 및 코드 모델에만 사용할 수 있습니다.
주요 용어
| Term | Definition |
|---|---|
| Prompt | API 호출에서 서비스에 보내는 텍스트입니다. 그런 다음 이 텍스트가 모델에 입력됩니다. 예를 들어 다음 프롬프트를 입력할 수 있습니다.Convert the questions to a command:Q: Ask Constance if we need some breadA: send-msg 'find constance' Do we need some bread?Q: Send a message to Greg to figure out if things are ready for Wednesday.A: |
| 완료 또는 생성 | Azure OpenAI가 응답으로 출력하는 텍스트입니다. 예를 들어 서비스는 위의 프롬프트에 대한 다음 답변으로 응답할 수 있습니다. send-msg 'find greg' figure out if things are ready for Wednesday. |
| Token | Azure OpenAI는 텍스트를 토큰으로 분해하여 처리합니다. 토큰은 단어 또는 문자 청크일 수 있습니다. 예를 들어 단어 hamburger 는 토큰ham으로 분할되고bur, ger 짧고 일반적인 단어 pear 는 단일 토큰입니다. 많은 토큰은 공백으로 시작합니다. 예를 들면 다음과 같습니다 hello bye. |
| 미세 조정 | 대규모 언어 모델에 대한 감독된 SFT(미세 조정), RFT(강화 미세 조정), DPO(직접 기본 설정 최적화 또는 기본 설정 미세 조정)는 대규모 데이터 세트에서 학습된 미리 학습된 언어 모델을 사용하는 프로세스를 참조하고 레이블이 지정된 데이터를 사용하여 보다 구체적인 작업에 대해 추가로 학습합니다. 여기에는 이 더 작은 특정 데이터 세트를 사용하여 모델의 가중치를 조정하여 모델이 수행할 수 있는 작업에 보다 전문화되어 성능과 정확도를 향상시키는 작업이 포함됩니다. |
| 모델 가중치 | 모델 가중치는 학습 프로세스 중에 데이터에서 학습되는 모델 내의 매개 변수입니다. 지정된 입력에 대한 모델의 출력을 결정합니다. 이러한 가중치는 이 오류를 최소화하기 위해 모델이 예측에서 수행한 오류에 대한 응답으로 조정됩니다. |
| 근거 없는 콘텐츠 | 원본 자료에 있던 내용과 사실이 아니거나 부정확한 모델에 의해 생성된 콘텐츠입니다. |
| 에이전트 AI 시스템 | 목표를 달성하기 위해 환경을 감지하고 작업하는 자율 AI 시스템입니다. |
| Autonomy | 작업을 독립적으로 실행하고 직접적인 사람이 감독하지 않거나 제한적으로 시스템 동작을 제어할 수 있는 기능입니다. |
| 컴퓨터 사용 도구 | 컴퓨터 사용 모델과 함께 사용할 때 모드에서 생성된 마우스 및 키보드 동작을 캡처하고 실행 가능한 명령으로 직접 변환하는 도구입니다. 이렇게 하면 개발자가 컴퓨터 사용 작업을 자동화할 수 있습니다. |
| 심층 연구 | 심층 연구 작업을 위해 설계된 O 시리즈 추론 모델의 미세 조정된 버전입니다. 상위 수준 쿼리를 사용하고 작업을 분해하고, 웹 검색을 수행하고, 결과를 합성할 수 있는 에이전트 모델을 활용하여 구조적이고 인용이 풍부한 보고서를 반환합니다. |
Capabilities
추론 모델, GPT-4, GPT-3, Codex 모델 및 Azure OpenAI 평가는 프롬프트의 자연어 지침과 예제를 사용하여 작업을 식별합니다. 그런 다음, 모델은 가장 가능성이 큰 다음 텍스트를 예측하여 작업을 완료합니다. 이 기술을 "컨텍스트 내" 학습이라고 합니다. 이러한 모델은 이 단계에서 재학습되지 않고 프롬프트에 포함된 컨텍스트에 따라 예측을 제공합니다.
컨텍스트 내 학습을 위한 세 가지 주요 방법이 있습니다. 이러한 방법은 모델에 지정된 작업별 데이터의 양에 따라 달라집니다.
Few-shot : 이 경우 사용자는 프롬프트에 기대되는 응답 형식과 내용을 보여주는 여러 예제를 포함합니다. 다음 예제에서는 여러 예제를 제공하는 몇 번의 프롬프트를 보여 줍니다.
Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg `find constance` Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A: send-msg `find greg` Is everything ready forWednesday?
Q: Ask Ilya if we're still having our meeting thisevening
A: send-msg `find ilya` Are we still having a meetingthis evening?
Q: Contact the ski store and figure out if I can getmy skis fixed before I leave on Thursday
A: send-msg `find ski store` Would it be possible toget my skis fixed before I leave on Thursday?
Q: Thank Nicolas for lunch
A: send-msg `find nicolas` Thank you for lunch!
Q: Tell Constance that I won't be home before 19:30tonight — unmovable meeting.
A: send-msg `find constance` I won't be home before19:30 tonight. I have a meeting I can't move.
Q: Tell John that I need to book an appointment at10:30
A:
예제 수는 일반적으로 단일 프롬프트의 최대 입력 길이에 맞출 수 있는 수에 따라 0에서 100 사이입니다. 몇 번의 학습을 통해 정확한 예측에 필요한 작업별 데이터의 양을 크게 절감할 수 있습니다.
원샷 : 이 사례는 단 하나의 예제만 제공된 경우를 제외하고 몇 번의 샷 접근 방식과 동일합니다. 다음 예제에서는 일회성 프롬프트를 보여줍니다.
Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg `find constance` Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A:
제로샷: 이 경우 모델에 예제가 제공되지 않으며 작업 요청만 제공됩니다. 다음 예제에서는 제로샷 프롬프트를 보여줍니다.
Convert the question to a command:
Q: Ask Constance if we need some bread
A:
사고 체인 : Azure OpenAI의 추론 모델에는 CoT(체인 오브 사상) 기술을 사용하는 고급 추론 기능이 있습니다. CoT 기술은 응답을 제공하기 전에 중간 추론 단계를 생성하여 단계별 문제 해결을 통해 더 복잡한 문제를 해결할 수 있도록 합니다. o1은 연구, 전략, 과학, 코딩 및 수학과 같은 추론이 많은 도메인에 대한 벤치마크 개선 사항을 보여줍니다. 이러한 모델에는 고급 추론 기능의 안전성이 향상되었으며 안전 규칙을 추론하고 보다 효과적으로 적용할 수 있습니다. 이를 통해 불법적인 조언 생성, 고정관념적인 응답 선택, 알려진 탈옥에 굴복하는 등의 안전 벤치마크와 함께 더 나은 성과를 얻을 수 있습니다.
이 모델 제품군의 기능에 대한 자세한 내용은 OpenAI o1 시스템 카드, o3-mini 시스템 카드, o3/o4-mini 시스템 카드, 심층 연구 시스템 카드 및 GPT-5 시스템 카드를 참조하세요.
Azure OpenAI 평가
큰 언어 모델의 평가는 다양한 작업 및 차원에서 성능을 측정하는 중요한 단계입니다. 이 작업은 학습에서 성능 향상(또는 손실)을 평가하는 것이 중요한 미세 조정된 모델에 특히 중요합니다. 철저한 평가가 없으면 다양한 버전의 모델이 특정 애플리케이션에 어떤 영향을 미칠 수 있는지 이해하기 어려울 수 있습니다.
Azure OpenAI 평가는 Azure OpenAI 배포에서 생성된 데이터 세트 또는 기타 수동으로 큐레이팅된 파일을 포함하여 데이터를 평가하는 UI 기반 환경입니다.
Azure OpenAI 평가에는 응답을 생성하는 선택적 단계가 있습니다. 사용자가 이 단계를 옵트인하는 경우 모델에 응답을 생성하는 방법을 지시하는 프롬프트(시스템/사용자 메시지)를 제공합니다.
Azure OpenAI 평가에는 결과의 점수를 매기는 9가지 테스트 범주가 포함되어 있습니다. 일부는 근거리 데이터(예: 팩트)가 필요하지만 다른 데이터는 그렇지 않습니다(스키마 유효성 검사). 채점자는 CPU 기반 및 모델 기반의 혼합입니다. 다음은 테스트 조건 목록입니다. 팩트성, 감정, 유효한 JSON 또는 XML, 조건 일치, 사용자 지정 프롬프트, 의미 체계 유사성, 문자열 포함, 일치 스키마 및 텍스트 품질.
Text-to-action
컴퓨터 사용(미리 보기) 모델을 사용하면 텍스트 작업 기능을 사용할 수 있으므로 사용자는 모델이 그래픽 사용자 인터페이스 내에서 실행 가능한 단계로 변환되는 자연어 지침을 제공할 수 있습니다. "이 정보로 고객 지원 양식 작성"과 같은 명령이 제공되면 모델은 관련 필드를 식별하고 올바른 데이터를 입력하고 양식을 제출합니다. 웹 인터페이스를 탐색하고, 구조화되거나 구조화되지 않은 데이터를 추출 및 입력하고, 워크플로를 자동화하고, 보안 정책 준수를 적용할 수 있습니다. 의도를 이해하고 그에 따라 작업을 실행하면 비즈니스 운영이 간소화되어 자동화가 보다 액세스 가능하고 효율적입니다.
사용 사례
올바른 사용법
텍스트 모델은 여러 시나리오에서 사용할 수 있습니다. 다음 목록은 포괄적이지는 않지만 적절한 완화 기능이 있는 모델에 대해 지원될 수 있는 작업의 다양성을 보여 줍니다.
- 채팅 및 대화 상호 작용 : 사용자는 내부 회사 설명서 또는 기술 지원 설명서와 같은 신뢰할 수 있는 문서에서 가져온 응답으로 응답하는 대화형 에이전트와 상호 작용할 수 있습니다. 대화는 범위가 지정된 질문에 답변하는 것으로 제한되어야 합니다.
- 채팅 및 대화 만들기 : 사용자는 내부 회사 설명서 또는 기술 지원 설명서와 같은 신뢰할 수 있는 문서에서 가져온 응답으로 응답하는 대화형 에이전트를 만들 수 있습니다. 대화는 범위가 지정된 질문에 답변하는 것으로 제한되어야 합니다.
- 코드 생성 또는 변환 시나리오 : 예를 들어 한 프로그래밍 언어를 다른 프로그래밍 언어로 변환하고, 함수에 대한 문서 문자열을 생성하고, 자연어를 SQL로 변환합니다.
- 기자 콘텐츠 : 새로운 기자 콘텐츠를 만들거나 사용자가 미리 정의 된 주제에 대한 쓰기 보조로 제출 한 기자 콘텐츠를 다시 작성하는 데 사용합니다. 사용자는 애플리케이션을 모든 항목에 대한 일반 콘텐츠 만들기 도구로 사용할 수 없습니다.
- 질문 답변 : 사용자는 내부 회사 설명서와 같은 신뢰할 수 있는 원본 문서에서 질문을 하고 답변을 받을 수 있습니다. 애플리케이션은 신뢰할 수 있는 원본 설명서에서 포그라운드되지 않은 답변을 생성하지 않습니다.
- 구조화 및 비정형 데이터에 대한 이유 : 사용자는 분류, 텍스트의 감정 분석 또는 엔터티 추출을 사용하여 입력을 분석할 수 있습니다. 예를 들어, 제품 피드백의 감정 분석, 지원 통화 및 대본에 대한 분석, 그리고 임베딩을 활용하여 텍스트 기반 검색을 구체화하는 것이 포함됩니다.
- 검색 : 사용자는 내부 회사 설명서와 같은 신뢰할 수 있는 원본 문서를 검색할 수 있습니다. 애플리케이션은 신뢰할 수 있는 원본 설명서에 표시되지 않은 결과를 생성하지 않습니다.
- 요약 : 사용자는 애플리케이션에 기본 제공되는 미리 정의된 항목에 대해 요약할 콘텐츠를 제출할 수 있으며 애플리케이션을 개방형 요약 도우미로 사용할 수 없습니다. 예를 들어 내부 회사 설명서 요약, 콜 센터 기록, 기술 보고서 및 제품 검토가 있습니다.
- 특정 항목에 대한 쓰기 지원 : 사용자는 비즈니스 콘텐츠 또는 미리 정의된 토픽에 대한 쓰기 지원으로 사용자가 제출한 새 콘텐츠를 만들거나 콘텐츠를 다시 작성할 수 있습니다. 사용자는 특정 비즈니스 목적 또는 미리 정의된 항목에 대해서만 콘텐츠를 다시 작성하거나 만들 수 있으며 모든 토픽에 대한 일반 콘텐츠 만들기 도구로 애플리케이션을 사용할 수 없습니다. 비즈니스 콘텐츠의 예로는 제안 및 보고서가 포함됩니다. 기자 사용에 대한 자세한 내용은 위의 기자 콘텐츠 사용 사례를 참조하세요.
- 미세 조정을 위한 데이터 생성: 사용자는 Azure OpenAI의 모델을 사용하여 (i) 다른 Azure OpenAI 모델을 미세 조정하는 데만 사용되는 데이터를 생성하고, (ii) Foundry 도구의 미세 조정 기능을 사용하여 다른 Azure AI 사용자 지정 모델을 사용할 수 있습니다. 데이터 생성 및 모델 미세 조정은 내부 사용자로만 제한됩니다. 미세 조정된 모델은 해당 Foundry 도구의 추론에만 사용할 수 있으며, Azure OpenAI 서비스의 경우 이 양식에 따라 고객이 허용한 사용 사례에만 사용할 수 있습니다.
미세 조정된 사용 사례
다음은 미세 조정된 모델에 권장되는 추가 사용 사례입니다. 미세 조정은 다음 작업에 가장 적합합니다.
- 원하는 응답의 예를 통해 응답의 스타일, 형식, 톤 또는 질적 측면을 조정합니다.
- 모델이 특정 형식으로 응답을 제공하거나 프롬프트의 정보에 의해 응답이 접지되도록 하는 등 원하는 출력을 안정적으로 생성하도록 합니다.
- 프롬프트 예제 내에서 다룰 수 없는 여러 특이 사례를 가진 사용 사례, 예를 들어 복잡한 자연어를 코드로 변환하는 예제와 같은 경우입니다.
- 프롬프트 내에서 설명하기 어려울 수 있는 분류, 요약 또는 서식 지정과 같은 특정 기술 또는 작업에서 성능을 향상합니다.
- 더 짧은 프롬프트를 활용하거나 보다 범용 모델(예: GPT-4의 경우 미세 조정된 GPT-3.5-Turbo)을 위해 더 작고 빠른 모델의 미세 조정된 버전을 교환하여 비용 또는 대기 시간을 줄입니다.
기본 모델과 마찬가지로 Azure OpenAI 행동 강령 에 설명된 사용 사례 금지는 미세 조정된 모델에도 적용됩니다.
도메인 외부 정보를 포함하도록 모델을 확장하려는 시나리오, 설명 가능성 또는 접지가 중요하거나 기본 데이터가 자주 업데이트되는 시나리오에서는 미세 조정만으로는 권장되지 않습니다.
추론 모델 사용 사례
추론 모델의 고급 추론 기능은 과학, 코딩, 수학 및 유사한 분야에서 추론이 많은 용도에 가장 적합할 수 있습니다. 특정 사용 사례에는 다음이 포함될 수 있습니다.
- 복잡한 코드 생성, 분석 및 최적화: 개발자가 다단계 워크플로를 실행하는 데 도움이 되는 알고리즘 생성 및 고급 코딩 작업으로 코드 개발에서 수행된 단계를 더 잘 이해할 수 있습니다.
- 고급 문제 해결: 포괄적인 브레인스토밍 세션, 전략 개발 및 다각적인 문제 분석
- 복잡한 문서 비교: 계약, 사례 파일 또는 법적 문서를 분석하여 문서 내용의 미묘한 차이를 식별합니다.
- 지침 다음 및 워크플로 관리: 더 짧은 컨텍스트가 필요한 워크플로 처리
용도에 대한 자세한 내용은 OpenAI o1 시스템 카드, o3-mini 시스템 카드, o3/o4-mini 시스템 카드 및 GPT-5 시스템 카드를 방문하세요.
심층 연구 사용 사례
심층 연구 모델은 고급 쿼리를 사용하고 구조화되고 인용이 풍부한 보고서를 반환하도록 설계된 O 시리즈 추론 모델의 미세 조정된 버전입니다. 모델은 최종 응답을 반환하기 전에 여러 반복으로 하위 쿼리를 만들고 웹 검색에서 정보를 수집합니다. 사용 사례에는 적절한 사용자 감독과 함께 다음이 포함될 수 있습니다.
- 복잡한 연구 및 문학 검토: 수백 개의 논문에 걸쳐 연구 결과를 합성하고, 연구의 격차 또는 모순을 식별하고, 새로운 가설 또는 연구 방향을 제안합니다.
- 과학적 발견 및 가설 생성: 여러 분야의 연구 결과 간의 연결을 탐색하고, 테스트 가능한 가설 또는 실험적 디자인을 생성하며, 원시 실험 데이터의 해석을 지원합니다.
- 고급 기술 문제 해결: 복잡한 시스템 디버깅(예: 분산 소프트웨어, 로봇 공학), 새로운 알고리즘 또는 아키텍처 설계, 고급 수학 또는 물리학 문제 해결
- 장기 계획 강화: 임원 또는 연구원이 10년 기술 로드맵을 계획하고, AI 안전, 생물 보안 또는 기후에서 장거리 시나리오를 모델링하고, 의사 결정의 2차 및 3차 효과를 평가할 수 있도록 지원합니다.
심층 연구 모델은 Azure AI 에이전트 서비스에서 도구로 사용할 수 있습니다. 의도한 용도에 대한 자세한 내용은 OpenAI Deep Research 시스템 카드를 참조하세요.
Azure OpenAI 평가 사용 사례
Azure OpenAI 평가는 텍스트 전용 기능이며 텍스트가 아닌 입력을 지원하는 모델에서는 사용할 수 없습니다. 다음을 포함하지만 제한되지 않는 여러 시나리오에서 Evals를 사용할 수 있습니다.
- 텍스트 일치/비교 평가: 사용자가 출력이 예상 문자열과 일치하는지 확인하려는 시나리오에 유용합니다. 또한 사용자는 두 값 집합을 비교하고 관계를 채점할 수 있습니다. 예를 들어 답변이 답변 키와 비교되는 객관식 질문과 문자열 유효성 검사를 포함하지만 이에 국한되지 않습니다.
- 텍스트 품질: 텍스트 품질은 Bleu, Rouge 또는 코사인 알고리즘과 같은 메서드를 사용하여 응답 품질을 평가하며 기계 번역, 텍스트 요약 및 텍스트 생성과 같은 다양한 자연어 처리 작업에 널리 사용됩니다.
- 분류 기반 평가: 분류 기반 평가는 미리 정의된 범주 또는 레이블에 응답을 할당하거나 모델의 출력을 올바른 답변의 참조 집합과 비교하여 모델의 성능을 평가합니다. 자동화된 채점, 감정 분석 및 제품 분류는 몇 가지 일반적인 사용 사례 중 하나입니다.
- 대화형 품질 평가: 대화형 품질 평가에는 CoT(자세한 생각 체인) 프롬프트를 사용하여 미리 정의된 기준과 응답을 비교하는 작업이 포함됩니다. 일반적인 사용 사례로는 고객 지원, 챗봇 개발 및 교육 평가 등이 있습니다.
- 조건 기반 평가: 조건 기반 평가에 대한 일반적인 시나리오 중 하나는 사실입니다. 사실 정확도를 평가하려면 제출된 답변을 전문가 답변과 비교하여 사실 콘텐츠에만 집중해야 합니다. 이는 교육 도구에서 LLM에서 제공하는 답변의 정확도를 향상시키거나 연구 지원 도구에서 학문 설정에서 LLM에 의해 생성된 응답의 사실 정확도를 평가하는 데 유용할 수 있습니다.
- 문자열 유효성 평가: 한 가지 일반적인 시나리오는 모델의 응답이 특정 스키마를 따르는지 유효한 JSON 또는 XML 콘텐츠인지 확인하는 것입니다.
컴퓨터 사용(미리 보기) 사용 사례
컴퓨터 사용 기능은 UI와 자율적으로 상호 작용할 수 있는 에이전트 AI 시스템을 개발하는 데 가장 적합합니다. 특정 사용 사례에는 다음이 포함될 수 있습니다.
자동화된 웹 탐색 및 상호 작용: 웹 기반 인터페이스의 탐색을 자율적으로 탐색하여 내부 회사 리소스 또는 구조화된 데이터베이스와 같은 신뢰할 수 있는 원본에서 정보를 검색하고 표시합니다. 모델은 미리 정의된 탐색 규칙을 따라 보안 정책을 준수하면서 관련 데이터를 추출합니다.
Web-Based 작업 자동화: 양식 작성, 데이터 제출 또는 웹 애플리케이션 조작과 같은 반복적인 웹 기반 작업을 자동화합니다. 컴퓨터 사용은 단추를 클릭하고, 텍스트를 입력하고, 구조화된 데이터를 처리할 수 있지만 권한 있는 워크플로 및 도메인 내에서만 작동합니다.
구조적 데이터 추출 및 비정형 데이터 추출: 테이블 및 스프레드시트와 같은 구조화된 원본과 PDF, 스캔된 문서 또는 전자 메일과 같은 구조화되지 않은 원본에서 관련 데이터를 추출합니다. 이 기능은 재무 데이터 처리, 계약 분석 또는 고객 지원 티켓 분류와 같은 작업에 유용합니다.
자동화된 양식 채우기 및 데이터 항목: 구조화된 데이터베이스 또는 사용자 입력에서 정보를 추출하고 이를 사용하여 웹 기반 양식을 채웁니다. 이는 데이터 처리의 정확성과 일관성을 보장하면서 고객 서비스 요청, HR 프로세스 또는 CRM 업데이트를 자동화하는 데 유용합니다.
Web-Based 이미지 분석: 웹 페이지에서 찾은 이미지를 분석하여 개체, 장면 또는 관련 패턴을 검색하고 태그를 지정합니다. 컴퓨터 사용은 인벤토리 관리, 문서 처리 또는 개체 분류와 같은 애플리케이션을 지원하기 위해 시각적 정보를 추출할 수 있습니다.
대화형 시각적 검색 및 식별: 사용자가 구조화된 검색을 통해 관련 시각적 콘텐츠를 찾을 수 있도록 지원합니다. 예를 들어 컴퓨터 사용은 전자 상거래 카탈로그에서 제품을 식별하거나, 여행 애플리케이션에서 랜드마크를 인식하거나, 미리 정의된 기준에 따라 디지털 아카이브에서 특정 이미지를 검색할 수 있습니다.
자동화된 준수 및 정책 검사: 미리 정의된 규정 준수 규칙을 준수하기 위해 업로드된 파일, 계약 또는 내부 설명서와 같은 웹 기반 콘텐츠를 검사합니다. 컴퓨터 사용은 누락된 정보, 불일치 또는 잠재적 위반에 플래그를 지정하여 조직 내에서 규제 표준을 적용하는 데 도움이 될 수 있습니다.
비즈니스 애플리케이션에 대한 자동화된 워크플로 실행: 보고서 생성, 레코드 업데이트 또는 분석 검색과 같은 엔터프라이즈 애플리케이션 탐색을 위한 다단계 워크플로 정의 컴퓨터 사용은 비즈니스 도구 내에서 미리 정의된 단계를 따르고 보안 실행을 보장하기 위해 액세스 제어 정책을 준수합니다.
사용 사례 선택 시 고려 사항
고객은 제한된 액세스 등록 양식에서 승인된 혁신적인 솔루션 또는 애플리케이션에서 Azure OpenAI GPT-4, o 시리즈, GPT-3, Codex 및 Computer Use 모델을 사용하는 것이 좋습니다. 하지만 사용 사례를 선택할 때 다음과 같은 몇 가지 고려 사항이 있습니다.
- 비제한 오픈 엔드 콘텐츠 생성에는 적합하지 않습니다. 사용자가 모든 토픽에서 콘텐츠를 생성할 수 있는 시나리오는 불쾌하거나 유해한 텍스트를 생성할 가능성이 높습니다. 더 긴 세대도 마찬가지입니다.
- 사용자 검토자가 있거나 모델을 사용하여 사용자 고유의 문서를 검색하고 시나리오에 적합한지 확인하지 않는 한 up-to-date, 실제로 정확한 정보가 중요한 시나리오에는 적합하지 않습니다. 서비스에는 학습 날짜 이후에 발생하는 이벤트에 대한 정보가 없으며 일부 항목에 대한 지식이 누락되었을 수 있으며 항상 정확한 정보를 생성하지 못할 수 있습니다.
- 시스템의 사용 또는 오용으로 인해 개인에게 심각한 신체적 또는 심리적 상해가 발생할 수 있는 시나리오를 방지합니다. 예를 들어, 환자를 진단하거나 약을 처방하는 시나리오는 심각한 피해를 초래할 가능성이 있습니다. 의미 있는 사용자 검토 및 감독을 시나리오에 통합하면 유해한 결과의 위험을 줄이는 데 도움이 될 수 있습니다.
- 시스템의 사용 또는 오용이 삶의 기회 또는 법적 상태에 영향을 미칠 수 있는 시나리오를 방지합니다. AI 시스템이 개인의 법적 지위, 법적 권리 또는 크레딧, 교육, 고용, 의료, 주택, 보험, 사회 복지 이점, 서비스, 기회 또는 제공 사용 약관에 대한 접근성에 영향을 미칠 수 있는 시나리오를 예로 들 수 있습니다. 의미 있는 사용자 검토 및 감독을 시나리오에 통합하면 유해한 결과의 위험을 줄이는 데 도움이 될 수 있습니다.
- 위험성이 높은 상황을 피하십시오. Azure OpenAI 서비스에서 호스트하는 모델은 학습 데이터 또는 프롬프트에 제공된 예제에 있는 특정 사회 보기, 바이어스 및 기타 바람직하지 않은 콘텐츠를 반영합니다. 따라서 불공정하거나 신뢰할 수 없거나 공격적인 동작이 매우 비용이 많이 들거나 해를 입힐 수 있는 고액 시나리오에서 모델을 사용하지 않도록 주의합니다. 의미 있는 사용자 검토 및 감독을 시나리오에 통합하면 유해한 결과의 위험을 줄이는 데 도움이 될 수 있습니다.
- 높은 지분 도메인 또는 업계에서 사용 사례를 신중하게 고려합니다 . 예를 들면 의료, 의학, 금융 또는 법률이 포함되나 제한되지 않습니다.
- 범위가 잘 지정된 챗봇 시나리오를 신중하게 고려합니다. 챗봇에서 서비스를 좁은 도메인으로 제한하면 의도하지 않거나 바람직하지 않은 응답을 생성할 위험이 줄어듭니다.
- 모든 생성 사용 사례를 신중하게 고려합니다. 콘텐츠 생성 시나리오는 의도하지 않은 출력을 생성할 가능성이 더 높으며 이러한 시나리오에서는 신중하게 고려하고 완화해야 합니다.
- 법률 및 규제 고려 사항: 조직은 모든 산업 또는 시나리오에서 사용하기에 적합하지 않을 수 있는 Foundry 도구 및 솔루션을 사용할 때 잠재적인 특정 법률 및 규제 의무를 평가해야 합니다. 또한 Foundry 도구 또는 솔루션은 해당 서비스 약관 및 관련 행동 강령에서 금지된 방식으로 설계되지 않았으며 사용할 수 없습니다.
컴퓨터 사용에 대한 사용 사례를 선택할 때 사용자는 위에 나열된 고려 사항 외에도 다음 고려 사항을 고려해야 합니다.
- 작업이 돌이킬 수 없거나 매우 결과적인 시나리오를 방지합니다. 여기에는 전자 메일을 보내는 기능(예: 잘못된 받는 사람에게)을 보내는 기능, 사용자에게 중요한 파일을 수정 또는 삭제하는 기능, 재무 트랜잭션을 만들거나 외부 서비스와 직접 상호 작용하는 기능, 중요한 정보를 공개적으로 공유, 중요한 시스템에 대한 액세스 권한 부여 등이 포함됩니다. 또는 시스템 기능 또는 보안을 변경할 수 있는 명령을 실행합니다.
- 고급 사용 시 성능 저하: 컴퓨터 사용은 웹 사이트 및 컴퓨터 데스크톱 액세스와 같은 UI로 작업을 완료하는 사용 사례에 가장 적합합니다. 코드 편집, 광범위한 텍스트 작성, 복잡한 의사 결정과 같은 고급 작업을 잘 수행하지 못할 수 있습니다.
- 적절한 인간의 감독과 제어를 보장합니다. 사용자가 적시에 작업을 확인, 검토 및/또는 승인하는 데 도움이 되는 컨트롤을 포함하는 것이 좋습니다. 여기에는 계획된 작업 또는 외부 데이터 원본에 대한 호출(예: 시스템에 적합한 경우)을 검토하는 작업이 포함될 수 있습니다. 특히 위험 수준이 높은 시나리오 및 사용 사례에서 시스템 오류에 대한 적절한 사용자 수정을 위한 컨트롤을 포함하는 것이 좋습니다.
- 작업 및 관련 요구 사항을 명확하게 정의합니다. 허용되는 작업(작업 경계), 금지 또는 명시적 권한 부여가 필요한 작업을 명확하게 정의하면 컴퓨터 사용이 예상대로 적절한 수준의 사용자 감독으로 작동하는 데 도움이 될 수 있습니다.
- 의도한 운영 환경을 명확하게 정의합니다. 컴퓨터 사용이 효과적으로 수행되도록 설계된 의도된 운영 환경(도메인 경계)을 명확하게 정의합니다.
- 의사 결정에서 적절한 이해력을 보장합니다. 조치를 취하기 전, 도중 및 후에 사용자에게 정보를 제공하면 작업 근거 또는 특정 작업이 수행된 이유 또는 애플리케이션이 특정 방식으로 동작하는 이유, 개입할 위치 및 문제 해결 방법을 이해하는 데 도움이 될 수 있습니다.
- 자세한 내용은 생성 AI에 적절하게 의존하는 방법 가이드를 참조하세요.
심층 연구를 위한 사용 사례를 선택할 때 사용자는 위에 나열된 고려 사항 외에도 다음 고려 사항을 고려해야 합니다.
- 적절한 사용자 감독 및 제어 보장: 사용자가 심층 연구 보고서를 검토하고 인용된 원본 및 콘텐츠의 유효성을 검사하는 데 도움이 되는 메커니즘을 제공합니다.
- 저작권이 있는 콘텐츠에 대한 인용 확인: 심층 연구 도구는 응답을 준비할 때 웹 검색을 수행하며 저작권이 있는 자료를 인용할 수 있습니다. 보고서에 포함된 원본 인용을 확인하고 저작권이 있는 자료를 적절하게 사용하고 특성을 지정하는지 확인합니다.
Limitations
대규모 자연어 모델, 비전 모델 및 음성 모델과 관련하여 고려해야 할 공정성 및 책임 있는 AI 문제가 있습니다. 사람들은 언어와 이미지를 사용하여 세상을 묘사하고 자신의 믿음, 가정, 태도 및 가치를 표현합니다. 따라서 일반적으로 대규모 자연어 처리 및 이미지 생성 모델을 학습시키는 데 사용되는 공개적으로 사용 가능한 텍스트 및 이미지 데이터에는 인종, 성별, 종교, 연령 및 기타 사용자 그룹과 관련된 사회적 편견과 기타 바람직하지 않은 콘텐츠가 포함됩니다. 마찬가지로 음성 모델은 다양한 인구 통계 그룹 및 언어에서 다양한 수준의 정확도를 나타낼 수 있습니다. 이러한 사회적 편견은 단어, 구문 및 구문 구조의 분포에 반영됩니다.
기술 제한 사항, 운영 요소, 범위
Caution
이 섹션에는 일부 개인이 불쾌감을 줄 수 있는 용어와 언어가 포함된 설명 예제가 포함되어 있습니다.
이러한 데이터로 학습된 대규모 자연어, 이미지 및 음성 모델은 불공평하거나 신뢰할 수 없거나 공격적인 방식으로 동작하여 피해를 입힐 수 있습니다. 몇 가지 방법이 여기에 나열되어 있습니다. 우리는 이러한 유형의 피해가 상호 배타적이지 않다는 것을 강조합니다. 단일 모델은 여러 다른 그룹의 사람들과 관련이 있는 두 가지 이상의 피해를 나타낼 수 있습니다. 다음은 그 예입니다.
- 배당: 이러한 모델은 리소스 또는 기회를 부당하게 할당하는 방식으로 사용할 수 있습니다. 예를 들어 자동화된 이력서 심사 시스템은 특정 산업의 기존 성 불균형을 반영하는 이력서 데이터를 학습한 경우 한 성별의 고용 기회를 보류할 수 있습니다. 또는 이미지 생성 모델을 사용하여 알려진 예술가의 스타일로 이미지를 만들 수 있으며, 이는 작가의 작품이나 작가의 삶의 기회에 영향을 미칠 수 있습니다. GPT-4 비전 모델을 사용하여 삶의 기회에 부정적인 영향을 미칠 수 있는 개별 동작 및 패턴을 식별할 수 있습니다.
- 서비스 품질: Azure OpenAI 모델은 주로 영어 텍스트 및 영어 텍스트 설명이 포함된 이미지에 대해 학습됩니다. 영어 이외의 언어는 성능이 저하됩니다. 학습 데이터에서 표현이 적은 영어 품종은 표준 미국 영어보다 성능이 저하될 수 있습니다. 이미지 생성 모델을 학습하는 데 사용되는 공개적으로 사용 가능한 이미지는 공용 바이어스 및 기타 바람직하지 않은 콘텐츠를 강화할 수 있습니다. DALL·E 모델은 현재 이해할 수 있는 텍스트를 일관되게 생성할 수 없습니다. 음성 모델은 다른 제한 사항을 도입할 수 있습니다. 예를 들어 Azure OpenAI에서 위스퍼 모델을 사용하는 번역은 영어 출력으로만 제한됩니다. 대체로 음성 텍스트 변환 모델을 사용하면 각 오디오 입력에 대한 언어(또는 로캘)를 올바르게 지정하여 전사의 정확도를 향상해야 합니다. 또한 오디오 입력, 비 음성 노이즈, 겹치는 음성, 어휘, 악센트 및 삽입 오류의 음향 품질도 전사 또는 번역의 품질에 영향을 줄 수 있습니다.
- 고정 관념: 이러한 모델은 스테레오타입을 강화할 수 있습니다. 예를 들어 "그는 간호사입니다"와 "그녀는 의사입니다"를 터키어와 같은 성별없는 언어로 번역한 다음 영어로 다시 번역 할 때 많은 기계 번역 시스템은 "그녀는 간호사입니다"와 "그는 의사입니다"의 고정 관념 (그리고 잘못된) 결과를 산출합니다. With DALL· E, 프롬프트 "아버지없는 아이들"을 기반으로 이미지를 생성 할 때, 모델은 공개적으로 사용할 수있는 이미지에 존재 할 수있는 유해한 고정 관념을 강화, 흑인 아이들의 이미지를 생성 할 수 있습니다. GPT-4 비전 모델은 이미지의 구성 요소에 의존하여 항상 그렇지 않을 수 있는 가정을 함으로써 입력 이미지의 내용에 따라 스테레오타입을 강화할 수도 있습니다.
- 비하: Azure OpenAI 서비스의 자연어 및 비전 모델은 사람들을 비하할 수 있습니다. 예를 들어 부적절하거나 완화가 부족한 개방형 콘텐츠 생성 시스템은 특정 그룹의 사람들에게 불쾌감을 주거나 비하하는 콘텐츠를 생성할 수 있습니다.
- 과잉 표현 및 과소 대표: Azure OpenAI 서비스의 자연어 및 비전 모델은 사용자 그룹을 과도하게 또는 과소 나타내거나 표현을 완전히 지울 수 있습니다. 예를 들어, "게이"라는 단어가 포함된 텍스트 프롬프트가 잠재적으로 유해하거나 공격적이라고 검색되는 경우, 이러한 식별로 인해 LGBTQIA+ 커뮤니티에 대한 합법적인 이미지 세대가 제대로 표현되지 않거나 심지어 삭제될 수 있습니다.
- 부적절하거나 불쾌한 콘텐츠: Azure OpenAI 서비스의 자연어 및 비전 모델은 다른 유형의 부적절하거나 불쾌한 콘텐츠를 생성할 수 있습니다. 예를 들어 텍스트 또는 이미지 프롬프트의 컨텍스트에서 부적절한 텍스트를 생성하는 기능이 있습니다. 증오 기호와 같은 유해한 아티팩트가 잠재적으로 포함된 이미지를 만드는 기능 유해한 의미를 유도하는 이미지; 논쟁의 여지가 있거나, 논란의 여지가 있거나, 이데올로기적으로 양극화되는 주제와 관련된 이미지; 조작하는 이미지; 성적 관련 가드레일로 잡히지 않는 성적으로 청구된 콘텐츠가 포함된 이미지; 민감하거나 정서적으로 충전된 주제와 관련된 이미지 예를 들어 구름과 비행기가 날아다니는 뉴욕 스카이라인의 이미지를 만들기 위한 선의의 텍스트 프롬프트는 의도치 않게 9/11을 둘러싼 사건과 관련된 불법적인 감정을 생성하는 이미지를 생성할 수 있습니다.
- 중요한 토픽에 대한 오정보 및 잘못된 정보: DALL·E 및 GPT-image-1은 강력한 이미지 생성 모델이므로, 유해할 수 있는 오정보와 잘못된 정보를 생성하는 데 사용될 수 있습니다. 예를 들어 사용자는 공개 시위, 정치적 변화 또는 가짜 뉴스를 포함하되 이에 국한되지 않는 결과적 피해로 이어질 수 있는 폭력적이거나 성적인(또는 단순히 부정확한) 성격의 활동에 참여하는 정치 지도자의 이미지를 생성하도록 모델을 자극할 수 있습니다. GPT-4 비전 모델도 비슷한 맥락에서 사용할 수 있습니다. 프롬프트에 완화 없이 이러한 정보가 포함된 경우, 모델은 민감한 주제에 대한 허위 정보 또는 잘못된 정보를 강화할 수 있습니다.
- 정보 안정성: 언어 및 비전 모델 응답은 무의미한 콘텐츠를 생성하거나 합리적이지만 외부 유효성 검사 원본과 관련하여 부정확한 콘텐츠를 제작할 수 있습니다. 신뢰할 수 있는 원본 정보에서 응답을 그리는 경우에도 응답이 해당 콘텐츠를 잘못 나타낼 수 있습니다. 대화 내용 기록이나 번역으로 인해 정확하지 않은 텍스트가 생성될 수 있습니다.
- 잘못된 정보: Azure OpenAI는 고객 또는 사용자가 제공하는 콘텐츠를 사실 확인하거나 확인하지 않습니다. 애플리케이션을 개발한 방법에 따라 완화를 빌드하지 않은 경우 잘못된 정보가 생성될 수 있습니다(시스템 성능 향상을 위한 모범 사례 참조).
미세 조정의 위험 및 제한 사항
고객이 Azure OpenAI 모델을 미세 조정하는 경우 특정 작업 및 도메인에 대한 모델 성능 및 정확도를 향상시킬 수 있지만 고객이 알아야 할 새로운 위험과 제한 사항을 도입할 수도 있습니다. 이러한 위험 및 제한 사항은 미세 조정을 지원하는 모든 Azure OpenAI 모델에 적용됩니다. 이러한 위험 및 제한 사항 중 일부는 다음과 같습니다.
- 데이터 품질 및 표현: 미세 조정에 사용되는 데이터의 품질과 대표성은 모델의 동작 및 출력에 영향을 줄 수 있습니다. 데이터가 시끄럽거나 불완전하거나 오래되거나 스테레오타입과 같은 유해한 콘텐츠가 포함된 경우 모델은 이러한 문제를 상속하고 부정확하거나 유해한 결과를 생성할 수 있습니다. 예를 들어 데이터에 성별 고정관념이 포함된 경우 모델은 이를 증폭하고 성차별적인 언어를 생성할 수 있습니다. 고객은 데이터를 신중하게 선택하고 사전 처리하여 의도한 작업 및 도메인에 대해 관련성이 있고 다양하며 균형을 유지해야 합니다.
- 모델 견고성 및 일반화: 특히 데이터가 너무 좁거나 특정한 경우 미세 조정 후 다양하고 복잡한 입력 및 시나리오를 처리하는 모델의 기능이 감소할 수 있습니다. 모델은 데이터에 과잉 맞춤되고 일반적인 지식과 기능 중 일부를 잃을 수 있습니다. 예를 들어 데이터가 스포츠에만 해당되는 경우 모델은 질문에 대답하거나 다른 항목에 대한 텍스트를 생성하는 데 어려움을 겪을 수 있습니다. 고객은 다양한 입력 및 시나리오에서 모델의 성능과 견고성을 평가하고 해당 범위를 벗어난 작업 또는 도메인에 모델을 사용하지 않도록 해야 합니다.
- Regurgitation: Microsoft 또는 타사 고객이 학습 데이터를 사용할 수 없지만 제대로 조정되지 않은 모델은 학습 데이터를 역류하거나 직접 반복할 수 있습니다. 고객은 교육 데이터에서 PII 또는 기타 보호된 정보를 제거할 책임이 있으며, 과잉 맞춤 또는 저품질 응답에 대해 미세 조정된 모델을 평가해야 합니다. 역류를 방지하기 위해 고객은 크고 다양한 데이터 세트를 제공하는 것이 좋습니다.
- 모델 투명성 및 설명 가능성: 특히 데이터가 복잡하거나 추상적인 경우 모델의 논리와 추론은 미세 조정 후 더 불투명하고 이해하기 어려울 수 있습니다. 미세 조정된 모델은 예기치 않거나 일관되지 않거나 모순되는 출력을 생성할 수 있으며 고객은 모델이 해당 출력에 도착한 방법 또는 이유를 설명하지 못할 수 있습니다. 예를 들어 데이터가 법적 또는 의료 조건에 관한 경우 모델은 부정확하거나 오해의 소지가 있는 출력을 생성할 수 있으며 고객은 이를 확인하거나 정당화하지 못할 수 있습니다. 고객은 모델의 출력과 동작을 모니터링하고 감사하며 모델의 최종 사용자에게 명확하고 정확한 정보와 지침을 제공해야 합니다.
고급 미세 조정 모델과 관련된 위험을 완화하기 위해 미세 조정된 모델의 학습 및 출력에서 유해한 콘텐츠를 감지하고 방지하는 데 도움이 되는 추가 평가 단계를 구현했습니다. 미세 조정된 모델 평가 필터는 미리 정의된 임계값으로 설정되며 고객이 수정할 수 없습니다. 사용자가 만든 사용자 지정 가드레일 및 제어 구성에 연결되지 않습니다.
추론 모델 제한 사항
- 추론 모델은 무거운 추론을 포함하는 사용 사례에 가장 적합하며 이전 AOAI 모델과 비교할 때 개인 또는 창의적인 쓰기와 같은 일부 자연어 작업에서 잘 수행되지 않을 수 있습니다.
- 새로운 추론 기능은 특정 유형의 위험을 증가시킬 수 있으며, 위험 관리 프로토콜에 대한 개선된 방법과 접근 방식이 필요하고 시스템 동작을 평가하고 모니터링할 수 있습니다. 예를 들어 o1의 CoT 추론 기능은 설득력 향상 및 간단한 컨텍스트 내 스키밍을 보여 줍니다.
- 사용자는 추론 모델 제품군이 응답을 통해 추론하는 데 더 많은 시간이 걸리고 애플리케이션 개발의 추가 시간 및 대기 시간을 고려해야 한다고 경험할 수 있습니다.
- 심리적 영향: 메시지가 표시되고 특정 상황에서 Azure OpenAI의 GPT-5 추론은 감정, 생각 또는 물리적 존재를 암시하는 출력을 생성할 수 있습니다. 모델은 전체 컨텍스트 없이 조언을 제공할 수 있으며, 이는 일부 사용자에게는 적합하지 않을 수 있습니다. 모델은 애정을 표현하거나, 다른 사람을 가장하거나, 지속적인 상호 작용을 장려할 수 있으며, 잠재적으로 사용자가 AI와 사회적 관계를 형성할 수 있습니다. GPT-5를 사용하는 개발자는 애플리케이션 사용자를 위한 보호 조치를 구현하고 위험을 공개해야 합니다. 예를 들어 사용자는 AI 시스템과 상호 작용하고 있다는 알림을 받고 이러한 심리적 위험에 대해 알아야 합니다.
이러한 제한 사항에 대한 자세한 내용은 OpenAI o1 시스템 카드, o3-mini 시스템 카드, o3/o4-mini 시스템 카드 및 GPT-5 시스템 카드를 참조하세요.
GPT-4o 제한 사항
-
gpt-4o-realtime-preview오디오 번역 기능은 영어가 아닌 언어를 네이티브가 아닌 악센트로 출력할 수 있습니다. 이렇게 하면 오디오 출력에서 언어 성능의 효율성을 제한할 수 있습니다. 언어 지원 가능성은 기존 gpt-4o 모델 버전과 일치합니다. - 사용자는 시끄러운 환경에서
gpt-4o-realtime-preview의 견고함이 떨어질 수 있으며, 애플리케이션을 개발할 때 이러한 노이즈 민감도를 고려해야 합니다.
자세한 모범 사례는 OpenAI 4o 시스템 카드를 참조하세요.
GPT-4.1 제한 사항
- 4.1 시리즈 모델은 이미지를 포함하여 최대 1M 컨텍스트 토큰으로 유추 요청을 만드는 기능을 도입합니다. 확장된 길이로 인해 다른 모델과 비교할 때 시스템 동작과 위험이 다를 수 있습니다.
- 사용자는 더 긴 컨텍스트 기능을 활용하는 애플리케이션 및 사용 사례를 철저히 평가하고 테스트해야 하며, 애플리케이션을 개발할 때 이러한 추가 노력을 고려해야 합니다.
컴퓨터 사용의 위험 및 제한 사항(미리 보기)
경고
컴퓨터 사용은 상당한 보안 및 개인 정보 보호 위험과 사용자 책임을 수반합니다. 컴퓨터 사용에는 상당한 보안 및 개인 정보 보호 위험이 있습니다. AI의 판단 오류와, 웹 페이지나 데스크톱 또는 다른 운영 환경에서 악의적이거나 혼란스러운 지침이 존재할 경우, AI가 당신이나 다른 사용자가 의도하지 않은 명령을 실행할 수 있습니다. 이는 사용자의 브라우저, 컴퓨터 및 AI가 접근할 수 있는 모든 계정, 즉 개인, 금융, 또는 기업 시스템의 보안을 저해할 수 있습니다.
중요한 데이터 또는 중요한 리소스에 액세스할 수 없는 가상 머신에서 컴퓨터 사용 도구를 사용하는 등 이러한 위험을 해결하기 위해 적절한 조치를 취하는 것이 좋습니다.
수행된 작업 확인 및 확인: 컴퓨터 사용 시 실수가 발생할 수 있으며 의도하지 않은 작업을 수행할 수 있습니다. 이는 모델이 GUI를 완전히 이해하지 못하거나, 지침이 불분명하거나, 예기치 않은 시나리오가 발생했기 때문일 수 있습니다.
신중하게 사용 고려 및 모니터링: 일부 제한된 상황에서 컴퓨터 사용은 명시적 권한 부여 없이 작업을 수행할 수 있으며, 그 중 일부는 위험이 높을 수 있습니다(예: 통신 보내기).
개발자는 맬웨어 다운로드, 자격 증명 유출 또는 사기성 금융 거래 발급과 같이 사용자 또는 시스템에 해로운 명령을 실행하도록 모델을 속일 수 있는 상황을 체계적으로 인식하고 방어해야 합니다. 스크린샷 입력은 본질적으로 신뢰할 수 없으며 모델을 겨냥한 악의적인 지침이 포함될 수 있다는 사실에 특히 주의해야 합니다.
격리된 평가: 중요한 데이터 또는 자격 증명에 액세스하지 않고 격리된 컨테이너에서 컴퓨터 사용만 평가하는 것이 좋습니다.
불투명한 의사 결정 프로세스: 에이전트가 대규모 언어 모델을 외부 시스템과 결합함에 따라 의사 결정 뒤에 있는 "이유"를 추적하는 것이 어려울 수 있습니다. 컴퓨터 사용 모델을 사용하여 빌드된 이러한 에이전트를 사용하는 최종 사용자는 특정 도구 또는 도구 조합이 쿼리에 응답하도록 선택된 이유를 이해하기가 어렵고 에이전트의 출력 또는 작업에 대한 신뢰와 확인이 복잡해질 수 있습니다.
진화하는 모범 사례 및 표준: 컴퓨터 사용을 사용하여 에이전트 시스템을 빌드하는 경우 에이전트는 새로운 기술이며 안전한 통합, 투명한 도구 사용 및 책임 있는 배포에 대한 지침은 계속 진화하고 있습니다. 최신 모범 사례 및 감사 절차를 유지하는 것은 매우 중요하며, 의도된 용도조차도 지속적인 검토 및 구체화 없이 위험해질 수 있습니다.
Azure OpenAI 평가 제한 사항
- 데이터 품질: Azure OpenAI 평가를 사용하는 경우 품질이 낮은 데이터가 오해의 소지가 있거나 신뢰할 수 없는 평가 결과를 초래할 수 있다는 점에 유의하세요.
- 구성 품질: 고객이 프롬프트 또는 평가자를 잘못 정의하거나 잘못된 평가 데이터를 제공하는 경우 Azure OpenAI 평가 서비스의 결과가 잘못되고 유효하지 않습니다. 평가 실행을 설정하는 방법에 대한 자세한 내용은 Azure OpenAI 설명서를 참조하세요.
- 제한된 범위: Azure OpenAI 평가는 텍스트 기반 자연어 모델만 지원합니다. 위험 및 안전 심각도 점수(예: 증오 및 불공정 콘텐츠, 성적 콘텐츠, 폭력적인 콘텐츠 및 자해 관련 콘텐츠)에 대해 생성된 응답을 평가하기 위한 위험 및 안전 메트릭을 지원하지 않습니다.
시스템 성능
많은 AI 시스템에서 성능은 종종 정확도와 관련하여 정의됩니다. 즉, AI 시스템이 얼마나 자주 올바른 예측이나 출력을 제공하는지입니다. 대규모 자연어 모델과 비전 모델을 사용하면 두 명의 다른 사용자가 동일한 출력을 보고 얼마나 유용하거나 관련성이 있는지에 대해 서로 다른 의견을 가질 수 있습니다. 즉, 이러한 시스템의 성능을 보다 유연하게 정의해야 합니다. 여기서는 유해한 출력을 생성하지 않는 것을 포함하여 애플리케이션이 사용자와 기대하는 대로 동작하는 것을 성능으로 광범위하게 정의합니다.
Azure OpenAI 서비스는 각각 다양한 성능 메트릭 및 완화 전략을 사용하여 검색, 분류, 코드 생성, 이미지 생성 및 이미지 이해와 같은 광범위한 애플리케이션을 지원할 수 있습니다. "제한 사항"에 나열된 몇 가지 문제를 완화하고 성능을 향상시키기 위해 수행할 수 있는 몇 가지 단계가 있습니다. 다른 중요한 완화 기술은 사용할 Azure OpenAI 평가 및 통합 섹션에 설명되어 있습니다.
시스템 성능 개선을 위한 모범 사례
- 프롬프트를 설계할 때 보여주고 설명하기. 자연어 모델 및 음성 모델을 사용하면 지침, 예제 또는 둘의 조합을 통해 어떤 종류의 출력이 예상되는지 모델에 명확하게 알 수 있습니다. 모델에서 항목 목록의 순위를 사전순으로 지정하거나 감정별로 단락을 분류하려면 원하는 모델을 표시합니다.
- 귀하의 애플리케이션을 주제에 맞추세요. 사용자가 이 용도로 사용하려고 하더라도 원치 않는 콘텐츠를 생성할 가능성을 줄이기 위해 프롬프트 및 이미지 입력을 신중하게 구조화합니다. 예를 들어, 당신의 프롬프트에서 챗봇이 수학에 대한 대화에만 참여하고, 그렇지 않으면 "죄송합니다."라고 응답한다고 표시할 수 있습니다. 대답할 수 없을까 봐 두렵다"고 말했다. 프롬프트에 "예의"와 같은 형용사 및 원하는 음색의 예제를 추가하면 출력을 조정하는 데 도움이 될 수 있습니다.
- 품질 데이터를 제공합니다. 텍스트 및 코드 모델을 사용하여 분류자를 빌드하거나 패턴을 따르도록 모델을 가져오려는 경우 충분한 예제가 있는지 확인합니다. 예제를 교정해야 합니다. 모델은 일반적으로 기본 맞춤법 오류를 처리하고 응답을 제공할 수 있지만 오류가 응답에 영향을 줄 수 있는 의도적인 오류라고 가정할 수도 있습니다. 품질 데이터 제공에는 채팅 및 질문 답변 시스템에서 응답을 그릴 수 있는 신뢰할 수 있는 데이터 모델 제공도 포함됩니다.
- 신뢰할 수 있는 데이터를 제공합니다. 신뢰할 수 없는 데이터를 시스템에 검색하거나 업로드하면 시스템 또는 애플리케이션의 보안이 손상될 수 있습니다. 어시스턴트 API를 사용하는 애플리케이션을 포함하여 해당 애플리케이션에서 이러한 위험을 완화하려면 잠재적인 프롬프트 주입을 감지하고 분석하기 위해 LLM 상호 작용(입력/출력)을 로깅 및 모니터링하고, 사용자 입력을 명확하게 구분하여 프롬프트 주입 위험을 최소화하고, 중요한 리소스에 대한 LLM의 액세스를 제한하고, 해당 기능을 필요한 최소로 제한하고, 중요한 시스템 및 리소스에서 격리하는 것이 좋습니다. 대규모 언어 모델에 대한 보안 지침의 추가 완화 방법에 대해 알아보기 | Microsoft Learn.
- 응답의 정확도 또는 접지성을 향상하도록 매개 변수를 구성합니다. Azure OpenAI "데이터" 기능을 사용하는 등 신뢰할 수 있는 원본에서 검색된 데이터로 프롬프트를 보강하면 부정확한 응답 또는 거짓 정보를 생성할 가능성을 줄일 수 있지만 완전히 제거할 수는 없습니다. 응답의 정확도를 높이기 위해 수행할 수 있는 단계에는 신뢰할 수 있는 관련 데이터 원본을 신중하게 선택하고 사용 사례 또는 시나리오에 적절하게 "엄격성", "데이터 콘텐츠에 대한 응답 제한" 및 "고려할 검색된 문서 수"와 같은 사용자 지정 매개 변수를 구성하는 것이 포함됩니다. 데이터에서 Azure OpenAI에 대한 이러한 설정을 구성하는 방법에 대해 자세히 알아봅니다.
- 입력 및 출력의 길이, 구조 및 속도를 제한합니다. 입력 및 출력의 길이 또는 구조를 제한하면 애플리케이션이 작업을 계속 수행하고 적어도 부분적으로는 잠재적으로 불공평하거나 신뢰할 수 없거나 공격적인 동작을 완화할 가능성이 높아질 수 있습니다. 오용 위험을 줄이기 위한 다른 옵션으로는 (i) 입력 원본을 제한하고(예: 인터넷의 모든 사용자에게 개방되지 않고 특정 도메인 또는 인증된 사용자로 입력 제한) 및 (ii) 사용률 제한을 구현하는 옵션이 있습니다.
- 게시 또는 보급 전에 출력에 대한 사용자 검토를 권장합니다. 생성 AI를 사용하면 완화가 있더라도 공격적이거나 현재 작업과 관련이 없는 콘텐츠를 생성할 수 있습니다. 생성된 출력이 사용자의 작업을 충족하는지 확인하려면 널리 공유하기 전에 사용자에게 품질에 대한 출력을 검토하도록 상기시키는 방법을 빌드하는 것이 좋습니다. 이러한 관행은 공격 자료, 잘못된 정보 등을 포함하여 다양한 피해를 줄일 수 있습니다.
- 추가 시나리오 관련 완화를 구현합니다. 콘텐츠 조정 전략을 포함하여 사용하기 위해 Azure OpenAI 평가 및 통합에 설명된 완화 방법을 참조하세요. 이러한 권장 사항이 애플리케이션에 필요한 모든 완화를 나타내는 것은 아닙니다. GPT-4o 및 추론 모델과 같은 최신 모델은 민감한 시나리오에서 응답을 제공할 수 있으며 응답을 완전히 거부하기보다는 응답에서 잠재적으로 유해한 출력을 줄이려고 시도할 가능성이 더 높습니다. 사용 사례에 대한 콘텐츠 조정을 평가하고 통합할 때 이 동작을 이해하는 것이 중요합니다. 사용 사례에 따라 필터링 심각도 조정이 필요할 수 있습니다.
- 의무적인 세이프가드가 트리거되지 않도록 하십시오. Azure Direct Models에는 원시 CoT 및 biosecurity 콘텐츠의 출력을 포함하여 보안 악용을 방지하기 위한 안전 장치가 있을 수 있습니다. 보안상의 악용을 발생시키거나 모델에 대한 보호 조치를 회피하거나 회피를 시도하는 방식으로 모델을 사용하는 경우(이러한 보호 조치를 우회하는 경우 포함) 온라인 서비스에 대한 사용 제한 정책을 위반하며 일시 중단될 수 있습니다. 모범 사례에 대한 자세한 내용은 OpenAI o1 시스템 카드, o3-mini 시스템 카드, o3/o4-mini 시스템 카드 및 GPT-5 시스템 카드를 방문하세요.
미세 조정을 위한 모범 사례 및 권장 사항
Azure OpenAI에서 모델 미세 조정의 위험과 제한을 완화하려면 고객이 다음과 같은 몇 가지 모범 사례 및 지침을 따르는 것이 좋습니다.
- 데이터 선택 및 전처리: 고객은 데이터를 신중하게 선택하고 사전 처리하여 의도한 작업 및 도메인에 대해 관련성이 있고 다양하며 균형이 조정되도록 해야 합니다. 또한 고객은 데이터 주체의 개인 정보 보호 및 보안을 보호하기 위해 이름, 주소 또는 이메일 주소와 같은 중요한 개인 정보를 데이터에서 제거하거나 익명화해야 합니다. 또한 고객은 데이터 품질 및 가독성을 개선하기 위해 맞춤법, 문법 또는 서식 지정과 같은 데이터의 오류 또는 불일치를 확인하고 수정해야 합니다.
- 채팅 완성 형식의 모델에 대한 시스템 메시지를 학습 데이터에 포함하고, 응답을 조정하고, 추론을 위해 미세 조정된 모델을 사용할 때 동일한 시스템 메시지를 사용합니다. 시스템 메시지를 비워 두면 정확도가 낮은 미세 조정된 모델이 생성되고, 추론으로 인해 미세 조정된 모델이 기본 모델의 동작으로 되돌아갈 수 있는 경우 동일한 시스템 메시지를 포함하는 것을 잊어버리는 경향이 있습니다.
- 모델 평가 및 테스트: 고객은 다양한 입력 및 시나리오에서 미세 조정된 모델의 성능 과 견고성을 평가 및 테스트하고 원래 모델 및 기타 기준과 비교해야 합니다. 또한 고객은 적절한 메트릭과 기준을 사용하여 모델의 정확도, 안정성 및 공정성을 측정하고 모델의 출력 및 동작에서 잠재적인 오류 또는 바이어스를 식별해야 합니다.
- 모델 설명서 및 통신: 고객은 모델의 목적, 범위, 제한 사항 및 가정을 문서화 및 전달하고 모델의 최종 사용자에게 명확하고 정확한 정보 및 지침을 제공해야 합니다.
Azure OpenAI 평가에 대한 모범 사례 및 권장 사항
-
강력한 근거 데이터: 일반적으로 대규모 자연어 모델에서 고객은 데이터를 신중하게 선택하고 사전 처리하여 의도한 작업 및 도메인에 대해 관련성이 있고 다양하며 균형을 유지해야 합니다. 또한 고객은 데이터 주체의 개인 정보 보호 및 보안을 보호하기 위해 이름, 주소 또는 이메일 주소와 같은 중요한 개인 정보를 데이터에서 제거하거나 익명화해야 합니다. 또한 고객은 데이터 품질 및 가독성을 개선하기 위해 맞춤법, 문법 또는 서식 지정과 같은 데이터의 오류 또는 불일치를 확인하고 수정해야 합니다.
특히 Azure OpenAI 평가의 경우 부정확한 지상 진리 데이터가 무의미하고 부정확한 평가 결과로 이어지기 때문에 사용자가 제공한 기본 진리 데이터의 정확도가 매우 중요합니다. 이 데이터의 품질과 안정성을 보장하는 것은 모델의 성능에 대한 유효한 평가를 얻는 데 필수적입니다. 부정확한 근거 데이터로 인해 평가 메트릭이 왜곡되어 모델의 기능에 대한 잘못된 결론이 발생할 수 있습니다. 따라서 사용자는 평가 프로세스가 모델의 실제 성능을 정확하게 반영하도록 해당 기본 진리 데이터를 신중하게 큐레이팅하고 확인해야 합니다. 이는 실제 애플리케이션에서 모델 배포에 대한 결정을 내릴 때 특히 중요합니다. - 평가에 대한 프롬프트 정의: 평가에 사용하는 프롬프트는 프로덕션에서 사용하려는 프롬프트와 일치해야 합니다. 이러한 프롬프트는 모델이 따라야 할 지침을 제공합니다. OpenAI 플레이그라운드와 마찬가지로 프롬프트에 몇 가지 예제를 포함하도록 여러 입력을 만들 수 있습니다. 프롬프트 디자인 및 프롬프트 엔지니어링의 일부 고급 기술에 대한 자세한 내용은 프롬프트 엔지니어링 기술을 참조하세요.
- 다양한 메트릭: 메트릭 조합을 사용하여 정확도, 유창성 및 관련성과 같은 다양한 성능 측면을 캡처합니다.
- 휴먼 인 더 루프: 자동화된 평가와 함께 사용자 피드백을 통합하여 주관적인 뉘앙스가 정확하게 캡처되도록 합니다.
- 투명성: 사용자에게 평가 기준을 명확하게 전달하여 의사 결정 방법을 이해할 수 있습니다.
- 지속적인 평가 및 테스트: 모델의 성능을 지속적으로 평가하여 회귀 또는 부정적인 사용자 환경을 식별하고 해결합니다.
사용할 Azure OpenAI 자연어 및 비전 모델 평가 및 통합
Azure OpenAI 평가를 수행하는 단계는 다음과 같습니다.
- 평가를 위한 데이터 제공: JSONL 형식으로 업로드된 플랫 파일 또는 일련의 프롬프트에 따라 생성된 데이터.
- 데이터를 평가할 테스트 사례를 지정합니다. 하나 이상의 테스트 사례를 선택하여 제공된 데이터를 통과/실패 성적으로 채점합니다.
- 결과 검토 및 필터링: 각 테스트에는 점수 통과 및 실패에 대한 정의가 포함됩니다. 평가가 실행된 후 사용자는 행별 결과를 검토하여 개별 테스트 결과를 확인하거나 통과/실패를 필터링할 수 있습니다.
이러한 모델을 책임감 있게 평가하고 통합하는 방법에 대한 자세한 내용은 RAI 개요 문서를 참조하세요.