Microsoft Foundry는 Foundry Services(이전의 Azure AI Services)에서 모델 배포 개념을 사용하여 모델을 사용할 수 있도록 합니다. 모델 배포는 Azure 리소스이기도 하며, 만들 때 특정 구성에서 지정된 모델에 대한 액세스 권한을 부여합니다. 이러한 구성에는 요청을 처리하는 데 필요한 인프라가 포함됩니다.
Foundry 모델은 고객에게 비즈니스 및 사용 패턴에 맞는 호스팅 구조 선택을 제공합니다. 이러한 옵션은 Foundry 리소스의 모델 배포 시간에 사용할 수 있는 다양한 배포 유형(또는 SKU)으로 변환됩니다.
이 서비스는 표준 배포와 프로비전의 두 가지 주요 배포 유형을 제공합니다. 지정된 배포 유형의 경우 고객은 워크로드를 데이터 처리 요구 사항에 맞출 수 있습니다. Azure 지리(Standard 또는 Provisioned-Managed), Microsoft에서 지정한 데이터 영역(DataZone- Standard 또는) 또는 DataZone Provisioned-Managed전역(Global-Standard 또는 Global Provisioned-Managed) 처리 옵션을 선택할 수 있습니다.
미세 조정된 모델의 경우 추가 Developer 배포 유형은 데이터 상주 없이 비용 효율적인 사용자 지정 모델 평가 수단을 제공합니다.
모든 배포는 정확히 동일한 유추 작업을 수행할 수 있지만 청구, 규모 및 성능은 상당히 다릅니다. 솔루션 디자인의 일부로 다음 두 가지 범주로 주요 결정을 내려야 합니다.
- 데이터 처리 위치
- 통화 볼륨
Foundry 배포 데이터 처리 위치
표준 배포의 경우 전역, 데이터 영역 및 Azure 지리 중에서 선택할 수 있는 세 가지 배포 유형 옵션이 있습니다. 프로비전된 배포의 경우 전역 및 Azure 지역이라는 두 가지 배포 유형 옵션 중에서 선택할 수 있습니다. 글로벌 표준을 시작점으로 사용하는 것이 좋습니다.
전역 배포
글로벌 배포는 Azure의 글로벌 인프라를 사용하여 고객의 유추 요청에 가장 적합한 가용성으로 고객 트래픽을 데이터 센터로 동적으로 라우팅합니다. 즉, 전역은 가장 높은 초기 처리량 제한 및 최상의 모델 가용성을 제공하지만 작동 시간 SLA와 짧은 대기 시간을 제공합니다. 표준 및 글로벌 표준에서 지정된 사용 계층을 초과하는 대량 워크로드의 경우 대기 시간 변동이 증가할 수 있습니다. 대규모 워크로드 사용 시 대기 시간 차이가 낮아야 하는 고객의 경우 프로비전된 배포 유형을 사용하는 것이 좋습니다.
글로벌 배포는 모든 새 모델 및 기능의 첫 번째 위치입니다. 통화 볼륨에 따라 볼륨이 크고 대기 시간 차이가 낮은 고객은 프로비전된 배포 유형을 고려해야 합니다.
데이터 영역 배포
Global이라는 레이블이 지정된 배포 유형의 경우 관련 Foundry 모델이 배포된 모든 지역에서 프롬프트 및 응답을 처리할 수 있습니다. Azure에서 직접 판매하는 Foundry 모델의 "배포 유형별 모델 지역 가용성" 섹션에서 자세히 알아봅니다.
DataZone으로 레이블이 지정된 배포 유형의 경우 Microsoft에서 정의한 대로 지정된 데이터 영역 내의 모든 지역에서 프롬프트 및 응답을 처리할 수 있습니다. 미국에 있는 Foundry 리소스에 DataZone 배포를 만드는 경우 미국 내 어디에서나 프롬프트 및 응답이 처리될 수 있습니다. 유럽 연합 회원국에 있는 Foundry 리소스에 DataZone 배포를 만드는 경우 해당 또는 다른 유럽 연합 회원국에서 프롬프트 및 응답이 처리될 수 있습니다.
전역 및 DataZone 배포 유형 모두에 대해 업로드된 데이터와 같이 미사용 상태로 저장된 모든 데이터는 고객이 지정한 지역에 저장됩니다. 고객이 Foundry 리소스에서 Global 또는 DataZone 배포 유형을 사용하는 경우 처리 위치만 영향을 받습니다. Azure 데이터 처리 및 규정 준수 약정은 적용 가능한 상태로 유지됩니다.
비고
글로벌 표준 및 데이터 영역 표준 배포 유형을 사용하면 주 지역에서 서비스 중단이 발생하는 경우 처음에 이 지역으로 라우팅된 모든 트래픽이 영향을 받습니다. 자세한 내용은 비즈니스 연속성 및 재해 복구 가이드를 참조하세요.
글로벌 표준
- 코드의 SKU 이름:
GlobalStandard
중요합니다
미사용 상태로 저장된 데이터는 지정된 Azure 지역에 남아 있습니다. 그러나 모든 Foundry 위치에서 유추를 위해 데이터를 처리할 수 있습니다. 데이터 보존에 대해 자세히 알아보기.
전역 배포는 전역이 아닌 배포 유형과 동일한 Foundry 리소스에서 사용할 수 있습니다. 그러나 Azure의 글로벌 인프라를 사용하여 각 요청에 가장 적합한 가용성으로 트래픽을 데이터 센터로 동적으로 라우팅할 수 있습니다. Global Standard는 가장 높은 기본 할당량을 제공하며 여러 리소스에서 부하를 분산할 필요가 없습니다.
일관된 볼륨이 높은 고객은 대기 시간 가변성이 더 커질 수 있습니다. 임계값은 모델별로 설정됩니다. 자세한 내용은 할당량 페이지를 참조하세요. 대규모 워크로드 사용 시 대기 시간 차이가 낮은 애플리케이션의 경우 프로비전된 처리량을 구매하는 것이 좋습니다.
글로벌 표준 배포는 종량제 유연성을 통해 안정적이고 고속 성능을 위해 우선 순위 처리를 사용할 수 있도록 지원합니다. 자세한 내용은 Foundry 모델에 대한 우선 순위 처리(미리 보기)를 참조하세요.
전 세계적으로 설정됨
- 코드의 SKU 이름:
GlobalProvisionedManaged
중요합니다
미사용 상태로 저장된 데이터는 지정된 Azure 지역에 남아 있습니다. 그러나 모든 Foundry 위치에서 유추를 위해 데이터를 처리할 수 있습니다. 데이터 보존에 대해 자세히 알아보기.
전역 배포는 전역이 아닌 배포 유형과 동일한 Foundry 리소스에서 사용할 수 있습니다. 그러나 Azure의 글로벌 인프라를 사용하여 각 요청에 가장 적합한 가용성으로 트래픽을 데이터 센터로 동적으로 라우팅할 수 있습니다. 전역 프로비저닝된 배포는 Azure 글로벌 인프라를 사용하여 높고 예측 가능한 처리량을 위한 예약된 모델 처리 용량을 제공합니다.
전역 일괄 처리
- 코드의 SKU 이름:
GlobalBatch
중요합니다
미사용 상태로 저장된 데이터는 지정된 Azure 지역에 남아 있습니다. 그러나 모든 Foundry 위치에서 유추를 위해 데이터를 처리할 수 있습니다. 데이터 보존에 대해 자세히 알아보기.
글로벌 일괄 처리 는 대규모 및 대용량 처리 작업을 효율적으로 처리하도록 설계되었습니다. 개별 할당량 및 24시간 목표 소요 시간을 사용하여 글로벌 표준보다 50% 더 적은 비용으로 비동기 요청 그룹을 처리할 수 있습니다. 일괄 처리를 사용하면 한 번에 하나의 요청을 보내는 대신 단일 파일에서 많은 수의 요청을 보냅니다. 글로벌 Batch 요청에는 별도의 대기열에 배정된 토큰 할당량이 있어 온라인 워크로드의 중단을 방지할 수 있습니다.
주요 사용 사례는 다음과 같습니다.
- 대규모 데이터 처리: 광범위한 데이터 세트를 병렬로 신속하게 분석합니다.
- 콘텐츠 생성: 제품 설명 또는 문서와 같은 대량의 텍스트를 만듭니다.
- 문서 검토 및 요약: 긴 문서의 검토 및 요약을 자동화합니다.
- 고객 지원 자동화: 더 빠른 응답을 위해 동시에 수많은 쿼리를 처리합니다.
- 데이터 추출 및 분석: 방대한 양의 구조화되지 않은 데이터에서 정보를 추출하고 분석합니다.
- NLP(자연어 처리) 작업: 대규모 데이터 세트에 대한 감정 분석 또는 번역과 같은 작업을 수행합니다.
- 마케팅 및 개인 설정: 대규모로 개인 설정된 콘텐츠 및 권장 사항을 생성합니다.
데이터 영역 표준
- 코드의 SKU 이름:
DataZoneStandard
중요합니다
미사용 상태로 저장된 데이터는 지정된 Azure 지역에 남아 있습니다. 그러나 Microsoft에서 지정한 데이터 영역 내의 모든 Foundry 위치에서 유추를 위해 데이터를 처리할 수 있습니다. 데이터 보존에 대해 자세히 알아보기.
데이터 영역 표준 배포는 다른 모든 Foundry 배포 유형과 동일한 Foundry 리소스에서 사용할 수 있습니다. 그러나 Azure의 글로벌 인프라를 사용하여 각 요청에 대한 최상의 가용성으로 Microsoft 정의 데이터 영역 내의 데이터 센터로 트래픽을 동적으로 라우팅할 수 있습니다. 데이터 영역 표준은 Azure 지리 기반 배포 유형보다 더 높은 기본 할당량을 제공합니다.
일관된 볼륨이 높은 고객은 대기 시간 가변성이 더 커질 수 있습니다. 임계값은 모델별로 설정됩니다. 자세한 내용은 할당량 및 제한 페이지를 참조하세요. 대용량에서 짧은 대기 시간 차이가 필요한 워크로드의 경우 프로비전된 배포 제품을 사용하는 것이 좋습니다.
데이터 영역 표준 배포는 종량제 유연성을 통해 안정적이고 고속 성능을 위해 우선 순위 처리를 사용할 수 있도록 지원합니다. 자세한 내용은 Foundry 모델에 대한 우선 순위 처리(미리 보기)를 참조하세요.
프로비전된 데이터 영역
- 코드의 SKU 이름:
DataZoneProvisionedManaged
중요합니다
미사용 상태로 저장된 데이터는 지정된 Azure 지역에 남아 있습니다. 그러나 Microsoft에서 지정한 데이터 영역 내의 모든 Foundry 위치에서 유추를 위해 데이터를 처리할 수 있습니다. 데이터 보존에 대해 자세히 알아보기.
데이터 영역 프로비전된 배포는 다른 모든 Foundry 배포 유형과 동일한 Foundry 리소스에서 사용할 수 있습니다. 그러나 Azure의 글로벌 인프라를 사용하여 각 요청에 가장 적합한 가용성으로 Microsoft에서 지정한 데이터 영역 내의 데이터 센터로 트래픽을 동적으로 라우팅할 수 있습니다. 데이터 영역 프로비전된 배포는 Microsoft에서 지정한 데이터 영역 내에서 Azure 인프라를 사용하여 높고 예측 가능한 처리량을 위한 예약된 모델 처리 용량을 제공합니다.
데이터 영역 일괄 처리
- 코드의 SKU 이름:
DataZoneBatch
중요합니다
미사용 상태로 저장된 데이터는 지정된 Azure 지역에 남아 있습니다. 그러나 Microsoft에서 지정한 데이터 영역 내의 모든 Foundry 위치에서 유추를 위해 데이터를 처리할 수 있습니다. 데이터 보존에 대해 자세히 알아보기.
데이터 영역 일괄 처리 배포는 전역 Batch 배포와 동일한 기능을 모두 제공합니다. 그러나 Azure의 글로벌 인프라를 사용하여 각 요청에 대해 최상의 가용성을 갖춘 Microsoft 정의 데이터 영역 내의 데이터 센터에만 트래픽을 동적으로 라우팅할 수 있습니다.
스탠다드
- 코드의 SKU 이름:
Standard
표준 배포는 선택한 모델에 대해 호출당 지불 청구 모델을 제공합니다. 이 모델은 사용하는 항목에 대해서만 요금을 지불하기 때문에 빠르게 시작할 수 있습니다. 각 지역 및 처리량에서 사용할 수 있는 모델은 제한될 수 있습니다.
표준 배포는 버스트가 높은 중형 볼륨 워크로드에 최적화되어 있습니다. 일관된 볼륨이 높은 고객은 대기 시간 가변성이 더 커질 수 있습니다.
지역 설정됨
- 코드의 SKU 이름:
ProvisionedManaged
지역 프로비전된 배포를 사용하면 배포에 필요한 처리량을 지정할 수 있습니다. 그런 다음 서비스는 필요한 모델 처리 용량을 할당하고 준비가 되었는지 확인합니다. 처리량은 배포의 처리량을 나타내는 정규화된 방법인 프로비전된 처리량 단위 측면에서 정의됩니다. 각 모델-버전 쌍을 배포하려면 프로비전된 처리량 단위의 양이 서로 다르고 프로비전된 처리량 단위당 처리량의 양이 다릅니다. 프로비전된 처리량 개념에 대한 문서에서 자세히 알아봅니다.
구독에서 전체 전역 배포에 대한 액세스 비활성화
Azure Policy는 조직 표준을 적용하고 대규모 규정 준수를 평가하는 데 도움이 됩니다. 규정 준수 대시보드를 통해 리소스별, 정책별 세분성으로 드릴다운할 수 있는 기능과 함께 환경의 전체 상태를 평가하는 집계된 보기를 제공합니다. 또한 기존 리소스에 대한 대량 수정 및 새 리소스에 대한 자동 수정을 통해 리소스를 규정 준수 상태로 전환할 수 있습니다. Foundry Tools에 대한 Azure Policy 및 특정 기본 제공 컨트롤에 대해 자세히 알아봅니다.
다음 정책을 사용하여 Foundry 배포 유형에 대한 액세스를 사용하지 않도록 설정할 수 있습니다. 특정 배포 유형에 대한 액세스를 비활성화하려면, 비활성화하려는 배포 유형의 SKU 이름으로 GlobalStandard를 바꾸십시오.
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
개발자(미세 조정된 모델용)
- 코드의 SKU 이름:
DeveloperTier
중요합니다
미사용 상태로 저장된 데이터는 지정된 Azure 지역에 남아 있습니다. 그러나 모든 Foundry 위치에서 유추를 위해 데이터를 처리할 수 있습니다. 데이터 보존에 대해 자세히 알아보기.
미세 조정된 모델은 사용자 지정 모델 평가 지원을 위해 설계된 Developer 배포를 지원합니다. 데이터 상주 보장 또는 SLA를 제공하지 않습니다. 배포 유형 사용에 Developer 대한 자세한 내용은 미세 조정 가이드를 참조하세요.
모델 배포
리소스를 만들고 모델을 배포하는 방법에 대한 자세한 내용은 리소스 만들기 가이드를 참조하세요.