엔드포인트에 모델 배포

완료됨

생성형 AI 앱을 개발하는 경우 언어 모델을 애플리케이션에 통합해야 합니다. 언어 모델을 사용하려면 모델을 배포해야 합니다. 모델을 배포하는 이유를 먼저 이해한 후 Microsoft Foundry에서 언어 모델을 배포하는 방법을 살펴보겠습니다.

모델을 배포하는 이유

일부 입력에 따라 출력을 생성하도록 모델을 학습합니다. 모델에서 값을 얻으려면 모델에 입력을 보낼 수 있는 솔루션이 필요합니다. 이 솔루션은 모델에서 처리한 후 출력이 시각화됩니다.

생성 AI 앱을 사용하는 가장 일반적인 솔루션 유형은 모델에서 처리하는 사용자 질문을 예상하여 적절한 응답을 생성하는 채팅 애플리케이션입니다. 그러면 응답이 해당 질문에 대한 응답으로 사용자에게 시각화됩니다.

엔드포인트에 배포된 모델에서 처리 중인 사용자 질문의 다이어그램입니다.

엔드포인트에 모델을 배포하여 언어 모델을 채팅 애플리케이션과 통합할 수 있습니다. 엔드포인트는 배포된 모델이나 서비스에 액세스할 수 있는 특정 URL입니다. 각 모델 배포에는 일반적으로 고유한 엔드포인트가 있으며, 이를 통해 다양한 애플리케이션이 API(애플리케이션 프로그래밍 인터페이스)를 통해 모델과 통신할 수 있습니다.

사용자가 질문을 할 때:

  1. API 요청이 엔드포인트로 전송됩니다.
  2. 엔드포인트는 요청을 처리하는 모델을 지정합니다.
  3. 결과는 API 응답을 통해 앱으로 다시 전송됩니다.

모델을 배포하려는 이유를 이해했으므로 이제 Microsoft Foundry를 사용하여 배포 옵션을 살펴보겠습니다.

Microsoft Foundry를 사용하여 언어 모델 배포

Microsoft Foundry를 사용하여 언어 모델을 배포하는 경우 배포하려는 모델에 따라 몇 가지 형식을 사용할 수 있습니다.

배포 옵션은 다음과 같습니다.

  • 표준 배포: 모델은 Microsoft Foundry 프로젝트 리소스에서 호스트됩니다.
  • 서버리스 컴퓨팅: 모델은 Microsoft Foundry 허브 프로젝트의 Microsoft 관리 전용 서버리스 엔드포인트에서 호스트됩니다.
  • 관리형 컴퓨팅: 모델은 Microsoft Foundry 허브 프로젝트의 관리형 가상 머신 이미지에서 호스트됩니다.

관련 비용은 배포하는 모델 유형, 선택한 배포 옵션 및 모델에서 수행하는 작업에 따라 달라집니다.

표준 배포 서버리스 컴퓨팅 관리되는 컴퓨팅
지원되는 모델 Microsoft Foundry 모델(Azure OpenAI 모델 및 서비스 모델 포함) 종량제 결제를 지원하는 파운드리 모델 열기 및 사용자 지정 모델
호스팅 서비스 Microsoft Foundry 리소스 허브의 AI 프로젝트 리소스 허브의 AI 프로젝트 리소스
청구 기준 토큰 기반 청구 토큰 기반 청구 컴퓨팅 기반 청구

비고

표준 배포 는 대부분의 시나리오에 권장됩니다.