Udostępnij przez


Wdróż dostosowany model do wnioskowania

Po dostrojeniu modelu możesz wdrożyć model i użyć go we własnej aplikacji.

Kiedy wdrażasz model, udostępniasz go do wnioskowania, co wiąże się z godzinową opłatą za hosting. Jednak dostrojone modele można przechowywać w usłudze Microsoft Foundry bez ponoszenia kosztów, dopóki nie będzie można ich używać.

Usługa Azure OpenAI udostępnia opcje typów wdrożeń dla dostosowanych modeli na strukturze hostingu odpowiedniej dla różnych wzorców biznesowych i użycia: Standard, Global Standard (wersja zapoznawcza) i Przepływność zarezerwowana (wersja zapoznawcza). Dowiedz się więcej na temat typów wdrożeń dla dostosowanych modeli i pojęć dotyczących wszystkich typów wdrożeń.

Wdrażaj dostrojony model

Aby wdrożyć model niestandardowy, wybierz model niestandardowy do wdrożenia, a następnie wybierz pozycję Wdróż.

Zostanie otwarte okno dialogowe Wdrażanie modelu . W oknie dialogowym wprowadź nazwę wdrożenia , a następnie wybierz pozycję Utwórz , aby rozpocząć wdrażanie modelu niestandardowego.

Zrzut ekranu przedstawiający sposób wdrażania modelu niestandardowego w portalu Foundry.

Postęp wdrażania można monitorować w okienku Wdrożenia w portalu Foundry.

Interfejs użytkownika nie obsługuje wdrażania między regionami, a zestaw SDK języka Python lub interfejs REST obsługuje.

Important

Po wdrożeniu dostosowanego modelu, jeśli w dowolnym momencie wdrożenie pozostanie nieaktywne przez ponad piętnaście (15) dni, wdrożenie zostanie usunięte. Wdrożenie dostosowanego modelu jest nieaktywne, jeśli model został wdrożony ponad piętnaście (15) dni temu i nie wykonano do niego żadnych wywołań ani ukończeń czatu w ciągu nieprzerwanego 15-dniowego okresu.

Usunięcie nieaktywnego wdrożenia nie powoduje usunięcia lub wpływu na bazowy dostosowany model, a dostosowany model można wdrożyć ponownie w dowolnym momencie. Zgodnie z opisem w Azure OpenAI w Microsoft Foundry Models — cennik, każdy dostosowany (dostrojony) model, który został wdrożony, wiąże się z kosztem hostingu naliczanym godzinowo, bez względu na to, czy do modelu są wysyłane żądania ukończeń lub żądania ukończeń czatu. Aby dowiedzieć się więcej na temat planowania kosztów i zarządzania nimi za pomocą usługi Azure OpenAI, zapoznaj się ze wskazówkami w artykule Planowanie zarządzania kosztami usługi Azure OpenAI.

Użyj wdrożonego, dostosowanego modelu

Po wdrożeniu modelu niestandardowego można go użyć jak każdy inny wdrożony model. Możesz użyć placu zabaw w portalu Foundry , aby eksperymentować z nowym wdrożeniem. Możesz nadal używać tych samych parametrów z modelem niestandardowym, takich jak temperature i max_tokens, podobnie jak w przypadku innych wdrożonych modeli.

Zrzut ekranu przedstawiający okienko Plac zabaw w portalu Foundry z wyróżnionymi sekcjami.

Buforowanie komunikatów

Dostrajanie interfejsu Azure OpenAI obsługuje buforowanie monitów z wybranymi modelami. Buforowanie monitów pozwala zmniejszyć ogólne opóźnienie żądań i koszt dłuższych monitów, które mają identyczną zawartość na początku monitu. Aby dowiedzieć się więcej na temat buforowania monitów, zobacz Wprowadzenie do buforowania monitów.

Typy wdrożeń

Dostrajanie Azure OpenAI obsługuje następujące typy wdrożeń.

Standard

Wdrożenia standardowe zapewniają model rozliczeń z płatnością za token z miejscem przechowywania danych ograniczonym do wdrożonego regionu.

Models Wschodnie stany USA 2 Północno-środkowe stany USA Szwecja Środkowa
o4-mini
GPT-4.1
GPT-4.1-mini
GPT-4.1-nano
GPT-4o
GPT-4o-mini

Standardowa globalna

Wdrożenia zgodne z globalnym standardem zapewniają oszczędności kosztów, ale niestandardowe wagi modeli mogą być tymczasowo przechowywane poza lokalizacją zasobu Azure OpenAI.

Globalne wdrożenia standardowe są dostępne we wszystkich regionach usługi Azure OpenAI dla następujących modeli:

  • o4-mini
  • GPT-4.1
  • GPT-4.1-mini
  • GPT-4.1-nano
  • GPT-4o
  • GPT-4o-mini

Zrzut ekranu przedstawiający doświadczenie użytkownika wdrażania globalnego standardowego modelu z precyzyjnie dostosowanym modelem.

Warstwa dewelopera

Wdrożenia deweloperów dostrojone oferują podobne środowisko jak Global Standard bez opłaty za hosting godzinowy, ale nie oferują umowy SLA dotyczącej dostępności. Wdrożenia deweloperów są przeznaczone do oceny kandydata na model, a nie do użytku produkcyjnego.

Wdrożenia deweloperów są dostępne we wszystkich regionach usługi Azure OpenAI dla następujących modeli:

  • GPT-4.1
  • GPT-4.1-mini
  • GPT-4.1-nano
  • o4-mini

Aprowizowana przepływność

Models Północno-środkowe stany USA Szwecja Środkowa
GPT-4.1
GPT-4o
GPT-4o-mini

Wdrożenia z aprowizowaną przepływnością zapewniają przewidywalną wydajność dla agentów i aplikacji wrażliwych na opóźnienia. Używają one tej samej regionalnej pojemności aprowizowanej przepływności (PTU) co modele podstawowe, więc jeśli masz już regionalny limit PTU, możesz wdrożyć dostosowany model w regionach wsparcia.

Wyczyść swoje wdrożenie

Aby usunąć wdrożenie, użyj polecenia Deployments — Delete REST API (Wdrożenia — usuwanie interfejsu API REST ) i wyślij polecenie HTTP DELETE do zasobu wdrożenia. Podobnie jak w przypadku tworzenia wdrożeń, należy uwzględnić następujące parametry:

  • Identyfikator subskrypcji Azure
  • Nazwa grupy zasobów platformy Azure
  • Nazwa zasobu usługi Azure OpenAI
  • Nazwa wdrożenia do usunięcia

Poniżej przedstawiono przykład interfejsu API REST w celu usunięcia wdrożenia:

curl -X DELETE "https://management.azure.com/subscriptions/<SUBSCRIPTION>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.CognitiveServices/accounts/<RESOURCE_NAME>/deployments/<MODEL_DEPLOYMENT_NAME>?api-version=2024-10-21" \
  -H "Authorization: Bearer <TOKEN>"

Możesz również usunąć wdrożenie w portalu Foundry lub użyć interfejsu wiersza polecenia platformy Azure.

Dalsze kroki