備註
本文件指的是 Microsoft Foundry(新) 入口網站。
小提示
如需布建輸送量供應專案最近變更的詳細資訊,請參閱 更新文章 以取得詳細資訊。
Microsoft Foundry 的配置吞吐量是一種模型部署類型,允許你指定模型部署所需的吞吐量。 Foundry 接著會配置必要的模型處理容量,並確認可供您使用。 您可以在 Azure 直接銷售的各種模型組合中使用您所要求的預配置吞吐量。 這些模型包括 Azure OpenAI 模型,以及新推出的旗艦模型家族,如 Azure DeepSeek、Azure Grok、Azure Llama 等,皆在 Foundry Models 中推出。
配置的吞吐量提供:
- 最新旗艦模型的更廣模型選擇
- 切換模型和部署的彈性,配合指定的吞吐量配額
- 使用具有彈性的預訂選項可獲得大幅折扣,並提升預訂使用率的能力。
- 可預測的效能,為統一工作負載提供穩定的最大延遲和輸送量。
- 配置的處理容量:部署會設定輸送量。 部署之後,不論是否使用,都會提供該輸送量。
- 節省成本:高輸送量工作負載有機會節省成本 (相較於權杖型使用量)。
小提示
- 當您購買 Microsoft Foundry 佈建的輸送量保留時,您可以節省更多成本。
- 布建的預配置吞吐量可作為下列部署類型:全域預配置、數據區域預配置及區域預配置。
使用布建輸送量的時機
當您有妥善定義、可預測的輸送量和延遲需求時,您應該考慮從標準部署切換到布建的輸送量部署。 一般而言,當應用程式準備好用於生產環境或已部署在生產環境中,且了解預期的流量時,就會發生這種情況。 這可讓使用者準確地預測所需的容量,並避免非預期的計費。 設定的吞吐量部署也適用於具有即時或對延遲敏感需求的應用程式。
重要概念
下列各節說明在使用布建的輸送量供應項目時應該注意的重要概念。
佈建的輸送量單位 (PTU)
佈建的輸送量單位 (PTU) 是模型處理容量的一般單位,可用來調整佈建部署的大小,以達到處理提示和產生完成所需的輸送量。 佈建的輸送量單位會以配額的形式授與訂用帳戶,且用於定義成本。 每個配額都專屬於某個區域,並定義可指派給該訂用帳戶和區域中部署的 PTU 數目上限。
共用 PTU 保留下的成本管理
您可以使用 PTU 功能,在共用 PTU 保留下順暢地管理 Foundry 模型的成本。 不過,部署和輸送量效能所需的 PTU 單位會根據所選模型動態量身打造。 若要深入瞭解 PTU 成本和模型延遲點,請參閱 瞭解與 PTU 相關聯的成本。
現有 PTU 保留專案會自動升級,讓客戶能夠更有效率地部署 Foundry 模型,同時節省成本。 例如,假設您有購買了 500 個 PTU 的現有 PTU 保留。 您針對 Azure OpenAI 模型使用 300 個單位,並選擇也使用 PTU 來部署 Azure DeepSeek、Azure Llama 或其他在 Foundry Models 上具有 PTU 功能的模型。
如果您將剩餘的 200 PTU 用於 DeepSeek-R1,則這 200 PTU 會自動共享預訂折扣,讓預訂的總使用量達到 500 PTU。
如果您在 DeepSeek-R1 上使用 300 PTU,則有 200 PTU 會自動享有預訂折扣,而超過預訂的 100 PTU 則按 DeepSeek-R1 的每小時費率計費。
想了解如何透過 PTU 預留節省成本,請參閱「 使用 Microsoft Foundry 預備吞吐量預留節省成本」。
部署類型
當你在 Foundry 中建立已配置部署時,「建立部署」對話框中的部署類型可根據特定工作負載的資料處理需求,設定為全域配置吞吐量、資料區域配置吞吐量或區域配置吞吐量部署類型。
當你在 Foundry 透過 CLI 或 API 建立配置部署時, sku-name 可以根據特定工作負載的資料處理需求,設定為 GlobalProvisionedManaged、 DataZoneProvisionedManaged或 ProvisionedManaged 。
| 部署類型 | CLI 中的「sku-name」 |
|---|---|
| 全域預配置的吞吐量 | GlobalProvisionedManaged |
| 資料區域佈建的輸送量 | DataZoneProvisionedManaged |
| 區域預配置吞吐量 | ProvisionedManaged |
若要將下列 Azure CLI 範例命令調整為不同的部署類型,請更新 sku-name 參數以符合您想要部署的部署類型。
az cognitiveservices account deployment create \
--name <myResourceName> \
--resource-group <myResourceGroupName> \
--deployment-name MyDeployment \
--model-name gpt-4o \
--model-version 2024-08-06 \
--model-format OpenAI \
--sku-capacity 15 \
--sku-name GlobalProvisionedManaged
容量透明度
Azure 直接銷售的模型是備受追捧的服務,其中客戶需求可能超過服務 GPU 容量。 Microsoft 努力為所有需求區域和模型提供容量,但總是有可能在某個區域銷售一空。 此條件約束可限制某些客戶在所需區域中建立所需模型、版本或 PTU 數目的部署能力,即使這些客戶在該區域中有可用的配額也一樣。 一般而言:
- 配額會限制可在訂用帳戶和區域中部署的 PTU 數目上限,且不保證容量可用性。
- 容量會在部署時配置,只要部署存在,就會保留容量。 如果服務容量無法使用,部署就會失敗。
- 客戶使用配額/容量可用性的實時資訊,為具有必要模型容量的案例選擇適當的區域。
- 縮小或刪除部署會將容量釋放回區域中。 但如果之後擴大或重新建立部署,則無法保證容量可供使用。
區域容量指引
要查詢部署所需的容量,您可以使用容量 API 或 Foundry 部署工具,藉此提供即時的容量可用性資訊。
在 Foundry 中,部署經驗會識別區域何時缺乏部署該模型所需的容量。 這會查看所需的模型、版本和 PTU 數目。 如果容量無法使用,體驗會指示用戶選取替代區域。
關於部署體驗的詳細資訊,請參閱 Foundry Provisioned 入門指南。
模型容量 API 可用來以程式設計方式識別指定模型的大小上限部署。 API 會考慮您在區域中的配額和服務容量。
如果可接受的區域無法支援所需的模型、版本和/或 PTU,客戶也可以嘗試下列步驟:
- 嘗試以較小的 PTU 數目進行部署。
- 嘗試在不同的時間部署。 容量可用性會根據客戶需求動態變更,之後可能會有更多容量可供使用。
- 確定所有可接受的區域都有可用的配額。 模型容量 API 和 Foundry 體驗會在傳回替代區域以建立部署時考慮配額可用性。
如何監視容量?
Azure 監視器中的 Provisioned-Managed Utilization V2 計量 (部分機器翻譯) 會以 1 分鐘的增量來測量指定的部署使用率。 所有佈建的部署類型都已最佳化,確保接受的呼叫會以一致的模型處理時間進行處理 (實際的端對端延遲取決於呼叫的特性)。
使用率效能的運作方式
佈建的部署為您提供已配置的模型處理容量,用於執行指定的模型。
在所有布建的部署類型中,超過容量時,API 會傳回 429 HTTP 狀態錯誤。 快速回應可讓用戶決定如何管理其流量。 用戶可以將要求重新導向至個別的部署、標準部署實例,或使用重試策略來管理指定的要求。 服務會持續傳回 429 HTTP 狀態代碼,直到使用率低於 100%。
當我收到 429 回應時,該怎麼辦?
429 狀態碼不是錯誤,而是設計的一部分,用來告知使用者指定的部署在某個時間點已全面使用。 藉由提供快速失敗的回應,您可以透過最符合應用程式需求的方式,控制這些情況的處理方式。
回應包含 retry-after-ms 和 retry-after 標頭,用於告知接受下一個呼叫之前須等待的時間。 要如何處理此回應取決於您的應用程式需求。 以下是一些考量:
- 您可以考慮將流量重新導向至其他模型、部署或體驗。 此選項是最低延遲解決方案,因為只要收到 429 訊號就可以採取此動作。 如需有效實作此模式的想法,請參閱這篇社群文章 (英文)。
- 如果您能夠接受較長的每次呼叫延遲,請實作使用者端重試邏輯。 此選項可讓您達到每個 PTU 的最大輸送量。 Foundry 用戶端函式庫內建處理重試的功能。
服務如何決定傳送 429 的時機?
在所有布建的部署類型中,每個要求都會根據其提示大小、預期產生大小和模型個別評估,以判斷其預期的使用率。 此行為與標準部署形成對比,其具有根據估計流量負載的 自定義速率限制行為 。 針對標準部署,如果流量未平均散發,此自定義速率限制行為可能會導致在定義的配額值超過之前產生 HTTP 429 錯誤。
針對佈建的部署,我們會使用流失值區演算法的變化來維持 100% 以下的使用率,同時允許流量中的某些高載。 高階邏輯如下所示:
每位客戶都有一組可在部署上使用的容量
提出要求時:
一。 如果目前的使用率高於 100%,服務會傳回 429 代碼,
retry-after-ms標頭設定為使用率降至 100% 以下所需的時間b。 否則,服務會藉由結合提示權杖、減少任何快取的權杖和呼叫中指定的
max_tokens,估計為要求提供服務所需的增量變更。 客戶可以根據快取權杖的大小,在其提示權杖上收到最多 100% 的折扣。max_tokens如果未指定 參數,服務會估計值。 當實際產生的權杖數目很小時,此估計可能會導致並行存取率低於預期。 若想達到最高的並行存取,請確保max_tokens值盡可能接近真正的產生大小。當要求完成時,現在我們知道呼叫的實際計算成本。 為了確保準確的計量,我們會使用下列邏輯來更正使用率:
一。 如果估計了實際值 >,則會將差異值新增至部署的使用率。
b。 如果實際值 < 估計值,則會減去差異值。
根據部署的 PTU 數目,整體使用率會以連續速率遞減。
備註
在使用率達到 100% 之前會持續接受呼叫。 高載可能只會在短時間內允許超過 100%,但您的流量使用率會逐步回到 100% 上限。
我可以在部署上擁有多少個並行呼叫?
您可以達成的並行呼叫數目取決於每個呼叫的結構 (提示大小、max_tokens 參數等等)。 服務會繼續接受呼叫,直到使用率達到 100%。 若要判斷並行呼叫的近似數目,您可以在容量計算機中,針對特定呼叫結構建立每分鐘最大要求數的模型。 如果系統產生小於為 max_tokens 參數設定的輸出語彙基元數目,則佈建的部署將會接受更多要求。
Azure 直接銷售模型的佈建輸送量功能
本節列出支援布建輸送量功能的 Foundry 模型。 您可以在資料表中顯示的模型間使用 PTU 配額和 PTU 保留。
以下是表中一些重要的要點:
此表格中未包含模型版本。 在 Foundry 入口網站選擇部署選項時,請查看每個模型支援的版本。
區域提供的預置吞吐量部署選項會因地區而異。
Azure 直接銷售的新模型會先使用全域佈建的輸送量部署選項來上線。 資料區域佈建的選項稍後推出。
PTU 會依地區和供應項目類型進行管理。 PTU 配額和任何保留都必須位於您想要使用的區域和圖形 (全域、資料區域、區域) 中。
溢出是一項選擇性功能,可管理布建部署上的流量波動。 如需有關溢出的詳細資訊,請參閱 使用已配置的部署來管理流量的溢出。
| 模型系列 | 模型名稱 | 全域佈建 | 資料區域佈建 | 區域佈建 | 溢出功能 |
|---|---|---|---|---|---|
| Azure OpenAI | GPT-5 | ✅ | ✅ | ✅ | |
| GPT 4.1 | ✅ | ✅ | ✅ | ✅ | |
| Gpt 4.1 mini | ✅ | ✅ | ✅ | ✅ | |
| Gpt 4.1 納米 | ✅ | ✅ | ✅ | ✅ | |
| GPT 4o | ✅ | ✅ | ✅ | ✅ | |
| Gpt 4o mini | ✅ | ✅ | ✅ | ✅ | |
| Gpt 3.5 渦輪增壓 | ✅ | ✅ | ✅ | ✅ | |
| o1 | ✅ | ✅ | ✅ | ✅ | |
| O3 mini | ✅ | ✅ | ✅ | ✅ | |
| O4 mini | ✅ | ✅ | ✅ | ✅ | |
| Azure DeepSeek | DeepSeek-R1 | ✅ | |||
| DeepSeek-V3-0324 | ✅ | ||||
| DeepSeek-R1-0528 | ✅ |
佈建輸送量功能的區域可用性
全域預置吞吐量模型可用性
| 區域 | GPT-5.1,2025-11-13 | GPT-5.1-Codex,2025-11-13 | gpt-5, 2025-08-07 | gpt-5-mini, 2025-08-07 | o3, 2025-04-16 | o4-mini, 2025-04-16 | gpt-4.1, 2025-04-14 | gpt-4.1-nano, 2025-04-14 | gpt-4.1-mini, 2025-04-14 | o3-mini, 2025-01-31 | o1, 2024-12-17 | gpt-4o,2024-05-13 | gpt-4o,2024-08-06 | gpt-4o, 2024-11-20 | gpt-4o-mini, 2024-07-18 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| australiaeast | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| brazilsouth(巴西南部) | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| canadacentral | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| canadaeast | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| centralus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus2 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| francecentral | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 德國西中部 | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| italynorth | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| japaneast | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| koreacentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| northcentralus | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 挪威東部 | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 波蘭中心 | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southafricanorth | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southcentralus | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southeastasia | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 南印度 | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| spaincentral | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 瑞典central | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| switzerlandnorth | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| switzerlandwest | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| uaenorth | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| uksouth | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| westeurope | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 維斯特斯 | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus3 | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
備註
提供的gpt-4版本:turbo-2024-04-09 目前僅限於文字。
相關內容
- 了解已佈建部署的上線步驟 (部分機器翻譯)
- 佈建的輸送量單位 (PTU) 使用者入門指南