How to request an increase for the token limit for GPT-5.1?

Question

How to request an increase for the token limit for GPT-5.1?

Schönwald, Alexander 75

With every new model, the process starts all over again. We would like to use GPT-5.1 enterprise-wide, but 50k tokens per minute are not sufficient for us during peak periods. Can Microsoft not directly grant the token limits promised here to companies that are building solutions? https://learn.microsoft.com/de-de/azure/ai-foundry/openai/quotas-limits?view=foundry-classic&tabs=REST

For each model, we have to go through the same struggle again in the hope of getting a token increase—and for some models we never received one. We have even had increases revoked for models for which we had previously been granted one. Under these conditions, no company can plan and operate professionally with Azure AI Foundry. This concerns just one subscription; we separate dev and stage/prod, so we have to request token increases for both subscriptions every time.

Of course, we do not need the token limit advertised in the link for every model around the clock, but we cannot predict when peaks will occur, and we cannot simply show our users error messages because some token limit has been reached. That destroys the overall acceptance of our AI initiatives. It should also be in Microsoft’s interest that companies can use products and services like Azure AI Foundry professionally to build solutions.

Nonetheless, I tried to request a token increase for GPT-5.1 as well, but regardless of what I select in the form (Azure Direct Model/Azure OpenAI, Global Standard/Data Zone Standard), we never find an option for GPT-5.1. How, then, can we request a token increase for GPT-5.1?

Thank you in advance.

Screenshot 2025-11-24 104308

Screenshot 2025-11-24 105930 Screenshot 2025-11-24 105949

SRILAKSHMI C 11,595 Zuverlässigkeitspunkte Externe Microsoft-Mitarbeiter Moderator

2025-11-26T17:32:44.26+00:00

Hallo Schönwald, Alexander,

Hatten Sie Gelegenheit, die obige Antwort zu lesen? Melden Sie sich bitte, falls Sie weitere Fragen haben.

Vielen Dank!

1 Antwort

Ihre Antwort

SRILAKSHMI C 11,595 Zuverlässigkeitspunkte Externe Microsoft-Mitarbeiter Moderator

2025-11-26T17:32:44.26+00:00

Hallo Schönwald, Alexander,

Hatten Sie Gelegenheit, die obige Antwort zu lesen? Melden Sie sich bitte, falls Sie weitere Fragen haben.

Vielen Dank!

Answer 1

Hallo Schönwald, Alexander,

Willkommen bei Microsoft Q&A,

Vielen Dank für die Details und die Screenshots. Sie verdeutlichen die Situation.

Sie machen nichts falsch. GPT-5.1-Kontingenterhöhungen können derzeit nicht beantragt werden, da das Modell noch nicht in das Azure-Self-Service-Kontingentsystem aufgenommen wurde.

Warum wird GPT-5.1 nicht im Formular zur Kontingenterhöhung angezeigt?

Obwohl GPT-5.1 bereits in Azure AI Foundry bereitgestellt werden kann, wurde das Backend für Kontingentanforderungen noch nicht aktualisiert, um dieses Modell in die Liste der „Globalen Standardmodelle von Azure OpenAI“ aufzunehmen.

Diese Lücke tritt gelegentlich auf, wenn neue Modelle in Foundry veröffentlicht werden, bevor die Kontingent-Workflows aktualisiert sind.

Infolgedessen:

GPT-5.1 wird nicht in der Dropdown-Liste für Kontingentanfragen angezeigt.

Kunden können derzeit keine Standardanfrage zur Kontingenterhöhung für dieses Modell stellen.

Dies ist das erwartete Verhalten und kein Konfigurationsproblem Ihrerseits.

GPT-5.1 verwendet ein anderes Skalierungsmodell.

Modelle der GPT-5-Familie nutzen das neue globale automatische Skalierungssystem von Azure anstelle von strikten, festen Kontingenten. Dies umfasst:

Weiche Kontingentdurchsetzung

Automatische Skalierungsdrosselung basierend auf der regionalen Kapazität

Mandantenweite Glättung anstelle von modellbezogenen Obergrenzen

Die in der Dokumentation angegebenen Höchstgrenzen stellen die maximale Kapazität dar, nicht automatisch gewährte Kontingente.

Azure führt derzeit eine einheitliche Kontingentverwaltung für die GPT-5-Familie ein. Bis zum Abschluss dieser Arbeiten sind manuelle Kontingenterhöhungen für GPT-5.1 über das Standardformular nicht möglich.

Was Sie jetzt tun können:

Erstellen Sie ein Support-Ticket (derzeit der einzige unterstützte Weg).

Bitte erstellen Sie ein Ticket unter:

Dienst: Azure AI Foundry

Problemtyp: Kontingente und Limits

Untertyp: Tokenlimit / Anforderung höherer TPM/RPM-Werte

Bitte geben Sie Folgendes an:

Ihre Abonnement-ID

Region

Modellname: GPT-5.1 (Globaler Standard)

Die benötigten TPM/RPM-Werte

Hinweis: GPT-5.1 wird im Kontingentanforderungsformular nicht angezeigt.

Der Support leitet Ihr Anliegen an das Azure OpenAI-Kapazitätsteam weiter. Dies ist der aktuell für GPT-5.1 erforderliche Workflow.

Den Azure-Entwicklungsteams ist diese Lücke im Portal bereits bekannt.

Wenn Sie für den Produktivbetrieb eine vorhersehbare und stabile Skalierung benötigen

Wenn Ihre Workload eine konsistente, ungedrosselte Leistung erfordert, können Sie Folgendes anfordern:

Reservierung von Data Zone Standard-Kapazität für GPT-5.1

Geben Sie im Ticket Folgendes an:

„Wir benötigen eine PTU-Kapazitätsreservierung für GPT-5.1 unter Data Zone Standard.“

Diese Option bietet garantierten Durchsatz und vermeidet eine Drosselung bei regionaler Spitzenlast.

Warum Kontingenterhöhungen manchmal widerrufen werden

Kontingenterhöhungen können reduziert oder neu verteilt werden, wenn:

Die reservierte Kapazität nicht konsistent genutzt wird.

Die regionale Nachfrage nach gemeinsam genutzter Kapazität stark ansteigt.

Azure eine Kapazitätsverteilung zwischen Mandanten durchführt.

Dies ist ein Plattformverhalten und steht nicht im Zusammenhang mit Missbrauch durch einen bestimmten Kunden. Die Verwendung von Data Zone Standard-Kapazität verhindert dies.

Weitere Informationen finden Sie hier.

Microsoft foundary - Dokumentation

Azure OpenAI in Microsoft Foundry Models Kontingente und Grenzwerte

Ich hoffe, das hilft Ihnen weiter. Bei weiteren Fragen stehe ich Ihnen gerne zur Verfügung.

Vielen Dank!

Schönwald, Alexander 75 Zuverlässigkeitspunkte

2025-12-02T08:22:28.76+00:00

Hallo und vielen Dank für die ausführliche Antwort! Entschuldigen Sie bitte die verspätete Antwort, ich befand mich nicht im Haus in den vergangenen Tagen.

Zunächst einmal vielen Dank für die Informationen, ich werde ein entsprechendes Ticket anlegen. Was mir noch nicht ganz klar ist, ist der Teil "Modelle der GPT-5-Familie nutzen das neue globale automatische Skalierungssystem von Azure anstelle von strikten, festen Kontingenten." Was bedeutet dies für uns als Unternehmen genau? Bedeutet das, dass selbst wenn wir beispielsweise 50k TPM haben und eine Anfrage dieses Limit sprengt, dass wir nicht in einen Fehler laufen? Denn unser Problem sind insbesondere Nutzungspeaks, jedoch aber auch, dass eine einzige Anfrage schon ziemlich viele Tokens in Anspruch nehmen kann, wenn wir beispielsweise mit Code arbeiten. Somit war GPT-5 einst mit 20k TPM für uns überhaupt nicht nutzbar, da dort zunächst ein 20k TPM Limit bestand und ich als einzelne Person dieses Limit bereits mit einer Anfrage gesprengt habe. Wenn ich unsere Unternehmensgröße berücksichtige, ist dies natürlich nicht praktikabel. Nun haben wir 50k TPM für GPT-5.1, doch was bedeutet das genau? Was wenn ein Nutzer einen Payload versendet, welcher (inkl. Antwort) über 50k Tokens umfasst? Oder wenn mehrere Mitarbeiter gleichzeitig Anfragen senden und kumuliert auf über 50k kommen?

Viele Grüße und vielen Dank im Voraus!
SRILAKSHMI C 11,595 Zuverlässigkeitspunkte Externe Microsoft-Mitarbeiter Moderator

2025-12-05T06:26:50.56+00:00

Hallo Schönwald, Alexander,

Wir möchten uns erkundigen, ob Ihnen die obige Antwort weitergeholfen hat. Falls Ihre Frage damit beantwortet ist, klicken Sie bitte auf „Antwort akzeptieren“ und „Ja“, falls die Antwort hilfreich war. Sollten Sie weitere Fragen haben, lassen Sie es uns gerne wissen.

Vielen Dank!

Freigeben über

How to request an increase for the token limit for GPT-5.1?

1 Antwort

Ihre Antwort