Freigeben über

How to request an increase for the token limit for GPT-5.1?

Schönwald, Alexander 75 Zuverlässigkeitspunkte
2025-11-24T10:01:46.0266667+00:00

With every new model, the process starts all over again. We would like to use GPT-5.1 enterprise-wide, but 50k tokens per minute are not sufficient for us during peak periods. Can Microsoft not directly grant the token limits promised here to companies that are building solutions? https://learn.microsoft.com/de-de/azure/ai-foundry/openai/quotas-limits?view=foundry-classic&tabs=REST

For each model, we have to go through the same struggle again in the hope of getting a token increase—and for some models we never received one. We have even had increases revoked for models for which we had previously been granted one. Under these conditions, no company can plan and operate professionally with Azure AI Foundry. This concerns just one subscription; we separate dev and stage/prod, so we have to request token increases for both subscriptions every time.

Of course, we do not need the token limit advertised in the link for every model around the clock, but we cannot predict when peaks will occur, and we cannot simply show our users error messages because some token limit has been reached. That destroys the overall acceptance of our AI initiatives. It should also be in Microsoft’s interest that companies can use products and services like Azure AI Foundry professionally to build solutions.

Nonetheless, I tried to request a token increase for GPT-5.1 as well, but regardless of what I select in the form (Azure Direct Model/Azure OpenAI, Global Standard/Data Zone Standard), we never find an option for GPT-5.1. How, then, can we request a token increase for GPT-5.1?

Thank you in advance.

Screenshot 2025-11-24 104308

Screenshot 2025-11-24 105930Screenshot 2025-11-24 105949

Azure KI Services
Azure KI Services
Eine Gruppe von Azure-Diensten, SDKs und APIs, die entwickelt wurden, um Apps intelligenter, ansprechender und auffindbarer zu machen.
{count} Stimme

1 Antwort

Sortieren nach: Am hilfreichsten
  1. SRILAKSHMI C 11,595 Zuverlässigkeitspunkte Externe Microsoft-Mitarbeiter Moderator
    2025-11-24T18:21:17.83+00:00

    Hallo Schönwald, Alexander,

    Willkommen bei Microsoft Q&A,

    Vielen Dank für die Details und die Screenshots. Sie verdeutlichen die Situation.

    Sie machen nichts falsch. GPT-5.1-Kontingenterhöhungen können derzeit nicht beantragt werden, da das Modell noch nicht in das Azure-Self-Service-Kontingentsystem aufgenommen wurde.

    Warum wird GPT-5.1 nicht im Formular zur Kontingenterhöhung angezeigt?

    Obwohl GPT-5.1 bereits in Azure AI Foundry bereitgestellt werden kann, wurde das Backend für Kontingentanforderungen noch nicht aktualisiert, um dieses Modell in die Liste der „Globalen Standardmodelle von Azure OpenAI“ aufzunehmen.

    Diese Lücke tritt gelegentlich auf, wenn neue Modelle in Foundry veröffentlicht werden, bevor die Kontingent-Workflows aktualisiert sind.

    Infolgedessen:

    GPT-5.1 wird nicht in der Dropdown-Liste für Kontingentanfragen angezeigt.

    Kunden können derzeit keine Standardanfrage zur Kontingenterhöhung für dieses Modell stellen.

    Dies ist das erwartete Verhalten und kein Konfigurationsproblem Ihrerseits.

    GPT-5.1 verwendet ein anderes Skalierungsmodell.

    Modelle der GPT-5-Familie nutzen das neue globale automatische Skalierungssystem von Azure anstelle von strikten, festen Kontingenten. Dies umfasst:

    Weiche Kontingentdurchsetzung

    Automatische Skalierungsdrosselung basierend auf der regionalen Kapazität

    Mandantenweite Glättung anstelle von modellbezogenen Obergrenzen

    Die in der Dokumentation angegebenen Höchstgrenzen stellen die maximale Kapazität dar, nicht automatisch gewährte Kontingente.

    Azure führt derzeit eine einheitliche Kontingentverwaltung für die GPT-5-Familie ein. Bis zum Abschluss dieser Arbeiten sind manuelle Kontingenterhöhungen für GPT-5.1 über das Standardformular nicht möglich.

    Was Sie jetzt tun können:

    1. Erstellen Sie ein Support-Ticket (derzeit der einzige unterstützte Weg).

    Bitte erstellen Sie ein Ticket unter:

    Dienst: Azure AI Foundry

    Problemtyp: Kontingente und Limits

    Untertyp: Tokenlimit / Anforderung höherer TPM/RPM-Werte

    Bitte geben Sie Folgendes an:

    Ihre Abonnement-ID

    Region

    Modellname: GPT-5.1 (Globaler Standard)

    Die benötigten TPM/RPM-Werte

    Hinweis: GPT-5.1 wird im Kontingentanforderungsformular nicht angezeigt.

    Der Support leitet Ihr Anliegen an das Azure OpenAI-Kapazitätsteam weiter. Dies ist der aktuell für GPT-5.1 erforderliche Workflow.

    Den Azure-Entwicklungsteams ist diese Lücke im Portal bereits bekannt.

    1. Wenn Sie für den Produktivbetrieb eine vorhersehbare und stabile Skalierung benötigen

    Wenn Ihre Workload eine konsistente, ungedrosselte Leistung erfordert, können Sie Folgendes anfordern:

    Reservierung von Data Zone Standard-Kapazität für GPT-5.1

    Geben Sie im Ticket Folgendes an:

    „Wir benötigen eine PTU-Kapazitätsreservierung für GPT-5.1 unter Data Zone Standard.“

    Diese Option bietet garantierten Durchsatz und vermeidet eine Drosselung bei regionaler Spitzenlast.

    Warum Kontingenterhöhungen manchmal widerrufen werden

    Kontingenterhöhungen können reduziert oder neu verteilt werden, wenn:

    Die reservierte Kapazität nicht konsistent genutzt wird.

    Die regionale Nachfrage nach gemeinsam genutzter Kapazität stark ansteigt.

    Azure eine Kapazitätsverteilung zwischen Mandanten durchführt.

    Dies ist ein Plattformverhalten und steht nicht im Zusammenhang mit Missbrauch durch einen bestimmten Kunden. Die Verwendung von Data Zone Standard-Kapazität verhindert dies.

    Weitere Informationen finden Sie hier.

    Microsoft foundary - Dokumentation

    Azure OpenAI in Microsoft Foundry Models Kontingente und Grenzwerte

    Ich hoffe, das hilft Ihnen weiter. Bei weiteren Fragen stehe ich Ihnen gerne zur Verfügung.

    Vielen Dank!


Ihre Antwort

Antworten können von Fragestellenden als „Angenommen“ und von Moderierenden als „Empfohlen“ gekennzeichnet werden, wodurch Benutzende wissen, dass diese Antwort das Problem des Fragestellenden gelöst hat.