Bereitstellen eines Modells auf einem Endpunkt

Abgeschlossen

Wenn Sie eine generative KI-App entwickeln, müssen Sie Sprachmodelle in Ihre Anwendung integrieren. Um ein Sprachmodell verwenden zu können, müssen Sie das Modell bereitstellen. Sehen wir uns an, wie Sie Sprachmodelle in der Microsoft Foundry bereitstellen, nachdem Sie zunächst verstehen, warum sie ein Modell bereitstellen.

Warum ein Modell bereitstellen?

Sie trainieren ein Modell, um die Ausgabe basierend auf einigen Eingaben zu generieren. Um den Wert aus Ihrem Modell herauszuholen, benötigen Sie eine Lösung, mit der Sie Eingaben an das Modell senden können, das die Eingaben verarbeitet und schließlich die Ausgabe für Sie visualisiert wird.

Bei generativen KI-Apps ist die am häufigsten verwendete Lösungsart eine Chatanwendung, die eine Benutzerfrage erwartet, die vom Modell verarbeitet wird, um eine angemessene Antwort zu generieren. Die Antwort wird dem Benutzer dann als Antwort auf seine Frage visualisiert.

Diagramm der Benutzerfrage, die vom Modell verarbeitet wird, das für endpunkt bereitgestellt wird.

Sie können ein Sprachmodell in eine Chatanwendung integrieren, indem Sie das Modell auf einem Endpunkt bereitstellen. Ein Endpunkt ist eine spezifische URL (Uniform Resource Locator), über die auf ein bereitgestelltes Modell oder einen bereitgestellten Dienst zugegriffen werden kann. Jede Modellbereitstellung verfügt in der Regel über einen eigenen eindeutigen Endpunkt, der es verschiedenen Anwendungen ermöglicht, über eine API (Application Programming Interface) mit dem Modell zu kommunizieren.

Wenn ein Benutzer eine Frage stellt:

  1. Eine API-Anforderung wird an den Endpunkt gesendet.
  2. Der Endpunkt gibt das Modell an, das die Anforderung verarbeitet.
  3. Das Ergebnis wird über eine API-Antwort an die App zurückgesendet.

Nachdem Sie nun wissen, warum Sie ein Modell bereitstellen möchten, erkunden wir die Bereitstellungsoptionen mit Microsoft Foundry.

Bereitstellen eines Sprachmodells mit Microsoft Foundry

Wenn Sie ein Sprachmodell mit Microsoft Foundry bereitstellen, stehen mehrere Typen zur Verfügung, die vom Modell abhängen, das Sie bereitstellen möchten.

Zu den Bereitstellungsoptionen gehören:

  • Standardbereitstellung: Modelle werden in der Microsoft Foundry-Projektressource gehostet.
  • Serverlose Berechnung: Modelle werden in von Microsoft verwalteten dedizierten serverlosen Endpunkten in einem Microsoft Foundry Hub-Projekt gehostet.
  • Verwaltetes Compute: Modelle werden in verwalteten virtuellen Maschinenabbildern in einem Microsoft Foundry Hub-Projekt gehostet.

Die zugehörigen Kosten hängen vom Typ des modells ab, das Sie bereitstellen, welche Bereitstellungsoption Sie auswählen und was Sie mit dem Modell tun:

Standardbereitstellung Serverloses Rechnen Verwaltete Rechenkapazität
Unterstützte Modelle Microsoft Foundry-Modelle (einschließlich Azure OpenAI-Modelle und Models-as-a-Service-Modelle) Foundry-Modelle mit nutzungsbasierter Abrechnung Offene und benutzerdefinierte Modelle
Hostingdienst Microsoft Foundry-Ressource KI-Projektressource in einem Hub KI-Projektressource in einem Hub
Abrechnungsgrundlage Tokenbasierte Abrechnung Tokenbasierte Abrechnung Abrechnung auf Computerbasis

Hinweis

Die Standardbereitstellung wird für die meisten Szenarien empfohlen.