Een model implementeren op een eindpunt

Voltooid

Wanneer u een generatieve AI-app ontwikkelt, moet u taalmodellen integreren in uw toepassing. Als u een taalmodel wilt kunnen gebruiken, moet u het model implementeren. Laten we eens kijken hoe u taalmodellen implementeert in Microsoft Foundry, nadat u eerst hebt begrepen waarom u een model implementeert.

Waarom een model implementeren?

U traint een model om uitvoer te genereren op basis van enige invoer. Als u waarde uit uw model wilt halen, hebt u een oplossing nodig waarmee u invoer kunt verzenden naar het model, waarna het model wordt verwerkt, waarna de uitvoer voor u wordt gevisualiseerd.

Met generatieve AI-apps is het meest voorkomende type oplossing een chattoepassing die een gebruikersvraag verwacht, die door het model wordt verwerkt, om een adequaat antwoord te genereren. Het antwoord wordt vervolgens aan de gebruiker gevisualiseerd als antwoord op de vraag.

Diagram van gebruikersvraag die wordt verwerkt door het model dat is geïmplementeerd op eindpunt.

U kunt een taalmodel integreren met een chattoepassing door het model te implementeren op een eindpunt. Een eindpunt is een specifieke URL waar een geïmplementeerd model of service kan worden geopend. Elke modelimplementatie heeft doorgaans een eigen uniek eindpunt, waardoor verschillende toepassingen met het model kunnen communiceren via een API (Application Programming Interface).

Wanneer een gebruiker een vraag stelt:

  1. Er wordt een API-aanvraag verzonden naar het eindpunt.
  2. Het eindpunt geeft het model op dat de aanvraag verwerkt.
  3. Het resultaat wordt via een API-antwoord teruggestuurd naar de app.

Nu u begrijpt waarom u een model wilt implementeren, gaan we de implementatieopties verkennen met Microsoft Foundry.

Een taalmodel implementeren met Microsoft Foundry

Wanneer u een taalmodel implementeert met Microsoft Foundry, zijn er verschillende typen beschikbaar, die afhankelijk zijn van het model dat u wilt implementeren.

Implementatieopties zijn onder andere:

  • Standaardimplementatie: Modellen worden gehost in de Microsoft Foundry-projectresource.
  • Serverloze rekenkracht: modellen worden gehost in door Microsoft beheerde, serverloze eindpunten in een Microsoft Foundry-hubproject.
  • Beheerde rekenkracht: modellen worden gehost in installatiekopieën van beheerde virtuele machines in een Microsoft Foundry-hubproject.

De gekoppelde kosten zijn afhankelijk van het type model dat u implementeert, welke implementatieoptie u kiest en wat u met het model doet:

Standaardimplementatie Serverloze rekenkracht Volledig beheerde rekenprocessen
Ondersteunde modellen Microsoft Foundry-modellen (waaronder Azure OpenAI-modellen en modellen als een servicemodel) Foundry-modellen met facturering op basis van gebruik Geopende en aangepaste modellen
Hostingservice Microsoft Foundry-resource AI-projectresource in een hub AI-projectresource in een hub
Factureringsbasis Facturering op basis van tokens Facturering op basis van tokens Facturering op basis van computing

Opmerking

Standaardimplementatie wordt aanbevolen voor de meeste scenario's.