Partager via


Servir des prédictions en temps réel avec des points de terminaison de modèle ML (Aperçu)

Important

Cette fonctionnalité est en version préliminaire.

Microsoft Fabric vous permet de traiter des prédictions en temps réel à partir de modèles ML avec des points de terminaison en ligne sécurisés, évolutifs et faciles à utiliser. Ces points de terminaison sont disponibles en tant que propriétés intégrées de la plupart des modèles Fabric, et ils ne nécessitent aucune configuration pour lancer des déploiements en temps réel entièrement managés.

Vous pouvez activer, configurer et interroger des points de terminaison de modèle avec une API REST publique. Vous pouvez également commencer directement à partir de l’interface Fabric, à l’aide d’une expérience de faible code pour activer instantanément les points de terminaison de modèle et afficher un aperçu des prédictions.

Capture d’écran montrant un modèle ML dans Fabric avec une propriété de point de terminaison intégrée pour traiter les prédictions en temps réel.

Conditions préalables

Limites

  • Les endpoints sont actuellement disponibles pour un ensemble limité de types de modèles ML, notamment Keras, LightGBM, Sklearn et XGBoost.
  • Actuellement, les points de terminaison ne sont pas disponibles pour les modèles avec des schémas basés sur des tenseurs ou aucun schéma.

Commencez avec les points de terminaison du modèle

Les modèles ML dans Fabric sont prédéfinis avec des points de terminaison en ligne qui peuvent être utilisés pour traiter des prédictions en temps réel. Chaque version de modèle inscrite a une URL de point de terminaison dédiée, qui se trouve sous le titre « Détails du point de terminaison » dans l’interface Fabric. Cette URL se termine par un sous-chemin désignant cette version spécifique (par exemple, /versions/1/score).

Capture d’écran montrant les propriétés d’un point de terminaison de modèle ML, qui peuvent être utilisées pour traiter des prédictions en temps réel.

Les points de terminaison de modèle ont les propriétés suivantes :

Propriété Description Par défaut
Version par défaut Cette propriété (Yes ou No) indique si la version est définie comme valeur par défaut du modèle pour servir des prédictions réelles. Vous pouvez personnaliser la version par défaut dans les paramètres du modèle. No
État Cette propriété indique si le point de terminaison est prêt à traiter les prédictions. L’état peut être Inactive, , ActivatingActive, Deactivatingou Failed. Seuls les points de terminaison actifs peuvent servir des prédictions. Inactive
Veille automatique Cette propriété (On ou Off) indique si le point de terminaison, une fois actif, doit réduire l’utilisation de la capacité à zéro en l’absence de trafic. Si la mise en veille automatique est activée, le point de terminaison entre dans un état inactif après cinq minutes sans demandes entrantes. Le premier appel pour réveiller un point de terminaison inactif implique un court délai. On

Activer les points de terminaison de modèle

Vous pouvez activer des points de terminaison de modèle directement à partir de l’interface Fabric. Accédez à la version que vous souhaitez utiliser pour fournir des prédictions en temps réel et sélectionnez « Activer le endpoint de la version » dans le ruban.

Capture d’écran montrant comment activer un point de terminaison de modèle ML à partir de l’interface Fabric.

Un message de notification indique que Fabric est en train de mettre en service votre point de terminaison pour traiter les prédictions, et que l’état du point de terminaison passe à « Activation ». En arrière-plan, Fabric déploie l’infrastructure de conteneur sous-jacente pour héberger votre modèle. Dans quelques minutes, votre point de terminaison est prêt à servir des prédictions.

Capture d’écran montrant un point de terminaison de modèle ML qui est désormais activé.

Chaque point de terminaison a un état indiquant s’il est prêt à servir des prédictions en temps réel :

État Description
Inactive Le point de terminaison n’est pas activé pour traiter les prédictions en temps réel et il ne consomme pas de capacité Fabric.
Activating Le point de terminaison est configuré pour traiter les prédictions en temps réel. En arrière-plan, Fabric configure l’infrastructure de conteneur sous-jacente pour héberger le modèle. Dans quelques minutes, le point de terminaison est actif.
Active Le point de terminaison est prêt à fournir des prédictions en temps réel. En arrière-plan, Fabric gère l’infrastructure sous-jacente et met à l’échelle l’utilisation des ressources en fonction du trafic entrant. Un trafic plus élevé entraîne une utilisation plus élevée de la capacité du Fabric.
Deactivating Le point de terminaison est désactivé, de sorte qu’il ne sert plus de prédictions en temps réel ou qu’il consomme la capacité Fabric. En arrière-plan, Fabric démonte l’infrastructure de conteneur sous-jacente.

Remarque

Les modèles ML peuvent prendre en charge les points de terminaison actifs pour jusqu’à cinq versions à la fois. Pour traiter les prédictions à partir d’une sixième version, vous devez d’abord désactiver un point de terminaison actif.

Gérer les points de terminaison de modèle

Pour obtenir une vue d’ensemble des points de terminaison actifs de votre modèle, sélectionnez « Gérer les points de terminaison » dans le ruban de l’interface. Chaque modèle a un point de terminaison par défaut personnalisable, qui sert les prédictions d’une version que vous choisissez. Vous pouvez mettre à jour la version par défaut à l’aide du sélecteur de liste déroulante dans le volet paramètres.

Capture d’écran montrant l’URL de point de terminaison de modèle ML par défaut, que vous pouvez configurer pour traiter les prédictions à partir d’une version spécifique.

Important

Veillez à définir la propriété par défaut sur une version active si vous envisagez de l’utiliser. Si la propriété par défaut n’est pas définie ou est définie sur une version inactive, les appels au point de terminaison par défaut échouent.

Toutes les versions avec des points de terminaison actifs sont répertoriées sous les paramètres de point de terminaison du modèle. Vous pouvez modifier la propriété de veille automatique de chaque point de terminaison en activant le commutateur sur « Activé » ou « Désactivé ».

Capture d’écran montrant comment modifier la propriété de veille automatique sur les points de terminaison du modèle ML.

Conseil / Astuce

Les points de terminaison actifs avec mise en veille automatique activée entrent dans un état inactif après cinq minutes sans trafic, et le premier appel pour les réveiller implique un court délai. Vous pouvez désactiver cette propriété pour les points de terminaison en production.

Points de terminaison de modèle de requête pour les prédictions en temps réel

Les points de terminaison de modèle sont disponibles pour les tests instantanés avec une expérience à faible code dans Fabric. Accédez à une version avec un point de terminaison actif et sélectionnez « Aperçu des prédictions » dans le ruban de l'interface utilisateur. Vous pouvez envoyer des exemples de requêtes au point de terminaison et obtenir des exemples de prédictions en temps réel à l’aide de champs de formulaire qui correspondent à la signature d’entrée du modèle.

Capture d’écran montrant l’expérience en préversion intégrée pour obtenir des exemples de prédictions à partir d’un point de terminaison de modèle ML actif.

Pour remplir les champs de formulaire avec des exemples aléatoires de valeurs, sélectionnez « Remplissage automatique ». Vous pouvez ajouter d’autres ensembles de valeurs de formulaire pour tester le point de terminaison avec plusieurs entrées. Sélectionnez « Obtenir des prédictions » pour envoyer le point de terminaison de votre exemple de requête.

Capture d’écran montrant la vue basée sur le formulaire pour l’envoi d’exemples de requêtes à un point de terminaison de modèle ML actif.

Si vous préférez mettre en forme des exemples de requêtes en tant que charges utiles JSON, utilisez le sélecteur de liste déroulante pour modifier la vue.

Capture d’écran montrant la vue JSON pour l’envoi d’exemples de requêtes à un point de terminaison de modèle ML actif.

Désactiver les points de terminaison de modèle

Vous pouvez désactiver des points de terminaison de modèle directement à partir de l’interface Fabric. Accédez à une version que vous n’avez plus besoin de pour fournir des prédictions en temps réel et sélectionnez « Désactiver le point de terminaison de version » dans la barre d'outils de l’interface.

Capture d’écran montrant comment désactiver un point de terminaison de modèle ML à partir de l’interface Fabric.

Un message toast indique que Fabric démonte votre déploiement actif et que l’état du point de terminaison passe à « en cours de désactivation ». Le point de terminaison n’est plus en mesure de traiter les prédictions en temps réel, sauf si vous le réactivez.

Capture d’écran montrant un point de terminaison de modèle ML qui est désormais désactivé.

Vous pouvez désactiver des points de terminaison pour plusieurs versions à la fois à partir du volet paramètres du modèle. Sélectionnez « Gérer les points de terminaison » dans le ruban de l’interface et choisissez un ou plusieurs points de terminaison actifs à désactiver.

Capture d’écran montrant comment désactiver plusieurs points de terminaison de modèle ML à la fois à partir de l’interface Fabric.

Taux de consommation

L’hébergement de points de terminaison de modèle actif consomme des unités de capacité de structure (UC). Les points de terminaison s’exécutent sur des nœuds de calcul et peuvent augmenter automatiquement en capacité jusqu'à trois nœuds en fonction du trafic entrant. La facturation est calculée par nœud pendant qu’un point de terminaison est actif. Le tableau ci-dessous montre la consommation CU pour un point de terminaison actif du modèle d'apprentissage automatique.

Fonctionnement Unité de mesure d’opération taux de consommation
point de terminaison de modèle 1 point de terminaison de modèle (version) par seconde et par node 5 secondes CU

Le tableau ci-dessous présente des exemples de scénarios et leurs taux de consommation et coûts horaires correspondants.

Scénario Description taux de consommation Coût horaire
Modèles avec des points de terminaison inactifs Ces modèles n’ont aucun point de terminaison de version actif et aucune utilisation des ressources associée. Ils n’impliquent aucun coût supplémentaire. 0 CU secondes 0 heure(s) CU
Modèles avec des points de terminaison actifs mais inactifs Ces modèles ont un ou plusieurs points de terminaison de version actifs, mais, sans trafic régulier, tous ont été réduits à zéro, ce qui permet de réduire automatiquement les coûts. 5 secondes CU 0,42 heures CU
Modèles avec un point de terminaison actif et un trafic faible constant Ces modèles n’ont qu’un point de terminaison de la version actif servant des prédictions, mais sans suffisamment de trafic pour déclencher une extension horizontale complète. Un seul nœud peut servir tout le trafic. D’autres points de terminaison de version peuvent être inactifs ou au repos. 5 secondes CU 5 HEURES CU
Modèles avec un point de terminaison actif et un trafic élevé constant Ces modèles n'ont qu'un seul point de terminaison de version actif qui sert à faire des prédictions, avec suffisamment de trafic pour déclencher une mise à l'échelle horizontale complète. D'autres points de terminaison de version peuvent être inactifs ou au repos. 15 CU-secondes 15 HEURES CU
Modèles avec 5 points de terminaison actifs et trafic élevé constant Ces modèles ont 5 points de terminaison de version actifs (la limite actuelle) servant des prédictions, avec suffisamment de trafic sur chacun pour déclencher une mise à l'échelle complète. 75 CU secondes 75 heures CU

L’application Métriques de capacité de la fabrique affiche l’utilisation totale de la capacité pour les opérations des points de terminaison du modèle sous le nom « Point de terminaison de modèle ». En outre, les utilisateurs ont la possibilité d'afficher un résumé de leurs frais de facturation pour l’utilisation du point de terminaison du modèle ML sous l’élément de facturation « Utilisation de la capacité du point de terminaison du modèle ML CU ».

L'opération du point de terminaison du modèle est classée comme opération en arrière-plan.

Les taux de consommation sont susceptibles de changer à tout moment. Microsoft utilise des efforts raisonnables pour fournir une notification par e-mail ou par le biais d’une notification dans le produit. Les modifications seront effectives à la date indiquée dans les notes de publication Microsoft ou le blog Microsoft Fabric. Si une modification apportée au point de terminaison du modèle dans le Taux de Consommation Fabric entraîne une augmentation significative des unités de capacité (CU) nécessaires à l’utilisation, les clients peuvent utiliser les options d’annulation disponibles pour le mode de paiement choisi.