Servir des prédictions en temps réel avec des points de terminaison de modèle ML (Aperçu)

Important

Cette fonctionnalité est en version préliminaire.

Microsoft Fabric vous permet de traiter des prédictions en temps réel à partir de modèles ML avec des points de terminaison en ligne sécurisés, évolutifs et faciles à utiliser. Ces points de terminaison sont disponibles en tant que propriétés intégrées de la plupart des modèles Fabric, et ils ne nécessitent aucune configuration pour lancer des déploiements en temps réel entièrement managés.

Vous pouvez activer, configurer et interroger des points de terminaison de modèle avec une API REST publique. Vous pouvez également commencer directement à partir de l’interface Fabric, à l’aide d’une expérience de faible code pour activer instantanément les points de terminaison de modèle et afficher un aperçu des prédictions.

Conditions préalables

Pour servir des prédictions en temps réel, votre administrateur doit activer le commutateur pour les points de terminaison de modèle ML dans le portail d'administration Fabric.

Limites

Les endpoints sont actuellement disponibles pour un ensemble limité de types de modèles ML, notamment Keras, LightGBM, Sklearn et XGBoost.
Actuellement, les points de terminaison ne sont pas disponibles pour les modèles avec des schémas basés sur des tenseurs ou aucun schéma.

Commencez avec les points de terminaison du modèle

Les modèles ML dans Fabric sont prédéfinis avec des points de terminaison en ligne qui peuvent être utilisés pour traiter des prédictions en temps réel. Chaque version de modèle inscrite a une URL de point de terminaison dédiée, qui se trouve sous le titre « Détails du point de terminaison » dans l’interface Fabric. Cette URL se termine par un sous-chemin désignant cette version spécifique (par exemple, /versions/1/score).

Les points de terminaison de modèle ont les propriétés suivantes :

Propriété	Description	Par défaut
Version par défaut	Cette propriété (`Yes` ou `No`) indique si la version est définie comme valeur par défaut du modèle pour servir des prédictions réelles. Vous pouvez personnaliser la version par défaut dans les paramètres du modèle.	`No`
État	Cette propriété indique si le point de terminaison est prêt à traiter les prédictions. L’état peut être `Inactive`, , `ActivatingActive`, `Deactivating`ou `Failed`. Seuls les points de terminaison actifs peuvent servir des prédictions.	`Inactive`
Veille automatique	Cette propriété (`On` ou `Off`) indique si le point de terminaison, une fois actif, doit réduire l’utilisation de la capacité à zéro en l’absence de trafic. Si la mise en veille automatique est activée, le point de terminaison entre dans un état inactif après cinq minutes sans demandes entrantes. Le premier appel pour réveiller un point de terminaison inactif implique un court délai.	`On`

Activer les points de terminaison de modèle

Vous pouvez activer des points de terminaison de modèle directement à partir de l’interface Fabric. Accédez à la version que vous souhaitez utiliser pour fournir des prédictions en temps réel et sélectionnez « Activer le endpoint de la version » dans le ruban.

Un message de notification indique que Fabric est en train de mettre en service votre point de terminaison pour traiter les prédictions, et que l’état du point de terminaison passe à « Activation ». En arrière-plan, Fabric déploie l’infrastructure de conteneur sous-jacente pour héberger votre modèle. Dans quelques minutes, votre point de terminaison est prêt à servir des prédictions.

Chaque point de terminaison a un état indiquant s’il est prêt à servir des prédictions en temps réel :

État	Description
`Inactive`	Le point de terminaison n’est pas activé pour traiter les prédictions en temps réel et il ne consomme pas de capacité Fabric.
`Activating`	Le point de terminaison est configuré pour traiter les prédictions en temps réel. En arrière-plan, Fabric configure l’infrastructure de conteneur sous-jacente pour héberger le modèle. Dans quelques minutes, le point de terminaison est actif.
`Active`	Le point de terminaison est prêt à fournir des prédictions en temps réel. En arrière-plan, Fabric gère l’infrastructure sous-jacente et met à l’échelle l’utilisation des ressources en fonction du trafic entrant. Un trafic plus élevé entraîne une utilisation plus élevée de la capacité du Fabric.
`Deactivating`	Le point de terminaison est désactivé, de sorte qu’il ne sert plus de prédictions en temps réel ou qu’il consomme la capacité Fabric. En arrière-plan, Fabric démonte l’infrastructure de conteneur sous-jacente.

Remarque

Les modèles ML peuvent prendre en charge les points de terminaison actifs pour jusqu’à cinq versions à la fois. Pour traiter les prédictions à partir d’une sixième version, vous devez d’abord désactiver un point de terminaison actif.

Gérer les points de terminaison de modèle

Pour obtenir une vue d’ensemble des points de terminaison actifs de votre modèle, sélectionnez « Gérer les points de terminaison » dans le ruban de l’interface. Chaque modèle a un point de terminaison par défaut personnalisable, qui sert les prédictions d’une version que vous choisissez. Vous pouvez mettre à jour la version par défaut à l’aide du sélecteur de liste déroulante dans le volet paramètres.

Important

Veillez à définir la propriété par défaut sur une version active si vous envisagez de l’utiliser. Si la propriété par défaut n’est pas définie ou est définie sur une version inactive, les appels au point de terminaison par défaut échouent.

Toutes les versions avec des points de terminaison actifs sont répertoriées sous les paramètres de point de terminaison du modèle. Vous pouvez modifier la propriété de veille automatique de chaque point de terminaison en activant le commutateur sur « Activé » ou « Désactivé ».

Conseil / Astuce

Les points de terminaison actifs avec mise en veille automatique activée entrent dans un état inactif après cinq minutes sans trafic, et le premier appel pour les réveiller implique un court délai. Vous pouvez désactiver cette propriété pour les points de terminaison en production.

Points de terminaison de modèle de requête pour les prédictions en temps réel

Les points de terminaison de modèle sont disponibles pour les tests instantanés avec une expérience à faible code dans Fabric. Accédez à une version avec un point de terminaison actif et sélectionnez « Aperçu des prédictions » dans le ruban de l'interface utilisateur. Vous pouvez envoyer des exemples de requêtes au point de terminaison et obtenir des exemples de prédictions en temps réel à l’aide de champs de formulaire qui correspondent à la signature d’entrée du modèle.

Pour remplir les champs de formulaire avec des exemples aléatoires de valeurs, sélectionnez « Remplissage automatique ». Vous pouvez ajouter d’autres ensembles de valeurs de formulaire pour tester le point de terminaison avec plusieurs entrées. Sélectionnez « Obtenir des prédictions » pour envoyer le point de terminaison de votre exemple de requête.

Si vous préférez mettre en forme des exemples de requêtes en tant que charges utiles JSON, utilisez le sélecteur de liste déroulante pour modifier la vue.

Désactiver les points de terminaison de modèle

Vous pouvez désactiver des points de terminaison de modèle directement à partir de l’interface Fabric. Accédez à une version que vous n’avez plus besoin de pour fournir des prédictions en temps réel et sélectionnez « Désactiver le point de terminaison de version » dans la barre d'outils de l’interface.

Un message toast indique que Fabric démonte votre déploiement actif et que l’état du point de terminaison passe à « en cours de désactivation ». Le point de terminaison n’est plus en mesure de traiter les prédictions en temps réel, sauf si vous le réactivez.

Vous pouvez désactiver des points de terminaison pour plusieurs versions à la fois à partir du volet paramètres du modèle. Sélectionnez « Gérer les points de terminaison » dans le ruban de l’interface et choisissez un ou plusieurs points de terminaison actifs à désactiver.

Taux de consommation

L’hébergement de points de terminaison de modèle actif consomme des unités de capacité de structure (UC). Les points de terminaison s’exécutent sur des nœuds de calcul et peuvent augmenter automatiquement en capacité jusqu'à trois nœuds en fonction du trafic entrant. La facturation est calculée par nœud pendant qu’un point de terminaison est actif. Le tableau ci-dessous montre la consommation CU pour un point de terminaison actif du modèle d'apprentissage automatique.

Fonctionnement	Unité de mesure d’opération	taux de consommation
point de terminaison de modèle	1 point de terminaison de modèle (version) par seconde et par node	5 secondes CU

Le tableau ci-dessous présente des exemples de scénarios et leurs taux de consommation et coûts horaires correspondants.

Scénario	Description	taux de consommation	Coût horaire
Modèles avec des points de terminaison inactifs	Ces modèles n’ont aucun point de terminaison de version actif et aucune utilisation des ressources associée. Ils n’impliquent aucun coût supplémentaire.	0 CU secondes	0 heure(s) CU
Modèles avec des points de terminaison actifs mais inactifs	Ces modèles ont un ou plusieurs points de terminaison de version actifs, mais, sans trafic régulier, tous ont été réduits à zéro, ce qui permet de réduire automatiquement les coûts.	5 secondes CU	0,42 heures CU
Modèles avec un point de terminaison actif et un trafic faible constant	Ces modèles n’ont qu’un point de terminaison de la version actif servant des prédictions, mais sans suffisamment de trafic pour déclencher une extension horizontale complète. Un seul nœud peut servir tout le trafic. D’autres points de terminaison de version peuvent être inactifs ou au repos.	5 secondes CU	5 HEURES CU
Modèles avec un point de terminaison actif et un trafic élevé constant	Ces modèles n'ont qu'un seul point de terminaison de version actif qui sert à faire des prédictions, avec suffisamment de trafic pour déclencher une mise à l'échelle horizontale complète. D'autres points de terminaison de version peuvent être inactifs ou au repos.	15 CU-secondes	15 HEURES CU
Modèles avec 5 points de terminaison actifs et trafic élevé constant	Ces modèles ont 5 points de terminaison de version actifs (la limite actuelle) servant des prédictions, avec suffisamment de trafic sur chacun pour déclencher une mise à l'échelle complète.	75 CU secondes	75 heures CU

L’application Métriques de capacité de la fabrique affiche l’utilisation totale de la capacité pour les opérations des points de terminaison du modèle sous le nom « Point de terminaison de modèle ». En outre, les utilisateurs ont la possibilité d'afficher un résumé de leurs frais de facturation pour l’utilisation du point de terminaison du modèle ML sous l’élément de facturation « Utilisation de la capacité du point de terminaison du modèle ML CU ».

L'opération du point de terminaison du modèle est classée comme opération en arrière-plan.

Les taux de consommation sont susceptibles de changer à tout moment. Microsoft utilise des efforts raisonnables pour fournir une notification par e-mail ou par le biais d’une notification dans le produit. Les modifications seront effectives à la date indiquée dans les notes de publication Microsoft ou le blog Microsoft Fabric. Si une modification apportée au point de terminaison du modèle dans le Taux de Consommation Fabric entraîne une augmentation significative des unités de capacité (CU) nécessaires à l’utilisation, les clients peuvent utiliser les options d’annulation disponibles pour le mode de paiement choisi.

Gérez et interrogez des points de terminaison par programmation avec l’API REST du point de terminaison du modèle ML.
Générez des prédictions par lots avec la PREDICT fonction dans les notebooks Fabric.
En savoir plus sur l’apprentissage et l’expérimentation des modèles dans Fabric.
Avons-nous manqué une fonctionnalité dont vous avez besoin ? Suggèrez-le sur le forum Idées de structure.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2025-08-27