Créer un modèle avec SynapseML

Cet article explique comment créer un modèle Machine Learning avec SynapseML et comment il simplifie les tâches de Machine Learning complexes. Utilisez SynapseML pour créer un pipeline d’entraînement avec une étape de caractérisation et une étape de régression LightGBM. Le pipeline prédit les évaluations à partir du texte de critique de livre. Voici comment utiliser des modèles prédéfinis avec SynapseML pour résoudre les problèmes de Machine Learning.

Prérequis

Obtenir un abonnement Microsoft Fabric. Ou, inscrivez-vous pour un essai gratuit de Microsoft Fabric.
Connectez-vous à Microsoft Fabric.
Basculez vers Fabric à l’aide du sélecteur d’expérience situé en bas à gauche de votre page d’accueil.

Préparer les ressources

Configurez les outils et ressources dont vous avez besoin pour générer le modèle et le pipeline.

Créer un bloc-notes
Attachez votre notebook à lakehouse. Dans l’Explorateur, développez Lakehouses, puis sélectionnez Ajouter.
Obtenez une clé Azure AI services en suivant les instructions du Guide de démarrage rapide : créer une ressource multiservices pour Azure AI services.
Créez une instance Azure Key Vault et ajoutez votre clé de services Azure AI au coffre de clés en tant que secret.
Enregistrez le nom de votre coffre de clés et le nom de la clé secrète. Vous avez besoin de ces informations pour exécuter la transformation en une étape plus loin dans cet article.

Configurer l’environnement

Dans votre notebook, importez des bibliothèques SynapseML et initialisez votre session Spark.

from pyspark.sql import SparkSession
from synapse.ml.core.platform import *

spark = SparkSession.builder.getOrCreate()

Charger un jeu de données

Chargez votre ensemble de données et divisez-le en ensembles d'apprentissage et de test.

train, test = (
    spark.read.parquet(
        "wasbs://publicwasb@mmlspark.blob.core.windows.net/BookReviewsFromAmazon10K.parquet"
    )
    .limit(1000)
    .cache()
    .randomSplit([0.8, 0.2])
)

display(train)

Créer le pipeline de formation

Créez un pipeline qui présente les données à l'aide de TextFeaturizer de la bibliothèque synapse.ml.featurize.text et dérive une note à l'aide de la fonction LightGBMRegressor.

from pyspark.ml import Pipeline
from synapse.ml.featurize.text import TextFeaturizer
from synapse.ml.lightgbm import LightGBMRegressor

model = Pipeline(
    stages=[
        TextFeaturizer(inputCol="text", outputCol="features"),
        LightGBMRegressor(featuresCol="features", labelCol="rating", dataTransferMode="bulk")
    ]
).fit(train)

Prédire la sortie des données de test

Appelez la fonction transform sur le modèle pour prédire et afficher la sortie des données de test sous forme de dataframe.

display(model.transform(test))

Utiliser Azure AI services pour transformer des données en une seule étape

Une alternative pour ces types de tâches qui ont une solution prédéfinie consiste à utiliser l'intégration de SynapseML avec Azure AI services pour transformer vos données en une seule étape. Exécutez ensuite le code suivant avec ces remplacements :

Remplacez <secret-name> par le nom de secret de votre clé Azure AI Services.
Remplacez <key-vault-name> par le nom de votre coffre de clés.

from synapse.ml.services import TextSentiment
from synapse.ml.core.platform import find_secret

model = TextSentiment(
    textCol="text",
    outputCol="sentiment",
    subscriptionKey=find_secret("<secret-name>", "<key-vault-name>")
).setLocation("eastus")

display(model.transform(test))

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2025-09-29