Partager via


Prédictions de série chronologique à l’aide de données de remplacement (didacticiel sur l’exploration de données intermédiaire)

Dans cette tâche, vous allez créer un nouveau modèle basé sur des données de ventes mondiales. Ensuite, vous allez créer une requête de prédiction qui applique le modèle de vente mondial à l’une des régions individuelles.

Création d’un modèle général

N’oubliez pas que votre analyse des résultats du modèle minier d’origine a révélé de grandes différences entre les régions et entre les lignes de produits. Par exemple, les ventes en Amérique du Nord étaient fortes pour le modèle M200, tandis que les ventes du modèle T1000 n’ont pas aussi bien fonctionné. Toutefois, l’analyse est compliquée par le fait que certaines séries n’ont pas beaucoup de données, ou que les données ont commencé à un moment différent dans le temps. Certaines données étaient également manquantes.

Séries prédisant la quantité M200 et T1000,

Pour résoudre certains des problèmes de qualité des données, vous décidez de fusionner les données des ventes dans le monde entier et d’utiliser cet ensemble de tendances générales des ventes pour créer un modèle qui peut être appliqué pour prédire les ventes futures dans n’importe quelle région.

Lorsque vous créez des prédictions, vous allez utiliser le modèle généré par la formation sur les données de ventes mondiales, mais vous remplacez les points de données historiques par les données de ventes pour chaque région individuelle. De cette façon, la forme de la tendance est conservée, mais les valeurs prédites sont alignées avec les chiffres de vente historiques pour chaque région et modèle.

Exécution d’une prédiction croisée avec un modèle de série chronologique

Le processus d’utilisation de données d’une série pour prédire les tendances d’une autre série est appelé prédiction croisée. Vous pouvez utiliser la prédiction croisée dans de nombreux scénarios : par exemple, vous pouvez décider que les ventes de télévision sont un bon prédicteur de l’activité économique globale et appliquer un modèle formé sur les ventes de télévision aux données économiques générales.

Dans l’exploration de données SQL Server, vous effectuez une prédiction croisée à l’aide du paramètre REPLACE_MODEL_CASES dans les arguments de la fonction, PredictTimeSeries (DMX).

Dans la tâche suivante, vous allez apprendre à utiliser REPLACE_MODEL_CASES. Vous allez utiliser les données de ventes mondiales fusionnées pour créer un modèle, puis créer une requête de prédiction qui mappe le modèle général aux données de remplacement.

Il est supposé que vous êtes familiarisé avec la façon de générer des modèles d’exploration de données à l’heure actuelle, et donc les instructions de création du modèle ont été simplifiées.

Pour créer une structure d’exploration de données et un modèle d’exploration de données à l’aide des données agrégées

  1. Dans l’Explorateur de solutions, cliquez avec le bouton droit sur Structures d’exploration de données, puis sélectionnez Nouvelle structure d’exploration de données pour démarrer l’Assistant Exploration de données.

  2. Dans l’Assistant Exploration de données, effectuez les sélections suivantes :

    • Algorithme : Microsoft Time Series

    • Utilisez la source de données que vous avez créée précédemment dans cette leçon avancée comme source du modèle. Consultez les prédictions de séries temporelles avancées (didacticiel intermédiaire sur l'exploration de données).

      Vue de source de données : AllRegions

    • Choisissez les colonnes suivantes pour la clé de série et la clé de temps :

      Heure clé : Date de rapport

      Clé : Région

    • Choisissez les colonnes suivantes pour Input et Predict:

      SumQty

      SumAmt

      AvgAmt

      AvgQty

    • Pour le nom de la structure de minage de données, tapez : All Regions

    • Pour nom du modèle d’exploration de données, tapez : All Regions

  3. Traitez la nouvelle structure et le nouveau modèle.

Pour générer la requête de prédiction et mapper les données de remplacement

  1. Si le modèle n’est pas déjà ouvert, double-cliquez sur la structure AllRegions et, dans le Concepteur d’exploration de données, cliquez sur l’onglet Prédiction du modèle d’exploration de données.

  2. Dans le volet Modèle d'exploration, le modèle AllRegions doit déjà être sélectionné. S’il n’est pas sélectionné, cliquez sur Sélectionner un modèle, puis sélectionnez le modèle, AllRegions.

  3. Dans le volet Sélectionner une ou plusieurs tables d’entrée , cliquez sur Sélectionner une table de cas.

  4. Dans la boîte de dialogue Sélectionner une table , remplacez la source de données par la région Pacifique T1000, puis cliquez sur OK.

  5. Cliquez avec le bouton droit sur la ligne de jointure entre le modèle d’exploration de données et les données d’entrée, puis sélectionnez Modifier les connexions. Mappez les données dans la vue de source de données au modèle comme suit :

    1. Vérifiez que la colonne ReportingDate du modèle d’exploration de données est mappée à la colonne ReportingDate dans les données d’entrée.

    2. Dans la boîte de dialogue Modifier le mappage, dans la ligne de la colonne du modèle AvgQty, cliquez sous Colonne de table, puis sélectionnez T1000 Pacific.Quantity. Cliquez sur OK.

      Cette étape mappe la colonne que vous avez créée dans le modèle pour prédire la quantité moyenne aux données réelles de la série T1000 pour la quantité de ventes.

    3. Ne mappez pas la région de colonne dans le modèle à une colonne d’entrée.

      Étant donné que le modèle a agrégé les données de toutes les séries, il n’existe aucune correspondance pour les valeurs de série telles que T1000 Pacific, et une erreur est générée lorsque la requête de prédiction s’exécute.

  6. Vous allez maintenant générer la requête de prédiction.

    Tout d’abord, ajoutez une colonne aux résultats qui génèrent l’étiquette AllRegions du modèle avec les prédictions. De cette façon, vous savez que les résultats étaient basés sur le modèle général.

    1. Dans la grille, cliquez sur la première ligne vide, sous Source, puis sélectionnez Modèle d’exploration de données AllRegions.

    2. Pour Champ, sélectionnez Région.

    3. Pour Alias, tapez Modèle utilisé.

  7. Ensuite, ajoutez une autre étiquette aux résultats afin de voir la série pour laquelle la prédiction est destinée.

    1. Cliquez sur une ligne vide, puis, sous Source, sélectionnez Expression personnalisée.

    2. Dans la colonne Alias , tapez ModelRegion.

    3. Dans la colonne Critères/Argument , tapez 'T1000 Pacific'.

  8. Vous allez maintenant configurer la fonction de prédiction croisée.

    1. Cliquez sur une ligne vide, puis, sous Source, sélectionnez Fonction de prédiction.

    2. Dans la colonne Champ , sélectionnez PredictTimeSeries.

    3. Pour Alias, tapez Valeurs prédites.

    4. Faites glisser le champ AvgQty du volet Modèle d’exploration de données dans la colonne Critères/Argument à l’aide de l’opération glisser-déplacer.

    5. Dans la colonne Critères/Argument , après le nom du champ, tapez le texte suivant : ,5, REPLACE_MODEL_CASES

      Le texte complet de la zone de texte Critères/Argument doit être le suivant : [AllRegions].[AvgQty],5,REPLACE_MODEL_CASES

  9. Cliquez sur Résultats.

Création de la requête de prédiction croisée dans DMX

Vous avez peut-être remarqué un problème avec la prédiction croisée : à savoir que pour appliquer le modèle général à une série de données différente, comme le modèle de produit T1000 dans la région Amérique du Nord, vous devez créer une requête différente pour chaque série, afin de pouvoir mapper chaque ensemble d’entrées au modèle.

Toutefois, au lieu de générer la requête dans le concepteur, vous pouvez basculer vers la vue DMX et modifier l’instruction DMX que vous avez créée. Par exemple, l’instruction DMX suivante représente la requête que vous venez de créer :

SELECT  
      ([All Regions].[Region]) as [Model Used],  
      ('T-1000 Pacific') as [ModelRegion],  
      (PredictTimeSeries([All Regions].[Avg Qty],5, REPLACE_MODEL_CASES)) as [Predicted Quantity]  
     FROM [All Regions]  
PREDICTION JOIN  
    OPENQUERY([Adventure Works DW2003R2], 'SELECT [ReportingDate] FROM  
      (  
       SELECT  ReportingDate, ModelRegion, Quantity, Amount   
       FROM dbo.vTimeSeries   
       WHERE (ModelRegion = N''T1000 Pacific'')  
       ) as [T1000 Pacific]    ')   
    AS t  
ON   
[All Regions].[Reporting Date] = t.[ReportingDate]   
AND   
[All Regions].[Avg Qty] = t.[Quantity]  

Pour l’appliquer à un autre modèle, vous modifiez simplement l’instruction de requête pour remplacer la condition de filtre et mettre à jour les étiquettes associées à chaque résultat.

Par exemple, si vous modifiez les conditions de filtre et les étiquettes de colonne en remplaçant « Pacifique » par « Amérique du Nord », vous obtiendrez des prédictions pour le produit T1000 en Amérique du Nord, en fonction des modèles du modèle général.

Tâche suivante de la leçon

Comparaison des prédictions pour les modèles de prévision (didacticiel sur l’exploration de données intermédiaire)

Voir aussi

Exemples de requêtes de modèle de série chronologique
PredictTimeSeries (DMX)