Partager via


Exemples de données (compléments d’exploration de données SQL Server)

Assistant de partitionnement des données dans le ruban Exploration de données

L’Assistant Données d'exemple vous facilite le découpage de vos données sources en deux ensembles : l'un pour l'entraînement du modèle et l'autre pour le test du modèle. Cet Assistant fournit également une option permettant de rééchantillonner les données pour générer un nouveau jeu de données qui représente mieux votre cible.

La création du bon type de données pour l’apprentissage et le test de vos modèles est une partie importante de l’exploration de données, mais celle qui peut être fastidieuse sans les bons outils. L'assistant effectue un échantillonnage stratifié pour s'assurer que les ensembles d'entraînement et de test sont bien équilibrés.

Échantillonnage aléatoire et surachantillonnage

. L’échantillonnage aléatoire est le meilleur moyen de s’assurer que les données que vous utilisez pour tester un modèle représentent équitablement les données que vous utilisez pour créer le modèle. Vous pouvez échantillonner de manière aléatoire des données stockées dans Excel ou dans une source de données externe

Si vous utilisez l’option d’échantillonnage aléatoire, l’Assistant Exemples de données crée automatiquement des jeux de données d’entraînement et de test et les génère dans des feuilles de calcul Excel distinctes pour référence ultérieure.

Si vos données sont stockées dans un classeur Excel et non dans une source de données externe, vous avez également la possibilité d’utiliser un sur-échantillonnage. Avec cette option, vous spécifiez une valeur cible qui peut être rare dans vos données, et l’Assistant collecte un ensemble équilibré qui contient davantage de cette valeur cible. Vous pouvez instruire l’Assistant pour atteindre un pourcentage visé ou créer un certain nombre de lignes.

Si vous utilisez l'option de suréchantillonnage, l'Assistant Exemples de données crée une nouvelle feuille de calcul qui contient les exemples de données nouvellement équilibrés.

Utiliser l'Assistant d'exemple de données

Pour séparer les données dans des jeux d’apprentissage et de test

  1. Dans le ruban Exploration de données , cliquez sur Exemples de données.

  2. Dans la page Sélectionner les données sources , spécifiez si les données que vous souhaitez partitionner se situent dans une plage ou un tableau Excel ou dans une source de données externe.

  3. Dans la page Sélectionner un type d’échantillonnage , spécifiez si vous souhaitez créer des jeux de données d’entraînement et de test par échantillonnage aléatoire ou créer un jeu de données en surachantillonnant.

    Remarque

    Si vous utilisez une source de données externe, seule l’option d’échantillonnage aléatoire est disponible. Si vous souhaitez utiliser un sur-échantillonnage avec des données externes, vous pouvez importer les données dans un classeur Excel à l’aide d’une connexion de données Excel, puis utiliser l’Assistant Exemples de données.

  4. Définissez les options spécifiques à la méthode d’échantillonnage que vous avez sélectionnée.

    • Pour l’échantillonnage aléatoire, spécifiez un pourcentage des données d’origine à utiliser pour les tests, ou le nombre total de lignes à utiliser dans le jeu de données de test.

    • Pour le surachantillonnage, sélectionnez la colonne et la valeur que vous souhaitez mettre en évidence. Ensuite, spécifiez le nombre total de lignes dans le nouveau jeu de données et le pourcentage de lignes du nouveau jeu de données qui doit inclure la valeur cible.

      La valeur cible pour le surachantillonnage doit être une valeur discrète ; vous ne pouvez pas suréchantillonner les données numériques continues.

  5. Dans la page Terminer, acceptez les noms par défaut des nouveaux jeux de données ou tapez un nouveau nom.

    L’Assistant crée de nouvelles feuilles de calcul pour chaque jeu de données.

La plupart des Assistants du client d’exploration de données pour Excel offrent également la possibilité de séparer de façon aléatoire vos données en jeux d’apprentissage et de test. Toutefois, si vous utilisez les assistants, vos données restent dans la même feuille de calcul (ou d’autres sources de données) et les informations concernant si une ligne particulière est un cas de test ou un cas d'apprentissage sont stockées en interne. En revanche, lorsque vous utilisez l’Assistant Exemples de données, les données de test et d’entraînement sont générées sur des feuilles de calcul distinctes pour faciliter la consultation.

À mesure que vous progressez dans l’Assistant, vous aurez les options suivantes :

Paramètres Commentaires
Boîte de dialogue Sélectionner des données sources (client d’exploration de données pour Excel) Sélectionnez une plage ou un tableau Excel qui contient les données. Si vous souhaitez utiliser des données externes, les données peuvent être relationnelles, mais elles doivent être incluses dans une source de données Analysis Services. T
Page Sélectionner un type d’échantillonnage (client d’exploration de données pour Excel) Si vous utilisez une source de données externe, vous êtes limité à l’utilisation de l’option d’échantillonnage aléatoire. En outre, vous devez spécifier le nombre de lignes à créer dans le jeu de données final, à l’aide de l’option Nombre de lignes . Vous ne pouvez pas spécifier un pourcentage des données sources.
Page Échantillonnage aléatoire (client d’exploration de données pour Excel) Vous pouvez copier un pourcentage de lignes à partir de la source ou d’un nombre spécifique de lignes.
Page de Sur-échantillonnage (Client d’exploration de données pour Excel) État cible

Sélectionnez une valeur dans la liste sous-représentée dans le jeu de données d’origine. Le surachantage augmente la proportion de lignes de données qui incluent cet état.

Taille de l’exemple

Sélectionnez le nombre total de lignes à extraire. Cette valeur représente la taille du jeu de données final.

Autres options d’échantillonnage

Si les options d’échantillonnage de cet Assistant ne répondent pas à vos besoins, vous pouvez utiliser la transformation d’échantillonnage dans SQL Server Integration Services (SSIS) pour échantillonner des lignes provenant de plusieurs sources de données.

Pour plus d’informations, consultez Transformation d’échantillonnage de lignes et Transformation d’échantillonnage de pourcentage.

Voir aussi

Liste de vérification de la préparation de l’exploration de données