Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Lorsque vous démarrez l’exploration de données, vous pouvez demander « Quelle quantité de données ai-je besoin ? » ou « Existe-t-il des exigences particulières que je dois savoir lors du nettoyage ou de la mise en forme de mes données ? »
En particulier, les personnes nouvelles dans l'exploration de données rencontrent souvent des problèmes avec les données Excel, tels que la nécessité de mettre en forme les données de manière cohérente dans les colonnes, de nettoyer les valeurs manquantes ou de regrouper des nombres. Cette section répertorie également les exigences de données pour des types spécifiques de modèles.
Autres exigences en matière de données
Choix des données
La sélection des données utilisées pour l’analyse est peut-être la partie la plus importante du processus d’exploration de données, plus que la sélection d’un algorithme. Cela s'explique par le fait que l’exploration de données n’est généralement pas orientée par des hypothèses, mais plutôt guidée par les données. Au lieu de sélectionner et de tester des variables à l’avance, comme vous pouvez avec la modélisation statistique traditionnelle, l’exploration de données peut prendre des données et découvrir de nouvelles corrélations (ou ne pas découvrir tous les modèles du tout). La qualité et la quantité de vos données peuvent avoir un effet significatif sur les résultats.
En général, observez les règles suivantes :
Obtenez autant de données propres que possible.
Effectuez le profilage des données avant d’essayer des modèles. Vous devez comprendre vos données avant de pouvoir en dériver la signification. Au minimum :
Utilisez les outils des compléments pour rechercher vos valeurs maximales et minimales, les valeurs les plus courantes et les valeurs moyennes.
Renseignez les valeurs manquantes. Les compléments (ainsi que certains algorithmes) fournissent des outils permettant d’imputer des valeurs manquantes.
Corrigez les données incorrectes dans la mesure du possible. Les projets d’exploration de données servent souvent d’impulsion aux nouvelles initiatives de qualité des données.
Essayez de créer un modèle de test et de trouver des problèmes de données de cette façon. À mesure que vous examinez les résultats, vous pouvez trouver, par exemple, que les projections de ventes sont basées sur des données anormales en raison d’une erreur de conversion monétaire.
Essayez de convertir vos données en différents formats ou d'effectuer un regroupement des nombres. Les modèles émergent souvent lorsque les données sont transformées.
Par exemple, le niveau de service au centre d’appels peut être affecté par le jour de la semaine, ce que vous ne voyez pas si vous utilisiez uniquement les valeurs datetime. Les prévisions peuvent être meilleures lorsqu’elles sont générées sur des cycles de 10 jours plutôt que sur des unités hebdomadaires ou quotidiennes.
Placez des nombres dans les bacs appropriés pour réduire le nombre de valeurs possibles pour l’analyse.
Créez plusieurs versions de vos données et générez plusieurs modèles.
Pour obtenir des conseils supplémentaires sur la sélection, la modification et la révision des données, consultez Liste de contrôle de préparation pour l’exploration de données.
Quelle quantité de données ai-je besoin ?
Une règle de pouce consiste à ne jamais avoir moins de 50 à 100 lignes de données pour les types et scénarios de modèles les plus simples. Par exemple, si vous prévoyez un attribut unique à l’aide d’un modèle Naïve Bayes et que le jeu de données est bien formé, vous pouvez générer des prédictions assez précises à l’aide de 50 à 100 lignes de données.
Pour les modèles d’association, vous avez généralement besoin de beaucoup plus de données : il se peut qu’un millier de lignes ne suffisent pas si vous analysez de nombreux attributs, tels que des associations entre produits. Si votre jeu de données est trop volumineux ou trop petit, vous pouvez parfois obtenir de meilleurs résultats en réduisant les lignes en catégories. Par exemple, au lieu d’analyser des associations entre des produits individuels, vous pouvez catégoriser les produits.
Si vous avez un jeu de données d’une taille raisonnable, concentrez-vous davantage sur la qualité des données plutôt que sur l’ajout de données supplémentaires. Après un point, tous les modèles qui sont statistiquement valides auront été trouvés et l’ajout de données supplémentaires n’améliore pas leur validité. À l’inverse, lorsque vous ajoutez d’autres données, vous pouvez introduire des corrélations accidentelles.
Nombres discrets et continus
Une colonne discrète contient un nombre fini de valeurs. Par exemple, le texte est toujours traité comme des valeurs discrètes.
Il existe des attributs importants pour les valeurs discrètes. Par exemple, si vous traitez les nombres comme discrets, aucun ordre n’est implicite entre eux, et vous ne pouvez pas calculer la moyenne ou la somme des nombres. Les codes de zone téléphonique sont un bon exemple de données numériques discrètes que vous n’utiliseriez jamais pour effectuer des opérations mathématiques.
Les valeurs discrètes sont parfois appelées valeurs catégorielles, car vous pouvez regrouper un ensemble de données par eux, alors que vous ne pouvez pas utiliser de nombres organisés dans une série infinie.
Vous pouvez également décider de traiter les nombres comme discrets lorsque les valeurs sont clairement séparées, et il n’existe aucune possibilité de valeurs fractionnaires, ou les valeurs fractionnaires ne sont pas utiles.
Les données numériques continues peuvent contenir un nombre infini de valeurs fractionnelles. Une colonne de revenu est un exemple de colonne d’attribut continu. Si vous spécifiez qu’une colonne est numérique, chaque valeur de cette colonne doit être un nombre, à l’exception des valeurs Null. Notez que dans Excel, les horodatages et toute autre représentation date-heure qui peut être convertie en type de données SQL Server peut être considérée.
Conversion de nombres en variables catégorielles
Simplement parce qu’une colonne contient des nombres ne signifie pas que vous devez les traiter comme des nombres continus. La discrétisation offre de nombreux avantages pour l’analyse. L’un est que l’espace de problème est réduit. Un autre est que parfois les nombres ne sont pas la façon appropriée d’exprimer un résultat.
Par exemple, le nombre d’enfants par ménage peut être traité comme une valeur continue ou discrète. Étant donné qu’il n’est pas possible d’avoir 2,5 enfants dans le ménage, et les ménages avec 3 ou plus enfants peuvent se comporter très différemment des ménages avec 2 enfants, vous pouvez obtenir de meilleurs résultats en traitant ce nombre comme une catégorie. Toutefois, si vous créez un modèle de régression ou si vous avez besoin d’une moyenne (par exemple, 1,357 enfants par ménage), vous utiliserez un type de données de nombre continu.
Il n’est pas possible de créer un modèle d’exploration de données qui a des données continues, puis de traiter la colonne comme discrète ultérieurement. Les deux jeux de données doivent être traités différemment et sont gérés sur le back-end en tant que structures d’exploration de données distinctes. Si vous ne savez pas comment gérer les données, vous devez créer des modèles distincts qui gèrent les données différemment. Dans tous les cas, il s’agit d’un bon moyen d’obtenir une perspective différente sur vos données, et peut-être des résultats différents.
Conversion de nombres en texte
Très souvent, les valeurs qui doivent être discrètes, telles que Male et Female, sont représentées sous forme de données numériques, à l’aide des étiquettes 1 et 2. En règle générale, ce codage est effectué pour simplifier l’entrée de données ou pour économiser de l’espace de stockage dans une base de données, mais le codage peut entraîner une ambiguïté quant à la nature ou à la signification des valeurs. En outre, étant donné que les valeurs discrètes sont stockées sous forme de nombres, lorsque vous déplacez des données entre les applications, vous pouvez rencontrer des erreurs de conversion de type de données et que les valeurs peuvent être calculées ou traitées comme continues. Pour éviter de tels problèmes, avant de commencer l’exploration de données, vous devez convertir les étiquettes numériques en étiquettes de texte discrètes.
Classification des nombres
Bien que tous les nombres en principe soient infinis et sont donc continus, lorsque vous modélisez des informations, vous pouvez trouver plus efficace pour discrétiser ou biner les valeurs disponibles.
Vous pouvez biner des données de plusieurs façons :
Spécifiez un nombre fini de compartiments et laissez l’algorithme trier les valeurs en compartiments.
Pré-regroupez-les vous-même en créant un ensemble de regroupements qui ont une signification professionnelle ou qui sont plus faciles à utiliser. Avec cette approche, vous manquez souvent la vraie distribution des valeurs, mais les plages sont plus faciles à lire pour les utilisateurs.
Laissez l’algorithme déterminer à la fois le nombre optimal de compartiments et la distribution des valeurs. Il s’agit de la valeur par défaut dans la plupart des outils, mais vous pouvez remplacer ces valeurs par défaut dans les Assistants de barre d’outils d’exploration de données .
Approximer les valeurs à une valeur moyenne centrale ou représentative.
Problèmes de données courants
Formats de nombres dans Excel
Excel est un outil facile à utiliser, car il est pardonnant - vous pouvez mettre à peu près n’importe quel type de données n’importe où ! Toutefois, avant de commencer à rechercher des modèles et à analyser des corrélations, vous devez imposer certaines structures ou contraintes à vos données.
Par défaut, lorsque vous importez des données numériques dans Microsoft Office Excel, les nombres sont stockés dans un format décimal avec deux décimales. S’il ne s’agit pas d’un format numérique approprié, vous devez passer à un autre format numérique ou modifier le nombre de décimales.
Une option consiste à utiliser l’outil Relabel pour modifier la façon dont les nombres sont affichés ou regroupés.
Toutefois, si vos données sont trop complexes à traiter avec l’outil Relabel , vous pouvez utiliser les fonctions numériques dans Excel pour convertir vos données en plages discrètes, enregistrer ce résultat dans une colonne distincte, puis utiliser la colonne discrétisée pour la classification à la place.
Par exemple, si vous analysez les résultats de la course et que vous souhaitez regrouper les coureurs selon leurs temps de fin en minutes, vous pouvez arrondir à la minute la plus proche et enregistrer cette valeur arrondie dans une nouvelle colonne. Vous pouvez également extraire uniquement la valeur minute à l’aide de la MINUTE fonction, puis enregistrer cette valeur dans une nouvelle colonne à utiliser dans l’analyse.
Discrétisation des nombres et des dates dans Excel
Par défaut, les données numériques dans Excel sont stockées en tant que Double. Les dates et heures sont également stockées dans un format numérique. Si vous devez discrétiser des nombres ou des dates pour l’exploration de données, vous devez ajouter de nouvelles colonnes avant de générer votre modèle d’exploration de données, ou convertir des dates et des nombres dans un autre format au préalable.
Formats de nombres scientifiques
Les outils d’exploration de données génèrent souvent des probabilités en notation scientifique, pour représenter des nombres très volumineux ou très petits. Si vous n’êtes pas familiarisé avec la notation scientifique, vous pouvez facilement afficher ces nombres dans un autre format en modifiant simplement la mise en forme des cellules.
Pour modifier la notation scientifique en format numérique décimal
Dans le tableau de données Excel, mettez en surbrillance la colonne ou la cellule qui contient le nombre en notation scientifique.
Cliquez avec le bouton droit et sélectionnez Mettre en forme les cellules dans le menu contextuel.
Dans la liste Catégorie , sélectionnez Numéro.
Augmentez le nombre de décimales. Une probabilité qui est représentée en notation scientifique est généralement très petite.
Seul l’affichage du nombre est modifié, et non la valeur sous-jacente.
Utilisation des dates et des heures
Lorsque vous avez des dates dans un tableau Excel et que vous utilisez la colonne comme entrée ou pour la prédiction, vous pouvez recevoir des résultats inattendus, selon la façon dont les informations de date ou d’heure sont mises en forme. Par exemple, lorsque vous utilisez Détecter des catégories ou classifier et inclure une colonne qui contient des dates, les dates sont classées comme des nombres avec de nombreuses décimales. Il ne s’agit pas d’une erreur ; il s’agit d’une représentation précise des données sous-jacentes. L’algorithme d’exploration de données fonctionne avec le format de stockage sous-jacent, et non avec le format d’affichage.
Si vous avez des difficultés à travailler avec des dates et que vous souhaitez analyser des dates à l’aide de regroupements de sens commun comme mois ou jour, vous pouvez utiliser les fonctions DATE dans Excel pour extraire l’année, le mois ou le jour dans une colonne distincte, puis utiliser cette colonne pour la classification à la place.
Autres exigences en matière de données
Configuration requise par type d’algorithme
Certains algorithmes utilisés dans les compléments nécessitent des types de données ou des types de contenu spécifiques pour créer un modèle.
Modèles Naïve Bayes
L’algorithme Microsoft Naive Bayes ne peut pas utiliser de colonnes continues comme entrée. Cela signifie que vous devez soit regrouper les nombres, ou, s'il y a assez peu de valeurs, les gérer comme des valeurs discrètes.
Ce type de modèle ne peut pas non plus prédire les valeurs continues. Par conséquent, si vous souhaitez prédire un nombre continu tel que le revenu (par exemple), vous devez d’abord compartimenter les valeurs dans des plages significatives. Si vous ne savez pas quelles sont les plages appropriées, vous pouvez utiliser l’algorithme de clustering pour identifier les clusters de nombres dans vos données.
Lorsque vous utilisez un Assistant basé sur cet algorithme (par exemple , Analyser les influenceurs clés (Outils d’analyse de tableau pour Excel)), les colonnes qui sont continues seront binnées par l’Assistant vous.
Si vous générez un modèle Naive Bayes à l’aide de l’option Advanced Modeling (Compléments d’exploration de données pour Excel), les colonnes numériques sont supprimées du modèle. Si vous souhaitez éviter cela, utilisez l'outil Relabel (Plug-ins d'exploration de données SQL Server) pour créer une nouvelle colonne avec des valeurs regroupées.
Modèles de clustering
Les outils de clustering (Assistant Cluster (Compléments d’exploration de données pour Excel) et Détecter les catégories (Outils d’analyse de tableau pour Excel) ne peuvent pas non plus utiliser de nombres continus, mais ces deux outils binent automatiquement les colonnes de numéros pour vous.
Les deux outils vous permettent de choisir le nombre de catégories de sortie dans les résultats, mais si vous souhaitez contrôler la façon dont les valeurs des colonnes individuelles sont regroupées, vous devez créer une colonne avec le regroupement souhaité.
Modèles de prévision
Tous les outils de prévision nécessitent de prédire un nombre continu. Vous ne pouvez pas prédire un nombre qui a été enregistré en tant que texte.
Si vos données contiennent des colonnes numériques dont le type de données est incorrect, vous pouvez utiliser des fonctions Excel ou des fonctions PowerPivot pour effectuer une copie de la colonne qui a le type de données numérique correct. Si vous effectuez cette opération, veillez à supprimer la copie de la colonne qui contient les nombres de texte, afin que les valeurs ne soient pas dupliquées.
Si vous souhaitez créer un nuage de points d’un modèle de régression, les variables d’entrée doivent également être des nombres continus, exprimés en tant que type de données approprié.
Utilisation de types de contenu pour améliorer les modèles
Un type de contenu est une propriété que vous appliquez à une colonne pour spécifier la façon dont les données de colonne doivent être utilisées par le modèle. L’algorithme peut utiliser le type de contenu comme instruction ou indicateur lors de l’exécution de l’analyse.
Par exemple, si une colonne contient des nombres qui se répètent dans un intervalle spécifique pour indiquer les jours de la semaine, vous pouvez spécifier le type de contenu de cette colonne comme Cyclical.
Vous n’avez pas à vous soucier des types de contenu si vous utilisez les Assistants et les outils fournis dans ces compléments. Toutefois, si vous utilisez l’option de modélisation Ajouter un modèle à la structure (compléments d’exploration de données pour Excel) pour ajouter un nouveau modèle aux données existantes, vous risquez d’obtenir une erreur relative aux types de contenu.
La raison est que certains types de modèle nécessitent un certain type de données (par exemple, un horodatage). Les outils traitent ces colonnes en fonction des exigences spécifiques et ajoutent également une propriété de type de contenu. Par conséquent, si vous réutilyez les données avec un algorithme complètement différent, vous devrez peut-être modifier le type de données ou le type de contenu.
La liste suivante décrit les types de contenu utilisés dans l’exploration de données et identifie les types de données qui prennent en charge chaque type.
Discrete
La colonne contient un nombre fini de valeurs sans continuum entre les valeurs. Par exemple, une colonne de genre est une colonne d’attribut discrète classique, dans laquelle les données représentent un nombre spécifique de catégories.
Le Discrete type de contenu peut être utilisé avec tous les types de données.
Continuous
La colonne contient des valeurs qui représentent des données numériques sur une échelle qui autorise les valeurs intermédiaires. Une colonne continue représente des mesures évolutives, et il est possible que les données contiennent un nombre infini de valeurs fractionnaires. Une colonne de températures est un exemple de colonne d’attribut continu.
Le Continuous type de contenu peut être utilisé avec les types de données suivants : Date, Doubleet Long.
Discretized
La colonne contient des valeurs qui représentent des groupes de valeurs qui ont été dérivées d’une colonne continue. Les compartiments sont traités comme des valeurs ordonnées et discrètes.
Le Discretized type de contenu peut être utilisé avec les types de données suivants : Date, Double, Long.
Clé
La colonne identifie de façon unique une ligne.
En règle générale, la colonne clé est un identificateur numérique ou texte qui ne doit pas être utilisé pour l’analyse, uniquement pour le suivi des enregistrements. Les exceptions sont des clés de série chronologique et des clés de séquence.
Les clés de table imbriquées sont utilisées uniquement lorsque vous obtenez des données à partir d’une source de données externe définie comme vue de source de données des Services d'analyse. Pour plus d’informations sur les tables imbriquées, consultez https://msdn.microsoft.com/library/ms175659.aspx:
Ce type de contenu peut être utilisé avec les types de données suivants : Date, , Double, Longet Text.
Séquence de clés
La colonne contient des valeurs qui représentent une séquence d’événements. Les valeurs sont ordonnées, mais n’ont pas besoin d’être à distance égale.
Ce type de contenu est pris en charge par les types de données suivants : Double, , Long, Textet Date.
Moment clé
La colonne contient des valeurs ordonnées et représentant une échelle de temps. Vous pouvez utiliser le type de contenu time clé uniquement si le modèle est un modèle de série chronologique ou un modèle de clustering de séquences.
Ce type de contenu est pris en charge par les types de données suivants : Double, Longet Date.
Table
Ce type de contenu est également utilisé uniquement lorsque vous obtenez des données à partir d’une source de données externe qui a été définie comme vue de source de données Analysis Services.
Cela signifie que chaque ligne de données contient réellement une table de données imbriquée, avec une ou plusieurs colonnes et une ou plusieurs lignes.
Les tables imbriquées sont très pratiques, mais vous pouvez les utiliser uniquement avec les options de modélisation avancée (compléments d’exploration de données pour Excel). Par exemple, les données d'exemple de l’Assistant Associé (Client d’exploration de données pour Excel) et de l’outil Analyse du panier d’achat (Outils d'analyse de table pour Excel) contiennent des données qui ont été aplaties à partir d’une table imbriquée.