Partager via


Algorithme Microsoft Naïve Bayes

L’algorithme Microsoft Naive Bayes est un algorithme de classification basé sur les théorèmes de Bayes et fourni par Microsoft SQL Server Analysis Services pour une utilisation dans la modélisation prédictive. Le mot naïve dans le nom Naïve Bayes dérive du fait que l’algorithme utilise des techniques bayésiennes, mais ne prend pas en compte les dépendances qui peuvent exister.

Cet algorithme est moins intense de calcul que d’autres algorithmes Microsoft. Il est donc utile de générer rapidement des modèles d’exploration de données pour découvrir les relations entre les colonnes d’entrée et les colonnes prévisibles. Vous pouvez utiliser cet algorithme pour effectuer l’exploration initiale des données, puis ensuite, vous pouvez appliquer les résultats pour créer des modèles d’exploration de données supplémentaires avec d’autres algorithmes plus intenses et plus précis en calcul.

Exemple :

En tant que stratégie promotionnelle en cours, le service marketing de la société Adventure Works Cycle a décidé de cibler les clients potentiels en publipostant des fliers. Pour réduire les coûts, ils veulent envoyer des fliers uniquement à ceux qui sont susceptibles de répondre. La société stocke des informations dans une base de données sur les données démographiques et la réponse à un publipostage précédent. Ils souhaitent utiliser ces données pour voir comment les données démographiques telles que l’âge et l’emplacement peuvent aider à prédire la réponse à une promotion, en comparant les clients potentiels aux clients qui ont des caractéristiques similaires et qui ont acheté auprès de l’entreprise par le passé. Plus précisément, ils veulent voir les différences entre les clients qui ont acheté un vélo et ceux qui n’ont pas fait.

En utilisant l’algorithme Microsoft Naive Bayes, le service marketing peut prédire rapidement un résultat pour un profil client particulier et peut donc déterminer quels clients sont les plus susceptibles de répondre aux fliers. En utilisant le Microsoft Naive Bayes Viewer dans SQL Server Data Tools (SSDT), ils peuvent également examiner visuellement quelles colonnes d’entrée contribuent à des réponses positives aux prospectus.

Fonctionnement de l’algorithme

L’algorithme Microsoft Naive Bayes calcule la probabilité de chaque état de chaque colonne d’entrée, en fonction de chaque état possible de la colonne prédictible.

Pour comprendre comment cela fonctionne, utilisez la visionneuse Microsoft Naive Bayes dans SQL Server Data Tools (SSDT) (comme illustré dans le graphique suivant) pour explorer visuellement comment l’algorithme distribue les états.

Distribution naïve bayésienne des états

Ici, la Visionneuse Microsoft Naive Bayes répertorie chaque colonne d’entrée dans le jeu de données et montre comment les états de chaque colonne sont distribués, en fonction de chaque état de la colonne prévisible.

Vous utiliserez cette vue du modèle pour identifier les colonnes d’entrée importantes pour différencier les états de la colonne prévisible.

Par exemple, dans la ligne de distance commutée indiquée ici, la distribution des valeurs d’entrée est visiblement différente pour les acheteurs et les non-acheteurs. Ce que cela vous dit, c'est que l'entrée : Commute Distance = 0-1 miles, constitue un prédicteur potentiel.

La visionneuse fournit également des valeurs pour les distributions, de sorte que vous pouvez voir que pour les clients qui se déplacent sur une distance de un à deux miles pour aller travailler, la probabilité qu'ils achètent un vélo est de 0,387, et la probabilité qu'ils n'achètent pas de vélo est de 0,287. Dans cet exemple, l’algorithme utilise les informations numériques, dérivées des caractéristiques du client (telles que la distance de trajet), pour prédire si un client achètera un vélo.

Pour plus d’informations sur l’utilisation de la visionneuse Microsoft Naive Bayes, consultez Parcourir un modèle à l’aide de la visionneuse Microsoft Naive Bayes.

Données requises pour les modèles Naive Bayes

Lorsque vous préparez des données à utiliser pour l’apprentissage d’un modèle Naive Bayes, vous devez comprendre les exigences de l’algorithme, y compris la quantité de données nécessaires et la façon dont les données sont utilisées.

Les exigences d’un modèle Naive Bayes sont les suivantes :

  • Une seule colonne clé Chaque modèle doit contenir une colonne numérique ou texte qui identifie de manière unique chaque enregistrement. Les clés composées ne sont pas autorisées.

  • Colonnes d’entrée Dans un modèle Naive Bayes, toutes les colonnes doivent être discrètes ou discrétisées. Pour plus d’informations sur la discrétisation des colonnes, consultez Méthodes de discrétisation (exploration de données).

    Pour un modèle Naive Bayes, il est également important de s’assurer que les attributs d’entrée sont indépendants les uns des autres. Cela est particulièrement important lorsque vous utilisez le modèle pour la prédiction.

    C’est pourquoi, si vous utilisez deux colonnes de données déjà étroitement liées, l’effet serait de multiplier l’influence de ces colonnes, ce qui peut masquer d’autres facteurs qui influencent le résultat.

    À l’inverse, la capacité de l’algorithme à identifier les corrélations entre les variables est utile lorsque vous explorez un modèle ou un jeu de données, pour identifier les relations entre les entrées.

  • Au moins une colonne prévisible L’attribut prédictible doit contenir des valeurs discrètes ou discrétisées.

    Les valeurs de la colonne prévisible peuvent être traitées comme des entrées. Cette pratique peut être utile lorsque vous explorez un nouveau jeu de données pour trouver des relations entre les colonnes.

Affichage du modèle

Pour explorer le modèle, vous pouvez utiliser la visionneuse Microsoft Naive Bayes. La visionneuse vous montre comment les attributs d’entrée sont liés à l’attribut prédictible. La visionneuse fournit également un profil détaillé de chaque cluster, une liste des attributs qui distinguent chaque cluster des autres et les caractéristiques de l’ensemble du jeu de données d’entraînement. Pour plus d’informations, consultez Parcourir un modèle à l’aide du visualiseur Microsoft Naive Bayes.

Si vous souhaitez en savoir plus, vous pouvez parcourir le modèle dans microsoft Generic Content Tree Viewer (Exploration de données). Pour plus d’informations sur le type d’informations stockées dans le modèle, consultez Contenu du modèle d’exploration de données pour les modèles Naive Bayes (Analysis Services - Exploration de données).

Réalisation de prédictions

Une fois le modèle entraîné, les résultats sont stockés sous la forme d’un ensemble de modèles, que vous pouvez explorer ou utiliser pour effectuer des prédictions.

Vous pouvez créer des requêtes pour retourner des prédictions sur la façon dont les nouvelles données sont liées à l’attribut prédictible, ou vous pouvez récupérer des statistiques qui décrivent les corrélations trouvées par le modèle.

Pour plus d’informations sur la création de requêtes sur un modèle d’exploration de données, consultez Requêtes d’exploration de données. Pour obtenir des exemples d’utilisation de requêtes avec un modèle Naive Bayes, consultez exemples de requêtes de modèle Naive Bayes.

Remarques

  • Prend en charge l’utilisation du langage de balisage de modèle prédictif (PMML) pour créer des modèles d’exploration de données.

  • Prend en charge l’exploration détaillée.

  • Ne prend pas en charge la création de dimensions d’exploration de données.

  • Prend en charge l’utilisation de modèles d’exploration de données OLAP.

Voir aussi

Algorithmes d’exploration de données (Analysis Services - Exploration de données)Sélection de fonctionnalités (Exploration de données)Exemples de requêtes pour le modèle Naive BayesContenu des modèles d’exploration pour les modèles Naive Bayes (Analysis Services - Exploration de données)Référence technique de l’algorithme Naive Bayes