Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
L’algorithme Microsoft Naive Bayes est un algorithme de classification fourni par Microsoft SQL Server Analysis Services pour une utilisation dans la modélisation prédictive. L’algorithme calcule la probabilité conditionnelle entre les colonnes d’entrée et prévisibles, et suppose que les colonnes sont indépendantes. Cette hypothèse d'indépendance conduit au nom Naïve Bayes.
Implémentation de l’algorithme Microsoft Naive Bayes
Cet algorithme est moins intense de calcul que d’autres algorithmes Microsoft. Il est donc utile de générer rapidement des modèles d’exploration de données pour découvrir les relations entre les colonnes d’entrée et les colonnes prévisibles. L’algorithme considère chaque paire de valeurs d’attribut d’entrée et les valeurs d’attribut de sortie.
Une description des propriétés mathématiques de Bayes Theorem dépasse la portée de cette documentation ; pour plus d’informations, consultez le document de Microsoft Research intitulé Learning Bayesian Networks : The Combination of Knowledge and Statistical Data.
Pour obtenir une description de la façon dont les probabilités dans tous les modèles sont ajustées pour tenir compte des valeurs manquantes potentielles, consultez Valeurs manquantes (Analysis Services - Exploration de données).
Sélection de caractéristiques
L’algorithme Microsoft Naive Bayes effectue la sélection automatique des fonctionnalités pour limiter le nombre de valeurs prises en compte lors de la génération du modèle. Pour plus d’informations, consultez Sélection des fonctionnalités (exploration de données).
| Algorithme | Méthode d’analyse | Commentaires |
|---|---|---|
| Naïve Bayes | Entropie de Shannon Bayésien avec K2 Prior Bayesien-Dirichlet avec un a priori uniforme (valeur par défaut) |
Naive Bayes accepte uniquement les attributs discrets ou discrétisés ; par conséquent, il ne peut pas utiliser le score d’intérêt. |
L’algorithme est conçu pour réduire le temps de traitement et sélectionner efficacement les attributs qui ont la plus grande importance ; Toutefois, vous pouvez contrôler les données utilisées par l’algorithme en définissant des paramètres comme suit :
Pour limiter les valeurs utilisées en tant qu’entrées, réduisez la valeur de MAXIMUM_INPUT_ATTRIBUTES.
Pour limiter le nombre d’attributs analysés par le modèle, diminuez la valeur de MAXIMUM_OUTPUT_ATTRIBUTES.
Pour limiter le nombre de valeurs qui peuvent être prises en compte pour n’importe quel attribut, diminuez la valeur de MINIMUM_STATES.
Personnalisation de l’algorithme Naive Bayes
L’algorithme Microsoft Naive Bayes prend en charge plusieurs paramètres qui affectent le comportement, les performances et la précision du modèle d’exploration de données résultant. Vous pouvez également définir des indicateurs de modélisation sur les colonnes de modèle pour contrôler la façon dont les données sont traitées, ou définir des indicateurs sur la structure d’exploration de données pour spécifier la façon dont les valeurs manquantes ou les valeurs Null doivent être gérées.
Définition des paramètres d’algorithme
L’algorithme Microsoft Naive Bayes prend en charge plusieurs paramètres qui affectent les performances et la précision du modèle d’exploration de données résultant. Le tableau suivant décrit chaque paramètre.
ATTRIBUTS_D'ENTRÉE_MAXIMAUX
Spécifie le nombre maximal d’attributs d’entrée que l’algorithme peut gérer avant d’appeler la sélection des fonctionnalités. La définition de cette valeur sur 0 désactive la sélection des fonctionnalités pour les attributs d’entrée.
La valeur par défaut est 255.
MAXIMUM_OUTPUT_ATTRIBUTES
Spécifie le nombre maximal d’attributs de sortie que l’algorithme peut gérer avant d’appeler la sélection de fonctionnalités. La définition de cette valeur sur 0 désactive la sélection de fonctionnalités pour les attributs de sortie.
La valeur par défaut est 255.
MINIMUM_DEPENDENCY_PROBABILITY
Spécifie la probabilité de dépendance minimale entre les attributs d’entrée et de sortie. Cette valeur est utilisée pour limiter la taille du contenu généré par l’algorithme. Cette propriété peut être définie de 0 à 1. Les valeurs plus grandes réduisent le nombre d’attributs dans le contenu du modèle.
La valeur par défaut est 0.5.
MAXIMUM_STATES
Spécifie le nombre maximal d’états d’attribut pris en charge par l’algorithme. Si le nombre d’états dont dispose un attribut est supérieur au nombre maximal d’états, l’algorithme utilise les états les plus populaires de l’attribut et traite les états restants comme manquants.
La valeur par défaut est 100.
Drapeaux de modélisation
L’algorithme Microsoft Decision Trees prend en charge les indicateurs de modélisation suivants. Lorsque vous créez la structure d’exploration de données ou le modèle d’exploration de données, vous définissez des indicateurs de modélisation pour spécifier la façon dont les valeurs de chaque colonne sont gérées pendant l’analyse. Pour plus d’informations, consultez Indicateurs de modélisation (exploration de données).
| Indicateur de modélisation | Descriptif |
|---|---|
| MODÈLE_EXISTENCE_SEULEMENT | Signifie que la colonne sera traitée comme ayant deux états possibles : Manquant et Existant. Une valeur Null est manquante. S’applique à la colonne du modèle d’exploration de données. |
| NON NUL | Indique que la colonne ne peut pas contenir de valeur Null. Une erreur se produit si Analysis Services rencontre une valeur Null pendant l’entraînement du modèle. S’applique à la colonne de structure d’exploration de données. |
Spécifications
Un modèle d’arbre Naive Bayes doit contenir une colonne clé, au moins un attribut prédictible et au moins un attribut d’entrée. Aucun attribut ne peut être continu ; si vos données contiennent des données numériques continues, elles sont ignorées ou discrétisées.
Colonnes d'entrée et colonnes prévisibles
L’algorithme Microsoft Naive Bayes prend en charge les colonnes d’entrée spécifiques et les colonnes prévisibles répertoriées dans le tableau suivant. Pour plus d’informations sur ce que signifient les types de contenu lorsqu’ils sont utilisés dans un modèle d’exploration de données, consultez Content Types (Exploration de données).
| Colonne | Types de contenu |
|---|---|
| Attribut d’entrée | Cyclique, discret, discrétisé, clé, table et ordonné |
| Attribut prédictible | Cyclique, distinct, discrétisé, table et ordonné |
Remarque
Les types de contenu cycliques et ordonnés sont pris en charge, mais l’algorithme les traite comme des valeurs discrètes et n’effectue pas de traitement spécial.
Voir aussi
Algorithme Microsoft Naive Bayes
Exemples de requête de modèle Naive Bayes
Contenu du modèle d’exploration de données pour les modèles Naive Bayes (Analysis Services - Exploration de données)