Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este tema se describe el contenido del modelo de minería de datos específico de los modelos que usan el algoritmo Bayes naive de Microsoft. Para obtener una explicación de cómo interpretar las estadísticas y la estructura compartidas por todos los tipos de modelo y las definiciones generales de términos relacionados con el contenido del modelo de minería de datos, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).
Descripción de la estructura de un modelo bayes naive
Un modelo Bayes naive tiene un único nodo primario que representa el modelo y sus metadatos, y debajo de ese nodo primario, cualquier número de árboles independientes que representen los atributos de predicción seleccionados. Además de los árboles de los atributos, cada modelo contiene un nodo de estadísticas marginales (NODE_TYPE = 26) que proporciona estadísticas descriptivas sobre el conjunto de casos de entrenamiento. Para obtener más información, vea Información en el nodo Estadísticas marginales.
Para cada atributo y valor de predicción, el modelo genera un árbol que contiene información que describe cómo las distintas columnas de entrada afectan al resultado de esa predicción concreta. Cada árbol contiene el atributo de predicción y su valor (NODE_TYPE = 9) y, a continuación, una serie de nodos que representan los atributos de entrada (NODE_TYPE = 10). Dado que los atributos de entrada suelen tener varios valores, cada atributo de entrada (NODE_TYPE = 10) puede tener varios nodos secundarios (NODE_TYPE = 11), cada uno para un estado específico del atributo.
Nota:
Dado que un modelo Bayes ingenuo no permite tipos de datos continuos, todos los valores de las columnas de entrada se tratan como discretos o discretizados. Puede especificar cómo se discretiza un valor. Para obtener más información, cambie la discretización de una columna en un modelo de minería de datos.
Contenido del modelo para un modelo bayes naive
En esta sección se proporcionan detalles y ejemplos solo para aquellas columnas del contenido del modelo de minería que tienen especial relevancia para los modelos de Bayes ingenuo.
Para obtener información sobre las columnas de uso general del conjunto de filas de esquema, como MODEL_CATALOG y MODEL_NAME, que no se describen aquí o para obtener explicaciones de la terminología del modelo de minería de datos, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).
CATÁLOGO_DE_MODELOS
Nombre de la base de datos donde se almacena el modelo.
MODEL_NAME
Nombre del modelo.
ATTRIBUTE_NAME
Nombres de los atributos que corresponden a este nodo.
Raíz del modelo Nombre del atributo de predicción.
Estadísticas marginales No aplicable
Atributo de predicción Nombre del atributo de predicción.
Atributo de entrada Nombre del atributo de entrada.
Estado del atributo de entrada El nombre del atributo de entrada solo. Para obtener el estado, utilice MSOLAP_NODE_SHORT_CAPTION.
NODE_NAME
El nombre del nodo.
Esta columna contiene el mismo valor que NODE_UNIQUE_NAME.
Para obtener más información sobre las convenciones de nomenclatura de nodos, consulte Uso de nombres de nodo e identificadores.
NODO_NOMBRE_UNICO
Nombre único del nodo. Los nombres únicos se asignan según una convención que proporcione información sobre las relaciones entre los nodos. Para obtener más información sobre las convenciones de nomenclatura de nodos, consulte Uso de nombres de nodo e identificadores.
TIPO_DE_NODO
Un modelo Bayes naive genera los siguientes tipos de nodo:
| Id. de tipo de nodo | Descripción |
|---|---|
| 26 (NaiveBayesMarginalStatNode) | Contiene estadísticas que describen todo el conjunto de casos de entrenamiento para el modelo. |
| 9 (atributo de predicción) | Contiene el nombre del atributo de predicción. |
| 10 (atributo de entrada) | Contiene el nombre de una columna de atributo de entrada y los nodos secundarios que contienen los valores del atributo . |
| 11 (estado de atributo de entrada) | Contiene los valores o valores discretizados de todos los atributos de entrada que se emparejaron con un atributo de salida determinado. |
NODE_CAPTION
Etiqueta o título asociado al nodo. Esta propiedad es principalmente para fines de visualización.
Raíz del modelo en blanco
Estadísticas marginales en blanco
Atributo de predicción Nombre del atributo de predicción.
Atributo de entrada Nombre del atributo de predicción y del atributo de entrada actual. Por ejemplo:
Comprador de Bicicletas -> Edad
Estado del atributo de entrada Nombre del atributo de predicción y del atributo de entrada actual, además del valor de la entrada. Por ejemplo:
Comprador de bicicletas -> Edad = Falta
CARDINALIDAD_DE_HIJOS
Número de nodos hijos que tiene el nodo.
Raíz del modelo Recuento de atributos de predicción en el modelo más 1 para el nodo de estadísticas marginales.
Estadísticas marginales Por definición no tiene elementos secundarios.
Atributo de predicción Recuento de los atributos de entrada relacionados con el atributo de predicción actual.
Atributo de entrada Recuento de los valores discretos o discretizados para el atributo de entrada actual.
Estado del atributo de entrada Siempre 0.
NOMBRE_UNICO_PADRE
Nombre único del nodo primario. Para obtener más información sobre los nodos primarios y secundarios relacionados, consulte Uso de nombres de nodo e identificadores.
DESCRIPCIÓN_DEL_NODO
Igual que el título del nodo.
REGLA_NODO
Representación XML del título del nodo.
REGLA MARGINAL
Igual que la regla de nodo.
Probabilidad de Nodo
Probabilidad asociada a este nodo.
Raíz del modelo Siempre 0.
Estadísticas marginales Siempre 0.
Atributo de predicción Siempre 1.
Atributo de entrada Siempre 1.
Estado del atributo de entrada Número decimal que representa la probabilidad del valor actual. Los valores de todos los estados de atributo de entrada en el nodo del atributo de entrada primario suman a 1.
PROBABILIDAD MARGINAL
Igual que la probabilidad del nodo.
DISTRIBUCIÓN_DEL_NODO
Tabla que contiene el histograma de probabilidad para el nodo. Para obtener más información, consulte la tabla NODE_DISTRIBUTION.
SOPORTE_DE_NODO
Número de casos que admiten este nodo.
Raíz del modelo Número total de casos en los datos de entrenamiento.
Estadísticas marginales Siempre 0.
Atributo predecible Recuento de todos los casos en los datos de entrenamiento.
Atributo de entrada Recuento de todos los casos en los datos de entrenamiento.
Estado del atributo de entrada Recuento de casos en los datos de entrenamiento que contienen solo este valor determinado.
MSOLAP_MODEL_COLUMN
Etiqueta que se usa con fines de visualización. Normalmente lo mismo que ATTRIBUTE_NAME.
MSOLAP_NODE_SCORE
Representa la importancia del atributo o valor dentro del modelo.
Raíz del modelo Siempre 0.
Estadísticas marginales Siempre 0.
Atributo de predicción Siempre 0.
Atributo de entrada Puntuación de interés para el atributo de entrada actual en relación con el atributo de predicción actual.
Estado del atributo de entrada Siempre 0.
MSOLAP_NODE_SHORT_CAPTION
Cadena de texto que representa el nombre o el valor de una columna.
Raíz del modelo Espacio en blanco
Estadísticas marginales Espacio en blanco
Atributo de predicción Nombre del atributo de predicción.
Atributo de entrada Nombre del atributo de entrada.
Estado del atributo de entrada Valor o valor discretizado del atributo de entrada.
Uso de nombres e identificadores de nodo
La nomenclatura de los nodos en un modelo bayes naive proporciona información adicional sobre el tipo de nodo para facilitar la comprensión de las relaciones entre la información del modelo. En la tabla siguiente se muestra la convención de los identificadores asignados a distintos tipos de nodo.
| Tipo de nodo | Convención para el identificador de nodo |
|---|---|
| Raíz del modelo (1) | Siempre es 0. |
| Nodo de estadísticas marginales (26) | Valor de identificador arbitrario. |
| Atributo de predicción (9) | Número hexadecimal a partir de 100000000 Ejemplo: 100000001, 10000000b |
| Atributo de entrada (10) | Número hexadecimal de dos partes donde la primera parte es siempre 200000000 y la segunda parte comienza con el identificador hexadecimal del atributo de predicción relacionado. Ejemplo: 200000000b000000000 En este caso, el atributo de predicción relacionado es 10000000b. |
| Estado del atributo de entrada (11) | Número hexadecimal de tres partes donde la primera parte es siempre 300000000, la segunda parte comienza con el identificador hexadecimal del atributo de predicción relacionado y la tercera parte representa el identificador del valor. Ejemplo: 300000000b00000000200000000000 En este caso, el atributo de predicción relacionado es 10000000b. |
Puede usar los identificadores para relacionar los atributos y estados de entrada con un atributo predecible. Por ejemplo, la consulta siguiente devuelve los nombres y los subtítulos de los nodos que representan las posibles combinaciones de atributos de entrada y predicción para el modelo, TM_NaiveBayes.
SELECT NODE_NAME, NODE_CAPTION
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 10
Resultados esperados:
| NODE_NAME | NODE_CAPTION |
|---|---|
| 20000000000000001 | Bike Buyer -> Distancia del trayecto |
| 20000000000000002 | Bike Buyer -> Educación en Inglés |
| 20000000000000003 | Comprador de bicicletas -> Ocupación en inglés |
| 20000000000000009 | Bike Buyer -> Estado civil |
| 2000000000000000a | Comprador de Bicicletas -> Número de hijos en casa |
| 2000000000000000b | Comprador de Bicicletas -> Región |
| 2000000000000000c | Comprador de Bicicletas -> Total de Niños |
A continuación, puede usar los identificadores de los nodos primarios para recuperar los nodos secundarios. La consulta siguiente recupera los nodos que contienen valores para el Marital Status atributo, junto con la probabilidad de cada nodo.
SELECT NODE_NAME, NODE_CAPTION, NODE_PROBABILITY
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 11
AND [PARENT_UNIQUE_NAME] = '20000000000000009'
Nota:
El nombre de la columna, PARENT_UNIQUE_NAME, debe estar entre corchetes para distinguirlo de la palabra clave reservada del mismo nombre.
Resultados esperados:
| NODE_NAME | NODE_CAPTION | Probabilidad de Nodo |
|---|---|---|
| 3000000000000000900000000 | Bike Buyer -> Estado civil = Falta | 0 |
| 3000000000000000900000001 | Bike Buyer -> Estado civil = Soltero | 0.457504004 |
| 3000000000000000900000002 | Bike Buyer -> Estado civil = "C" | 0.542495996 |
Tabla de NODE_DISTRIBUTION
La columna de tabla anidada, NODE_DISTRIBUTION, normalmente contiene estadísticas sobre la distribución de valores en el nodo. En un modelo Bayes naive, esta tabla solo se rellena para los nodos siguientes:
| Tipo de nodo | Contenido de la tabla anidada |
|---|---|
| Raíz del modelo (1) | Espacio en blanco. |
| Nodo de estadísticas marginales (24) | Contiene información de resumen para todos los atributos de predicción y atributos de entrada, para todo el conjunto de datos de entrenamiento. |
| Atributo de predicción (9) | Espacio en blanco. |
| Atributo de entrada (10) | Espacio en blanco. |
| Estado del atributo de entrada (11) | Contiene estadísticas que describen la distribución de valores en los datos de entrenamiento para esta combinación concreta de un valor predecible y un valor de atributo de entrada. |
Puede usar los identificadores de nodo o los títulos de nodo para recuperar niveles de detalle crecientes. Por ejemplo, la consulta siguiente recupera columnas específicas de la tabla NODE_DISTRIBUTION solo para los nodos de atributo de entrada relacionados con el valor , 'Marital Status = S'.
SELECT FLATTENED NODE_CAPTION,
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [SUPPORT], [PROBABILITY], VALUETYPE
FROM NODE_DISTRIBUTION) as t
FROM TM_NaiveBayes.content
WHERE NODE_TYPE = 11
AND NODE_CAPTION = 'Bike Buyer -> Marital Status = S'
Resultados esperados:
| TÍTULO_DEL_NODO | t.ATTRIBUTE_NAME | t.ATTRIBUTE_VALUE | t.SOPORTE | t.PROBABILIDAD | t.VALUETYPE |
|---|---|---|---|---|---|
| Bike Buyer -> Estado civil = S | Comprador de Bicicletas | Desaparecido | 0 | 0 | 1 |
| Bike Buyer -> Estado civil = Soltero/a | Comprador de Bicicletas | 0 | 3783 | 0.472934117 | 4 |
| Bike Buyer -> Estado civil = Soltero | Comprador de bicicletas | 1 | 4216 | 0.527065883 | 4 |
En estos resultados, el valor de la columna SUPPORT indica el recuento de clientes con el estado civil especificado que compró una bicicleta. La columna PROBABILITY contiene la probabilidad de cada valor de atributo, como se calcula solo para este nodo. Para obtener definiciones generales de términos usados en la tabla NODE_DISTRIBUTION, vea Contenido del modelo de minería de datos (Analysis Services - Minería de datos).
Información en el nodo Estadísticas marginales
En un modelo Bayes naive, la tabla anidada para el nodo de estadísticas marginales contiene la distribución de valores para todo el conjunto de datos de entrenamiento. Por ejemplo, la tabla siguiente contiene una lista parcial de las estadísticas de la tabla NODE_DISTRIBUTION anidada para el modelo, TM_NaiveBayes:
| ATTRIBUTE_NAME | VALOR_DE_ATRIBUTO | SOPORTE TÉCNICO | PROBABILIDAD | VARIANZA | tipo de valor |
|---|---|---|---|---|---|
| Comprador de bicicletas | Desaparecido | 0 | 0 | 0 | 1 |
| Comprador de bicicletas | 0 | 8869 | 0.507263784 | 0 | 4 |
| Comprador de Bicicletas | 1 | 8615 | 0.492736216 | 0 | 4 |
| Estado civil | Desaparecido | 0 | 0 | 0 | 1 |
| Estado civil | S | 7,999 | 0.457504004 | 0 | 4 |
| Estado civil | M | 9485 | 0.542495996 | 0 | 4 |
| Total de niños | Desaparecido | 0 | 0 | 0 | 1 |
| Total de niños | 0 | 4865 | 0.278254404 | 0 | 4 |
| Total de niños | 3 | 2093 | 0.119709449 | 0 | 4 |
| Total de niños | 1 | 3406 | 0.19480668 | 0 | 4 |
La Bike Buyer columna se incluye porque el nodo de estadísticas marginales siempre contiene una descripción del atributo de predicción y sus valores posibles. Todas las demás columnas enumeradas representan atributos de entrada, junto con los valores que se usaron en el modelo. Los valores solo pueden faltar, ser discretos o estar discretizados.
En un modelo Bayes naive, no puede haber atributos continuos; Por lo tanto, todos los datos numéricos se representan como discretos (VALUE_TYPE = 4) o discretizados (VALUE_TYPE = 5).
Se agrega un Missing valor (VALUE_TYPE = 1) a cada atributo de entrada y salida para representar valores potenciales que no estaban presentes en los datos de entrenamiento. Debe tener cuidado de distinguir entre "ausente" como una cadena y el valor predeterminado Missing. Para obtener más información, consulte Valores que faltan (Analysis Services - Minería de datos).
Véase también
Contenido del modelo de minería de datos (Servicios de Análisis - Minería de datos)
Visores de modelos de minería de datos
Consultas de minería de datos
Algoritmo bayes naive de Microsoft