Compartir a través de


Medidas en el informe de validación cruzada

Durante la validación cruzada, Analysis Services divide los datos de una estructura de minería de datos en varias secciones cruzadas y, a continuación, prueba iterativamente la estructura y los modelos de minería de datos asociados. En función de este análisis, genera un conjunto de medidas de precisión estándar para la estructura y cada modelo.

El informe contiene información básica sobre el número de pliegues en los datos y la cantidad de datos de cada pliegue, y un conjunto de métricas generales que describen la distribución de datos. Al comparar las métricas generales de cada sección transversal, puede evaluar la confiabilidad de la estructura o el modelo.

Analysis Services también muestra un conjunto de medidas detalladas para los modelos de minería. Estas medidas dependen del tipo de modelo y del tipo de atributo que se está analizando: por ejemplo, si es discreto o continuo.

En esta sección se proporciona una lista de las medidas contenidas en el informe De validación cruzada y lo que significan. Para obtener más información sobre cómo se calcula cada medida, consulte Fórmulas de validación cruzada.

Lista de medidas en el informe de validación cruzada

En la tabla siguiente se enumeran las medidas que aparecen en el informe de validación cruzada. Las medidas se agrupan por tipo de prueba, que se proporciona en la columna izquierda de la tabla siguiente. En la columna derecha se muestra el nombre de la medida tal como aparece en el informe y se proporciona una breve explicación de lo que significa.

Tipo de prueba Medidas y descripciones
Agrupación en clústeres Medidas que se aplican a los modelos de agrupación en clústeres:

Probabilidad de caso: esta medida suele indicar la probabilidad de que un caso pertenezca a un clúster determinado.
Para la validación cruzada, las puntuaciones se sumarán y, a continuación, se dividen por el número de casos, por lo que aquí la puntuación es una probabilidad media de caso.
Clasificación Medidas que se aplican a los modelos de clasificación:

Verdadero positivo/
Verdadero negativo/ Falso positivo/ Falso positivo: recuento de filas o valores en la partición donde el estado previsto coincide con el estado de destino y la probabilidad de predicción es mayor que el umbral especificado. Los casos que tienen valores que faltan para el atributo de destino se excluyen, lo que significa que es posible que los recuentos de todos los valores no se agreguen.
Paso/error: recuento de filas o valores en la partición donde el estado previsto coincide con el estado de destino y donde el valor de probabilidad de predicción es mayor que 0.
Probabilidad Las medidas de probabilidad se aplican a varios tipos de modelo:

Lift: proporción de la probabilidad de predicción real con la probabilidad marginal en los casos de prueba. Se excluyen las filas que tienen valores que faltan para el atributo de destino. En general, esta medida muestra cuánto mejora la probabilidad del resultado de destino cuando se usa el modelo.

Error cuadrático medio: raíz cuadrada del error medio de todos los casos de partición, dividido por el número de casos en la partición, excluyendo las filas con valores faltantes en el atributo objetivo. RMSE es un estimador popular para los modelos predictivos. La puntuación media los valores residuales de cada caso para producir un único indicador de error del modelo.

Puntuación de registro: logaritmo de la probabilidad real de cada caso, sumado y, a continuación, dividido por el número de filas del conjunto de datos de entrada, excluyendo las filas que tienen valores que faltan para el atributo de destino. Dado que la probabilidad se representa como una fracción decimal, las puntuaciones logarítmicas siempre son números negativos. Un número más cercano a 0 es una mejor puntuación. Mientras que las puntuaciones sin procesar pueden tener distribuciones muy irregulares o sesgadas, una puntuación de registro es similar a un porcentaje.
Estimación Medidas que solo se aplican a los modelos de estimación, que predicen un atributo numérico continuo:

Error cuadrático medio raíz: error medio cuando el valor previsto se compara con el valor real. RMSE es un estimador popular para los modelos predictivos. La puntuación media los valores residuales de cada caso para producir un único indicador de error del modelo.

Error absoluto medio: error medio cuando los valores previstos se comparan con los valores reales, calculados como la media de la suma absoluta de errores. El error absoluto medio es útil para comprender la proximidad general de las predicciones a los valores reales. Una puntuación más pequeña significa que las predicciones eran más precisas.

Puntuación de registro: logaritmo de la probabilidad real de cada caso, sumado y, a continuación, dividido por el número de filas del conjunto de datos de entrada, excluyendo las filas que tienen valores que faltan para el atributo de destino. Dado que la probabilidad se representa como una fracción decimal, las puntuaciones logarítmicas siempre son números negativos. Un número más cercano a 0 es una mejor puntuación. Mientras que las puntuaciones sin procesar pueden tener distribuciones muy irregulares o sesgadas, una puntuación de registro es similar a un porcentaje.
Agregados Las medidas de agregado proporcionan una indicación de la varianza en los resultados de cada partición:

Media: promedio de los valores de partición de una medida determinada.

Desviación estándar: promedio de la desviación de la media para una medida específica, en todas las particiones de un modelo. Para la validación cruzada, un valor mayor para este indicador indica una variación sustancial entre los pliegues.

Véase también

Pruebas y validación (minería de datos)