Compartir a través de


kit de herramientas de Ciencia de datos: cubos de registros lineales

El cubo de registros lineales es una característica del servicio de modelo personalizado de regresión logística.

La asignación de datos es una forma de procesar previamente los datos que reduce los efectos de los errores de observación menores. En lugar de examinar todos los valores de datos individuales de un conjunto, divida el conjunto en intervalos o cubos y sustituya el valor del cubo por los valores individuales que se encuentran dentro de él. Normalmente, esto se usa para los datos en los que los valores no se distribuyen normalmente. Los datos que reflejan las actividades humanas o las características humanas suelen tener una distribución de cola pesada. Hay muchas entradas de valor más pequeñas, con valores que pueden ser muy grandes pero son cada vez más raros. Es posible que no haya un límite en cuanto al tamaño que pueden obtener los valores. Dado que estos datos están tan distribuidos, es difícil crear un modelo estadístico sólido a partir de ellos. Si agrupa como datos en su lugar, puede obtener más datos en menos instancias y, por tanto, crear un modelo más seguro.

Por ejemplo, queremos crear un modelo personalizado que use la característica de antigüedad de cookies. La antigüedad de las cookies se almacena en minutos, por lo que podría ser un valor entre 1 minuto y varios meses (100 000 minutos). Aunque es posible que veamos una diferencia significativa en las acciones del usuario para los usuarios con cookies de entre 1 minuto y 60 minutos de antigüedad, probablemente no veremos una diferencia significativa entre los usuarios con cookies de 99 000 minutos de antigüedad y los usuarios con cookies de 99 060 años. Necesitamos alguna manera de crear cubos más pequeños y más espaciados para los valores más pequeños y cubos más grandes y más extendidos para los valores más grandes.

Para ello, Xandr usa una técnica denominada cubo de registros lineales.

Funcionamiento del cubo de registros lineales

El cubo de registros lineales combina los enfoques adoptados por el cubo lineal y el cubo de registros.

El cubo lineal aumenta el tamaño de cada cubo en la misma cantidad para cada intervalo. Por ejemplo, si creó cubos que aumentaron en 2 cada vez, tendría cubos en 2, 4, 6, 8, 10, 12, 14, etc. Esto funciona bien para agrupar los valores más pequeños en cubos espaciados uniformemente, pero no resuelve el problema de agrupar los valores más grandes y más espaciados entre sí. Incluso si solo tiene puntos de datos entre 100 000 y 100 050, todavía tiene cubos en 100 002 ... 100,048.

El cubo de registros aumenta el tamaño del cubo en una potencia de dos para cada intervalo. Esto da como resultado cubos en 2, 4, 8, 16, 32, 64, 128, etc. Esto funciona bien para agrupar valores grandes y ampliamente distribuidos, pero tiene menos paridad para los intervalos entre números más pequeños.

El cubo de registros lineales usa cubos lineales para un intervalo inicial especificado y, a continuación, realiza cubos logarítmicos para el resto de los valores.

Este gráfico traza el aumento en los tamaños de cubo. El eje X es el valor de la característica y el eje Y es el número de cubo.

Captura de pantalla de un gráfico que muestra el aumento en los tamaños de cubo.

Xandr también admite el sub bucketing para reducir el margen de error y proporcionarle más control sobre cómo funciona el cubo. Puede crear sub buckets para subdividir cada cubo en unos cuantos cubos más pequeños. Esto es especialmente útil en el extremo más grande del intervalo logarítmico.  

Modelos de regresión logística