Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Esta página es una introducción a las funcionalidades disponibles cuando se usa el Almacén de características de Databricks con el catálogo de Unity.
El Almacén de características de Databricks proporciona un registro central para las características que se usan en los modelos de INTELIGENCIA ARTIFICIAL y aprendizaje automático. Las tablas y modelos de características se registran en el catálogo de Unity, lo que proporciona gobernanza integrada, linaje y uso compartido y detección de características entre áreas de trabajo. Con Databricks, todo el flujo de trabajo de entrenamiento del modelo tiene lugar en una sola plataforma, entre las que se incluyen:
- Canalizaciones de datos que ingieren datos sin procesar, crean tablas de características, entrenan modelos y realizan la inferencia por lotes.
- Los puntos de conexión de servicio de modelos y características que están disponibles con un solo clic y que proporcionan milisegundos de latencia.
- Supervisión de datos y modelos.
Cuando se usan características del almacén de características para entrenar modelos, el modelo realiza un seguimiento automático del linaje a las características que se usaron en el entrenamiento. En el momento de la inferencia, el modelo busca automáticamente los valores de características más recientes. El almacén de características también proporciona cálculo a petición de características para aplicaciones en tiempo real. El almacén de características controla todas las tareas de cálculo de características. Esto elimina la asimetría de entrenamiento o servicio, lo que garantiza que los cálculos de características usados en la inferencia sean los mismos que los usados durante el entrenamiento del modelo. También simplifica significativamente el código del lado cliente, ya que el almacén de características controla todas las búsquedas de características y el cálculo.
Nota:
En esta página se describe la ingeniería de características y las funcionalidades de servicio de las áreas de trabajo habilitadas para Unity Catalog. Si el área de trabajo no está habilitada para el Catálogo de Unity, consulte Almacén de características del área de trabajo (heredado).
Información general conceptual
Para obtener información general sobre cómo funciona Databricks Feature Store y un glosario de términos, consulte Introducción al almacén de características y glosario.
Ingeniería de características
| Característica | Description |
|---|---|
| Trabajar con tablas de características en el catálogo de Unity | Cree y trabaje con tablas de características. |
Detección y uso compartido de características
| Característica | Description |
|---|---|
| Exploración de características en el catálogo de Unity | Explore y administre tablas de características mediante el Explorador de catálogos y la interfaz de usuario de características. |
| Uso de etiquetas con tablas de características y características en el catálogo de Unity | Use pares clave-valor simples para clasificar y administrar las tablas y características de características. |
Uso de características en flujos de trabajo de entrenamiento
| Característica | Description |
|---|---|
| Uso de características para entrenar modelos | Use características para entrenar modelos. |
| Combinaciones de características a un momento dado | Use la corrección a un momento dado para crear un conjunto de datos de entrenamiento que refleje los valores de características a partir de la hora en que se registró una observación de etiqueta. |
| Python API | Referencia de la API de Python |
Funciones de servicio
| Característica | Description |
|---|---|
| Almacenes de características en línea de Databricks | Proporcionar datos de características a aplicaciones en línea y modelos de aprendizaje automático en tiempo real. Con tecnología de Databricks Lakebase. |
| Servicio de modelos con búsqueda automática de características | Busque automáticamente los valores de características de una tienda en línea. |
| Puntos de conexión de servicio de características | Proporcionar características a modelos y aplicaciones fuera de Databricks. |
| Cálculo de características a petición | Calcule los valores de características en el momento de la inferencia. |
Gobernanza y linaje de características
| Característica | Description |
|---|---|
| Gobernanza y linaje de características | Use El catálogo de Unity para controlar el acceso a las tablas de características y ver el linaje de una tabla de características, un modelo o una función. |
Tutorials
| Tutorial | Description |
|---|---|
| Cuadernos de ejemplo para empezar |
Cuaderno básico. Muestra cómo crear una tabla de características, usarla para entrenar un modelo y ejecutar la puntuación por lotes mediante la búsqueda automática de características. También muestra la interfaz de usuario de ingeniería de características para buscar características y ver el linaje. Cuaderno de ejemplo de taxi. Muestra el proceso de creación de características, su actualización y su uso para el entrenamiento del modelo y la inferencia por lotes. |
| Ejemplo: Implementación y consulta de una característica que atiende el punto de conexión | Tutorial y cuaderno de ejemplo en el que se muestra cómo implementar y consultar una característica que sirve un punto de conexión. |
| Ejemplo: uso de características con aplicaciones RAG estructuradas | Tutorial que muestra cómo usar tablas en línea de Databricks y características que sirven puntos de conexión para aplicaciones de generación aumentada (RAG) de recuperación. |
Requisitos
- Su área de trabajo debe estar habilitada para Unity Catalog.
- La ingeniería de características en Unity Catalog requiere Databricks Runtime 13.3 LTS o superior.
Si el área de trabajo no cumple estos requisitos, consulte El Almacén de características del área de trabajo (heredado) para saber cómo usar el almacén de características del área de trabajo heredado.
Supported data types (Tipos de datos admitidos)
La ingeniería de características en Unity Catalog y el almacén de características de Workspace heredado admiten los siguientes tipos de datos de PySpark:
IntegerTypeFloatTypeBooleanTypeStringTypeDoubleTypeLongTypeTimestampTypeDateTypeShortTypeArrayType-
BinaryType[1] -
DecimalType[1] -
MapType[1] -
StructType[2]
[1] BinaryType, DecimalType y MapType son compatibles en todas las versiones de Ingeniería de características en Unity Catalog y en el Almacén de características del área de trabajo v0.3.5 o superior.
[2] StructType se admite en Ingeniería de características v0.6.0 o superior.
Los tipos de datos enumerados anteriormente admiten tipos de características comunes en las aplicaciones de aprendizaje automático. Por ejemplo:
- Puede almacenar vectores densos, tensores e inserciones como
ArrayType. - Puede almacenar vectores dispersos, tensores e inserciones como
MapType. - Puede almacenar texto como
StringType.
Al publicarse en almacenes en línea, las características ArrayType y MapType se almacenan en formato JSON.
La interfaz de usuario del almacén de características muestra metadatos en los tipos de datos de características:
Más información
Para obtener más información sobre los procedimientos recomendados, descargue La guía completa sobre almacenes de características.