Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cette page est une vue d’ensemble des fonctionnalités disponibles lorsque vous utilisez databricks Feature Store avec le catalogue Unity.
Databricks Feature Store fournit un registre central pour les fonctionnalités utilisées dans vos modèles IA et ML. Les tables et modèles de fonctionnalités sont inscrits dans le catalogue Unity, fournissant une gouvernance intégrée, une traçabilité et un partage et une découverte des fonctionnalités inter-espaces de travail. Avec Databricks, l’ensemble du flux de travail d’entraînement de modèle a lieu sur une plateforme unique, notamment :
- Des pipelines de données qui ingèrent des données brutes, créent des tables de fonctionnalités, entraînent des modèles et effectuent une inférence par lots.
- Un modèle et une fonctionnalité servant des points de terminaison disponibles en un seul clic avec une latence de quelques millisecondes.
- Surveillance des données et des modèles.
Lorsque vous utilisez des fonctionnalités du magasin de fonctionnalités pour entraîner des modèles, le modèle effectue automatiquement le suivi de la traçabilité des fonctionnalités utilisées lors de l’entraînement. Au moment de l’inférence, le modèle recherche automatiquement les dernières valeurs de fonctionnalité. Le magasin de fonctionnalités fournit également un calcul à la demande des fonctionnalités pour les applications en temps réel. Le magasin de fonctionnalités gère toutes les tâches de calcul des fonctionnalités. Cela élimine l’asymétrie d’entraînement/service, ce qui garantit que les calculs de fonctionnalités utilisés à l’inférence sont identiques à ceux utilisés pendant l’entraînement du modèle. Il simplifie également considérablement le code côté client, car toutes les recherches et calculs de fonctionnalités sont gérées par le magasin de fonctionnalités.
Note
Cette page explique ce que sont l’ingénierie des fonctionnalités et les fonctionnalités de service pour les espaces de travail activés pour le catalogue Unity. Si votre espace de travail n’est pas activé pour Unity Catalog, consultez Magasin de caractéristiques de l’espace de travail (hérité).
Vue d'ensemble conceptuelle
Pour obtenir une vue d’ensemble du fonctionnement du Magasin de fonctionnalités Databricks et un glossaire des termes, consultez la vue d’ensemble et le glossaire du magasin de fonctionnalités.
Ingénierie des caractéristiques
| Caractéristique | Descriptif |
|---|---|
| Utiliser des tables de fonctionnalités dans le catalogue Unity | Créez et utilisez des tables de fonctionnalités. |
Découvrir et partager des fonctionnalités
| Caractéristique | Descriptif |
|---|---|
| Explorer les fonctionnalités dans le catalogue Unity | Explorez et gérez les tables de fonctionnalités à l’aide de l’Explorateur de catalogues et de l’interface utilisateur des fonctionnalités. |
| Utiliser des balises avec des tables de fonctionnalités et des fonctionnalités dans le catalogue Unity | Utilisez des paires clé-valeur simples pour catégoriser et gérer vos tables de fonctionnalités et fonctionnalités. |
Utiliser des fonctionnalités dans les flux de travail d’entraînement
| Caractéristique | Descriptif |
|---|---|
| Utiliser des fonctionnalités pour entraîner des modèles | Utilisez des fonctionnalités pour entraîner des modèles. |
| Jointures de fonctionnalités à un point dans le temps | Utilisez la correction à un point dans le temps pour créer un jeu de données d’entraînement qui reflète les valeurs des caractéristiques à partir du moment où une observation d’étiquette a été enregistrée. |
| Python API | Informations de référence sur l’API Python |
Fonctionnalités de service
| Caractéristique | Descriptif |
|---|---|
| Magasins de fonctionnalités Databricks Online | Servez les données des fonctionnalités aux applications en ligne et aux modèles Machine Learning en temps réel. Optimisé par Databricks Lakebase. |
| Service de modèle avec recherche automatique de fonctionnalités | Recherchez automatiquement les valeurs des fonctionnalités à partir d’un magasin en ligne. |
| Points de terminaison de service de fonctionnalités | Servir des fonctionnalités aux modèles et applications en dehors de Databricks. |
| Calcul des fonctionnalités à la demande | Calculez les valeurs des fonctionnalités au moment de l’inférence. |
Gouvernance et traçabilité des caractéristiques
| Caractéristique | Descriptif |
|---|---|
| Gouvernance et traçabilité des fonctionnalités | Utilisez le catalogue Unity pour contrôler l’accès aux tables de fonctionnalités et afficher la traçabilité d’une table de caractéristiques, d’un modèle ou d’une fonction. |
Tutorials
| Tutorial | Descriptif |
|---|---|
| Exemples de notebooks pour commencer |
Bloc-notes de base. Montre comment créer une table de fonctionnalités, l’utiliser pour entraîner un modèle et exécuter le scoring par lots à l’aide de la recherche automatique des fonctionnalités. Affiche également l’interface utilisateur d’ingénierie des fonctionnalités pour rechercher des fonctionnalités et afficher la traçabilité. Exemple de bloc-notes taxi. Affiche le processus de création de fonctionnalités, leur mise à jour et leur utilisation pour l’apprentissage du modèle et l’inférence par lots. |
| Exemple : Déployer et interroger un point de terminaison de service de fonctionnalité | Tutoriel et exemple de notebook montrant comment déployer et interroger un point de terminaison de service de fonctionnalités. |
| Exemple : utiliser des fonctionnalités avec des applications RAG structurées | Tutoriel montrant comment utiliser des tables en ligne Databricks et des points de terminaison de service de fonctionnalités pour la récupération d’applications de génération augmentée (RAG). |
Spécifications
- Votre espace de travail doit être activé pour le catalogue Unity.
- L’ingénierie des caractéristiques dans Unity Catalog exige le Databricks Runtime 13.3 LTS ou une version ultérieure.
Si votre espace de travail ne répond pas à ces exigences, consultez magasin de fonctionnalités d’espace de travail (hérité) pour savoir comment utiliser le magasin de fonctionnalités d’espace de travail hérité.
Types de données pris en charge
L’ingénierie des fonctionnalités dans Unity Catalog et le magasin de fonctionnalités de l’espace de travail hérité prennent en charge les types de données PySpark suivantes :
IntegerTypeFloatTypeBooleanTypeStringTypeDoubleTypeLongTypeTimestampTypeDateTypeShortTypeArrayType-
BinaryType[1] -
DecimalType[1] -
MapType[1] -
StructType[2]
[1] BinaryType, DecimalType et MapType sont pris en charge par toutes les versions de l’ingénierie de caractéristiques dans Unity Catalogue et par les versions 0.3.5 et ultérieures du magasin de caractéristiques de l’espace de travail.
[2] StructType est pris en charge dans l'ingénierie de caractéristiques v0.6.0 ou version ultérieure.
Les types de données répertoriés ci-dessus prennent en charge les types de fonctionnalités courants dans les applications Machine Learning. Par exemple :
- Vous pouvez stocker des vecteurs denses, des tenseurs et des incorporations comme
ArrayType. - Vous pouvez stocker des vecteurs épars, des tenseurs et des incorporations comme
MapType. - Vous pouvez stocker du texte en tant que
StringType.
Quand elles sont publiées dans des magasins en ligne, les caractéristiques ArrayType et MapType sont stockées au format JSON.
L’interface utilisateur du magasin de caractéristiques affiche des métadonnées sur les types de données des caractéristiques :
Plus d’informations
Pour plus d’informations sur les bonnes pratiques, téléchargez le Guide complet des magasins de fonctionnalités.