Partager via


Systèmes de recommandation basés sur l’apprentissage profond

Important

Cette fonctionnalité est en version bêta. Les administrateurs d’espace de travail peuvent contrôler l’accès à cette fonctionnalité à partir de la page Aperçus . Consultez Gérer les préversions d’Azure Databricks.

Cette page fournit des exemples de notebooks pour créer des systèmes de recommandation à l’aide du calcul GPU serverless. Ces exemples montrent comment créer des modèles de recommandation efficaces à l’aide d’approches d’apprentissage profond modernes.

Modèle de recommandation à deux tours

Ces notebooks montrent comment convertir vos données de recommandation en format MDS (Mosaïque Data Shard), puis utiliser ces données pour créer un modèle de recommandation à deux tours. Cette approche est particulièrement efficace pour les systèmes de recommandation à grande échelle.

Préparation des données : convertir le jeu de données du modèle de recommandation au format MDS

Tout d’abord, convertissez votre jeu de données de recommandation au format MDS pour un chargement efficace des données :

Convertir des données

Obtenir un ordinateur portable

Entraînement du modèle : modèle de recommandation à deux colonnes à l’aide de PyTorch Lightning

Entraîner le modèle de recommandation à deux tours à l’aide du jeu de données préparé et de l’API PyTorch Lightning Trainer sur plusieurs nœuds GPU (GPU A10 ou H100).

Générateur de recommandations PyTorch

Obtenir un ordinateur portable

Exemple : Affiner les modèles d'embeddings avec llm-foundry sur le calcul sur GPU sans serveur

Les modèles d’incorporation sont un composant essentiel des systèmes de recommandation modernes, en particulier dans la phase de récupération où ils permettent une recherche efficace de similarité sur des millions d’éléments. Bien que le modèle à deux tours génère des incorporations spécifiques aux tâches, les modèles d’incorporation préentraînés peuvent être affinés pour les applications spécifiques au domaine afin d’améliorer la qualité de récupération.

L’exemple de notebook suivant montre comment utiliser l’apprentissage contrastif pour ajuster un modèle d'embedding de style BERT sur la plateforme de calcul GPU sans serveur (SGC). Il utilise l’infrastructure llm-foundry avec l’entraîneur de Composer pour affiner les modèles tels que gte-large-en-v1.5, en travaillant avec des données stockées dans des tables Delta. Cet exemple utilise Mosaic Streaming pour convertir des données au format MDS (Mosaïque Data Shard) pour le chargement de données distribuées et MLflow pour le suivi et la journalisation des modèles.

Ajuster l’incorporation du bloc-notes de modèle

Obtenir un ordinateur portable

Note

  • Le modèle d’incorporation attend des données avec des colonnes pour query_text, positive_passageet éventuellement negative_passages.
  • Les incorporations affinées peuvent être utilisées dans les magasins vectoriels pour les opérations de recherche de similarité, ce qui permet une récupération efficace des éléments pertinents pour les systèmes de recommandation.
  • Cette approche est particulièrement utile lorsque vous devez adapter un modèle d’incorporation à usage général à votre domaine ou cas d’usage spécifique.