Partilhar via


Sistemas de recomendação baseados em aprendizagem profunda

Importante

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página fornece exemplos de blocos de anotações para a criação de sistemas de recomendação usando computação GPU sem servidor. Estes exemplos demonstram como criar modelos de recomendação eficientes usando abordagens modernas de aprendizagem profunda.

Modelo de recomendação de duas torres

Esses blocos de anotações demonstram como converter seus dados de recomendação no formato MDS (Mosaic Data Shard) e, em seguida, usar esses dados para criar um modelo de recomendação de duas torres. Esta abordagem é particularmente eficaz para sistemas de recomendação em grande escala.

Preparação de dados: converter o conjunto de dados do modelo de recomendação para o formato MDS

Primeiro, converta seu conjunto de dados de recomendação para o formato MDS para um carregamento de dados eficiente:

Converter dados

Obter caderno

Treino de modelo: Modelo de recomendação de duas torres usando PyTorch Lightning

Treine o modelo de recomendação de duas torres usando o conjunto de dados preparado e a API PyTorch Lightning Trainer em múltiplos nós GPU (GPUs A10 ou H100).

Recomendador do PyTorch

Obter caderno

Exemplo: Ajuste fino de modelos de embedding com o llm-foundry em computação de GPU sem servidor

Os modelos de embedding são um componente crítico dos sistemas modernos de recomendação, especialmente na fase de recuperação, onde permitem uma pesquisa eficiente de similaridade em milhões de itens. Enquanto o modelo de duas torres gera incorporações específicas para tarefas, modelos de incorporação pré-treinados podem ser ajustados para aplicações específicas de domínio, para melhorar a qualidade da recuperação.

O seguinte exemplo de caderno demonstra como usar a aprendizagem contrastiva para afinar um modelo de embedding ao estilo BERT em computação de GPU serverless (SGC). Utiliza a framework llm-foundry com o treinador do Composer para afinar modelos como gte-large-en-v1.5, trabalhando com dados armazenados em tabelas Delta. Este exemplo utiliza o Mosaic Streaming para converter dados para o formato Mosaic Data Shard (MDS) para carregamento distribuído de dados e MLflow para rastreamento e registo de modelos.

Ajuste fino de modelo de embedding notebook

Obter caderno

Observação

  • O modelo de embedding espera dados com colunas para query_text, positive_passage, e opcionalmente negative_passages.
  • Os embeddings finamente ajustados podem ser usados em lojas vetoriais para operações de pesquisa por similaridade, permitindo uma recuperação eficiente de itens relevantes para sistemas de recomendação.
  • Esta abordagem é particularmente útil quando precisa de adaptar um modelo de embedding de propósito geral ao seu domínio ou caso de uso específico.