Compartilhar via


Sistemas de recomendação baseados em aprendizado profundo

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página fornece exemplos de notebook para a criação de sistemas de recomendação usando a computação de GPU sem servidor. Esses exemplos demonstram como criar modelos de recomendação eficientes usando abordagens modernas de aprendizado profundo.

Modelo de recomendação de duas torres

Esses notebooks demonstram como converter seus dados de recomendação no formato MDS (Mosaic Data Shard) e, em seguida, usar esses dados para criar um modelo de recomendação de duas torres. Essa abordagem é particularmente eficaz para sistemas de recomendação em larga escala.

Preparação de dados: converter o conjunto de dados do modelo de recomendação em formato MDS

Primeiro, converta seu conjunto de dados de recomendação no formato MDS para carregamento eficiente de dados:

Converter dados

Obter laptop

Treinamento de modelo: modelo de recomendação de duas torres usando pyTorch Lightning

Treine o modelo de recomendação de duas torres usando o conjunto de dados preparado e a API do PyTorch Lightning Trainer em vários nós de GPU (GPUs A10 ou H100).

Recomendador PyTorch

Obter laptop

Exemplo: Refinar modelos de incorporação com llm-foundry na computação de GPU sem servidor

Os modelos de inserção são um componente crítico dos sistemas de recomendação modernos, particularmente no estágio de recuperação em que permitem uma pesquisa de similaridade eficiente em milhões de itens. Embora o modelo de duas torres gere inserções específicas à tarefa, os modelos de inserção pré-treinados podem ser ajustados para aplicativos específicos do domínio para melhorar a qualidade da recuperação.

O notebook de exemplo a seguir demonstra como usar o aprendizado contrastante para ajustar um modelo de inserção no estilo BERT no SGC (computação de GPU sem servidor). Ele usa o framework llm-foundry com o treinador do Composer para fazer ajuste fino em modelos como o gte-large-en-v1.5, trabalhando com dados armazenados em tabelas Delta. Este exemplo usa o Mosaic Streaming para converter dados no formato MDS (Mosaic Data Shard) para carregamento de dados distribuídos e MLflow para acompanhamento de modelos e registro em log.

Ajustar o notebook de modelo de inserção

Obter laptop

Observação

  • O modelo de inserção espera dados com colunas para query_text, positive_passagee opcionalmente negative_passages.
  • As inserções ajustadas podem ser usadas em repositórios de vetores para operações de pesquisa de similaridade, permitindo a recuperação eficiente de itens relevantes para sistemas de recomendação.
  • Essa abordagem é particularmente útil quando você precisa adaptar um modelo de inserção de uso geral ao seu domínio específico ou caso de uso.