Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Importante
Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.
Esta página fornece exemplos de blocos de anotações para a criação de sistemas de recomendação usando computação GPU sem servidor. Estes exemplos demonstram como criar modelos de recomendação eficientes usando abordagens modernas de aprendizagem profunda.
Modelo de recomendação de duas torres
Esses blocos de anotações demonstram como converter seus dados de recomendação no formato MDS (Mosaic Data Shard) e, em seguida, usar esses dados para criar um modelo de recomendação de duas torres. Esta abordagem é particularmente eficaz para sistemas de recomendação em grande escala.
Preparação de dados: converter o conjunto de dados do modelo de recomendação para o formato MDS
Primeiro, converta seu conjunto de dados de recomendação para o formato MDS para um carregamento de dados eficiente:
Converter dados
Treino de modelo: Modelo de recomendação de duas torres usando PyTorch Lightning
Treine o modelo de recomendação de duas torres usando o conjunto de dados preparado e a API PyTorch Lightning Trainer em múltiplos nós GPU (GPUs A10 ou H100).
Recomendador do PyTorch
Exemplo: Ajuste fino de modelos de embedding com o llm-foundry em computação de GPU sem servidor
Os modelos de embedding são um componente crítico dos sistemas modernos de recomendação, especialmente na fase de recuperação, onde permitem uma pesquisa eficiente de similaridade em milhões de itens. Enquanto o modelo de duas torres gera incorporações específicas para tarefas, modelos de incorporação pré-treinados podem ser ajustados para aplicações específicas de domínio, para melhorar a qualidade da recuperação.
O seguinte exemplo de caderno demonstra como usar a aprendizagem contrastiva para afinar um modelo de embedding ao estilo BERT em computação de GPU serverless (SGC). Utiliza a framework llm-foundry com o treinador do Composer para afinar modelos como gte-large-en-v1.5, trabalhando com dados armazenados em tabelas Delta. Este exemplo utiliza o Mosaic Streaming para converter dados para o formato Mosaic Data Shard (MDS) para carregamento distribuído de dados e MLflow para rastreamento e registo de modelos.
Ajuste fino de modelo de embedding notebook
Observação
- O modelo de embedding espera dados com colunas para
query_text,positive_passage, e opcionalmentenegative_passages. - Os embeddings finamente ajustados podem ser usados em lojas vetoriais para operações de pesquisa por similaridade, permitindo uma recuperação eficiente de itens relevantes para sistemas de recomendação.
- Esta abordagem é particularmente útil quando precisa de adaptar um modelo de embedding de propósito geral ao seu domínio ou caso de uso específico.