Udostępnij przez


Systemy rekomendacji oparte na uczeniu głębokim

Ważne

Ta funkcja jest dostępna w wersji beta. Administratorzy obszaru roboczego mogą kontrolować dostęp do tej funkcji ze strony Podglądy . Zobacz Zarządzanie wersjami zapoznawczami usługi Azure Databricks.

Ta strona zawiera przykłady notesów do tworzenia systemów rekomendacji przy użyciu przetwarzania bezserwerowego procesora GPU. W tych przykładach pokazano, jak tworzyć wydajne modele rekomendacji przy użyciu nowoczesnych metod uczenia głębokiego.

Model rekomendacji z dwiema wieżami

W tych notesach pokazano, jak przekonwertować dane rekomendacji na format Fragment danych Mozaiki (MDS), a następnie użyć tych danych do utworzenia modelu rekomendacji z dwoma wieżami. Takie podejście jest szczególnie skuteczne w przypadku systemów rekomendacji na dużą skalę.

Przygotowywanie danych: konwertowanie zestawu danych modelu rekomendacji na format MDS

Najpierw przekonwertuj zestaw danych rekomendacji na format MDS w celu wydajnego ładowania danych:

Konwertowanie danych

Pobierz laptopa

Trenowanie modelu: model rekomendatora z dwoma wieżami przy użyciu technologii PyTorch Lightning

Trenowanie dwuwieżowego modelu rekomendacji przy użyciu przygotowanego zestawu danych i API PyTorch Lightning Trainer na wielu węzłach GPU (jednostki GPU A10 lub H100).

Rekomendacja PyTorch

Pobierz laptopa

Przykład: dostrajanie modeli embeddingowych za pomocą llm-foundry na bezserwerowych platformach obliczeniowych GPU

Modele osadzania są krytycznym składnikiem nowoczesnych systemów rekomendacji, szczególnie w etapie pobierania, w którym umożliwiają wydajne wyszukiwanie podobieństw w milionach elementów. Chociaż model dwuwieżowy generuje osadzenia specyficzne dla zadań, wstępnie wytrenowane modele osadzeń mogą być dostosowane do zastosowań specyficznych dla domeny w celu poprawy jakości pobierania.

W poniższym przykładowym notesie pokazano, jak używać uczenia kontrastowego, aby dostosować model osadzania w stylu BERT na obliczeniach na bezserwerowych GPU (SGC). Używa frameworku llm-foundry z trenerem Composer do dostrajania modeli takich jak gte-large-en-v1.5, pracując z danymi przechowywanymi w tabelach Delta. W tym przykładzie użyto Mosaic Streaming do konwertowania danych na format Mosaic Data Shard (MDS) w celu ładowania danych w sposób rozproszony oraz biblioteki MLflow do śledzenia i rejestrowania modeli.

Dostosowywanie modelu osadzania w notatniku

Pobierz laptopa

Uwaga / Notatka

  • Model osadzania oczekuje danych z kolumnami dla query_text, positive_passagei opcjonalnie negative_passages.
  • Dostrojone osadzania mogą być używane w magazynach wektorów na potrzeby operacji wyszukiwania podobieństwa, co umożliwia wydajne pobieranie odpowiednich elementów w systemach rekomendacji.
  • Takie podejście jest szczególnie przydatne, gdy trzeba dostosować model osadzania ogólnego przeznaczenia do określonej domeny lub przypadku użycia.