Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ważne
Ta funkcja jest dostępna w wersji beta. Administratorzy obszaru roboczego mogą kontrolować dostęp do tej funkcji ze strony Podglądy . Zobacz Zarządzanie wersjami zapoznawczami usługi Azure Databricks.
Ta strona zawiera przykłady notesów do tworzenia systemów rekomendacji przy użyciu przetwarzania bezserwerowego procesora GPU. W tych przykładach pokazano, jak tworzyć wydajne modele rekomendacji przy użyciu nowoczesnych metod uczenia głębokiego.
Model rekomendacji z dwiema wieżami
W tych notesach pokazano, jak przekonwertować dane rekomendacji na format Fragment danych Mozaiki (MDS), a następnie użyć tych danych do utworzenia modelu rekomendacji z dwoma wieżami. Takie podejście jest szczególnie skuteczne w przypadku systemów rekomendacji na dużą skalę.
Przygotowywanie danych: konwertowanie zestawu danych modelu rekomendacji na format MDS
Najpierw przekonwertuj zestaw danych rekomendacji na format MDS w celu wydajnego ładowania danych:
Konwertowanie danych
Trenowanie modelu: model rekomendatora z dwoma wieżami przy użyciu technologii PyTorch Lightning
Trenowanie dwuwieżowego modelu rekomendacji przy użyciu przygotowanego zestawu danych i API PyTorch Lightning Trainer na wielu węzłach GPU (jednostki GPU A10 lub H100).
Rekomendacja PyTorch
Przykład: dostrajanie modeli embeddingowych za pomocą llm-foundry na bezserwerowych platformach obliczeniowych GPU
Modele osadzania są krytycznym składnikiem nowoczesnych systemów rekomendacji, szczególnie w etapie pobierania, w którym umożliwiają wydajne wyszukiwanie podobieństw w milionach elementów. Chociaż model dwuwieżowy generuje osadzenia specyficzne dla zadań, wstępnie wytrenowane modele osadzeń mogą być dostosowane do zastosowań specyficznych dla domeny w celu poprawy jakości pobierania.
W poniższym przykładowym notesie pokazano, jak używać uczenia kontrastowego, aby dostosować model osadzania w stylu BERT na obliczeniach na bezserwerowych GPU (SGC). Używa frameworku llm-foundry z trenerem Composer do dostrajania modeli takich jak gte-large-en-v1.5, pracując z danymi przechowywanymi w tabelach Delta. W tym przykładzie użyto Mosaic Streaming do konwertowania danych na format Mosaic Data Shard (MDS) w celu ładowania danych w sposób rozproszony oraz biblioteki MLflow do śledzenia i rejestrowania modeli.
Dostosowywanie modelu osadzania w notatniku
Uwaga / Notatka
- Model osadzania oczekuje danych z kolumnami dla
query_text,positive_passagei opcjonalnienegative_passages. - Dostrojone osadzania mogą być używane w magazynach wektorów na potrzeby operacji wyszukiwania podobieństwa, co umożliwia wydajne pobieranie odpowiednich elementów w systemach rekomendacji.
- Takie podejście jest szczególnie przydatne, gdy trzeba dostosować model osadzania ogólnego przeznaczenia do określonej domeny lub przypadku użycia.