這很重要
這項功能位於 測試版 (Beta) 中。 工作區管理員可以從 「預覽 」頁面控制對此功能的存取。 請參閱 管理 Azure Databricks 預覽。
本頁提供使用無伺服器 GPU 運算建置建議系統的筆記本範例。 這些範例示範如何使用現代深度學習方法建立高效的推薦模型。
雙塔推薦模式
這些筆記本示範如何將建議資料轉換為 Mosaic Data Shard (MDS) 格式,然後使用該資料來建立雙塔建議模型。 這種方法對於大規模推薦系統特別有效。
資料準備:將推薦模型資料集轉換為 MDS 格式
首先,將您的推薦資料集轉換為 MDS 格式,以實現高效的資料載入:
轉換資料
模型訓練:使用 PyTorch Lightning 的雙塔式推薦模型
利用已準備好的資料集與 PyTorch Lightning Trainer API 在多個 GPU 節點(A10 或 H100 GPU)上訓練雙塔推薦模型。
PyTorch 推薦者
範例:在無伺服器 GPU 運算上使用 LLM-foundry 微調嵌入模型
嵌入模型是現代推薦系統中關鍵的組成部分,特別是在檢索階段,能有效搜尋數百萬個項目的相似性。 雖然雙塔模型產生任務專屬嵌入,但預訓練嵌入模型可針對特定領域應用進行微調,以提升檢索品質。
以下範例筆記本示範如何利用對比學習,在無伺服器 GPU 運算(SGC)上微調 BERT 式嵌入模型。 它使用 llm-foundry 框架結合 Composer 的訓練器,來微調像 gte-large-en-v1.5 這樣的模型,並處理儲存在 Delta 表格中的資料。 本範例使用 Mosaic Streaming 將資料轉換為 Mosaic Data Shard(MDS)格式,用於分散式資料載入,並使用 MLflow 進行模型追蹤與記錄。
微調嵌入模型筆記本
備註
- 嵌入模型期望資料具有
query_text、positive_passage欄位,而negative_passages欄位是可選的。 - 這些微調後的嵌入可用於向量儲存庫中進行相似性搜尋操作,從而有效檢索相關項目以供推薦系統使用。
- 這種方法在需要將通用嵌入模型調整到特定領域或使用情境時特別有用。