중요합니다
이 기능은 베타 버전으로 제공됩니다. 작업 영역 관리자는 미리 보기 페이지에서 이 기능에 대한 액세스를 제어할 수 있습니다. Azure Databricks 미리 보기 관리를 참조하세요.
이 페이지에서는 서버리스 GPU 컴퓨팅을 사용하여 권장 시스템을 빌드하기 위한 Notebook 예제를 제공합니다. 이러한 예제에서는 최신 딥 러닝 방법을 사용하여 효율적인 권장 사항 모델을 만드는 방법을 보여 줍니다.
2타워 추천 모델
이러한 Notebook은 권장 사항 데이터를 MDS(Mosaic Data Shard) 형식으로 변환한 다음 해당 데이터를 사용하여 2타원 권장 사항 모델을 만드는 방법을 보여 줍니다. 이 방법은 대규모 권장 사항 시스템에 특히 효과적입니다.
데이터 준비: 권장 사항 모델 데이터 세트를 MDS 형식으로 변환
먼저 효율적인 데이터 로드를 위해 권장 사항 데이터 세트를 MDS 형식으로 변환합니다.
데이터 변환
모델 학습: PyTorch Lightning을 사용하는 2 타워 추천 모델
여러 GPU 노드(A10 또는 H100 GPU)에서 준비된 데이터 세트 및 PyTorch Lightning Trainer API를 사용하여 2타워 추천 모델을 학습시킵니다.
PyTorch 추천자
예: 서버리스 GPU 컴퓨팅에서 llm-foundry를 사용하여 포함 모델 미세 조정
모델 포함은 특히 검색 단계에서 수백만 개의 항목에서 효율적인 유사성 검색을 가능하게 하는 최신 권장 사항 시스템의 중요한 구성 요소입니다. 2타워 모델은 작업별 포함을 생성하지만, 미리 학습된 포함 모델은 검색 품질을 개선하기 위해 도메인별 애플리케이션에 대해 미세 조정할 수 있습니다.
다음 예제 노트북에서는 대조 학습을 사용하여 서버리스 GPU 컴퓨팅(SGC)에서 BERT 스타일 임베딩 모델을 미세 조정하는 방법을 설명합니다. Composer의 트레이너와 함께 llm-foundry 프레임워크를 사용하여 델타 테이블에 저장된 데이터로 작업하는 gte-large-en-v1.5와 같은 모델을 미세 조정합니다. 이 예제에서는 Mosaic Streaming을 사용하여 분산 데이터 로드를 위해 데이터를 MDS(Mosaic Data Shard) 형식으로 변환하고 모델 추적 및 로깅을 위한 MLflow를 사용합니다.
임베딩 모델 노트북 미세 조정
비고
- 포함 모델은
query_text,positive_passage및 필요에 따라negative_passages열이 있는 데이터를 기대합니다. - 세부 조정된 포함은 유사성 검색 작업을 위해 벡터 저장소에서 사용할 수 있으므로 권장 사항 시스템에 대한 관련 항목을 효율적으로 검색할 수 있습니다.
- 이 방법은 범용 포함 모델을 특정 도메인 또는 사용 사례에 맞게 조정해야 하는 경우에 특히 유용합니다.