적용 대상: SQL Server 2019(15.x)
Important
Microsoft SQL Server 2019 빅 데이터 클러스터는 사용 중지되었습니다. SQL Server 2019 빅 데이터 클러스터에 대한 지원은 2025년 2월 28일부터 종료되었습니다. 자세한 내용은 Microsoft SQL Server 플랫폼의 공지 블로그 게시물 및 빅 데이터 옵션을 참조하세요.
이 문서에서는 SQL Server 빅 데이터 클러스터에서 Machine Learning용 Spark를 효과적으로 사용하는 방법을 설명합니다.
SQL Server 빅 데이터 클러스터의 Spark Machine Learning
SQL Server 빅 데이터 클러스터를 사용하면 SQL Server Machine Learning Services 및 Apache Spark ML과 같은 다양한 기술 스택을 사용하여 기계 학습 시나리오 및 솔루션을 사용할 수 있습니다.
각 기술 스택을 사용하는 시기를 더 잘 이해하려면 SQL Server 빅 데이터 클러스터에 대한 Machine Learning 가이드를 참조하세요. 이 가이드에서는 Apache Spark ML에 대해 설명합니다.
빅 데이터 기반 기계 학습 시나리오의 경우 빅 데이터 호스팅 및 Apache Spark ML 기능에 HDFS를 사용하는 것이 비용 효율적이고 확장 가능하며 강력한 방법입니다. 스파크 머신 러닝을 통해 달성할 수 있는 가능성의 목록은 이와 거리가 멀며, 전체 기능 목록은 Spark MLlib에서 확인할 수 있습니다.
다음 섹션에서는 SQL Server 빅 데이터 클러스터의 Spark에 대한 시나리오 및 참조의 큐레이팅된 목록을 제공합니다.
SQL Server 빅 데이터 클러스터에서 Spark Machine Learning의 구성 요소
| Learn | Contents | Link |
|---|---|---|
| Apache Spark용 SQL Server 빅 데이터 클러스터 런타임 | 그러면 각 릴리스에 포함된 내용이 표시됩니다. | Apache Spark용 SQL Server 빅 데이터 클러스터 런타임 가이드 |
| 스토리지 풀 | HDFS + Spark를 함께 저장하고 사용하여 기계 학습을 위한 데이터 잠금을 해제하는 방법 | SQL Server 빅 데이터 클러스터의 스토리지 풀 소개 |
| Notebook 기반 환경 및 선택한 도구 사용 | 선택한 도구를 사용하여 Spark-Livy 엔드포인트 연결 |
Azure Data Studio의 SQL Server 빅 데이터 클러스터에서 Spark 작업 제출 Visual Studio Code의 SQL Server 빅 데이터 클러스터에서 Spark 작업 제출 SQL Server 빅 데이터 클러스터에서 sparklyr 사용 |
| 추가 패키지를 설치하는 방법 | 패키지가 기본 제공되지 않는 경우 설치합니다. | Spark 라이브러리 관리 |
| 문제 해결 방법 | 고장날 경우 |
pyspark Notebook 문제 해결Spark 기록 서버의 SQL Server 빅 데이터 클러스터에서 Spark 애플리케이션 디버그 및 진단 |
| 기계 학습 일괄 처리 작업을 제출하는 방법 | 명령줄을 사용하여 ML 학습 및 일괄 처리 점수 매기기 실행 | 명령줄 도구를 사용하여 Spark 작업 제출 |
| SQL Server와 Spark 간에 데이터를 빠르게 이동하는 방법 | Spark ML 시나리오에 대한 SQL Server 원본 및/또는 대상을 만듭니다. HDFS 사용은 필수가 아닙니다. | SQL Server 및 Azure SQL용 Apache Spark 커넥터 사용 |
| Spark 모델 운영화 | 학습 후 MLeap을 사용하여 운영 | SQL Server 빅 데이터 클러스터에서 Spark 기계 학습 모델 만들기, 내보내기 및 점수 매기기 |
| Data wrangling | Spark의 강력한 데이터 랭글링 기능과 함께 PROSE를 제공합니다. | PROSE 코드 가속기를 사용한 데이터 랭글링 |
Next steps
자세한 내용은 SQL Server 빅 데이터 클러스터 소개를 참조하세요.