다음을 통해 공유


SQL Server 빅 데이터 클러스터에서 Spark Machine Learning 소개

적용 대상: SQL Server 2019(15.x)

Important

Microsoft SQL Server 2019 빅 데이터 클러스터는 사용 중지되었습니다. SQL Server 2019 빅 데이터 클러스터에 대한 지원은 2025년 2월 28일부터 종료되었습니다. 자세한 내용은 Microsoft SQL Server 플랫폼의 공지 블로그 게시물 및 빅 데이터 옵션을 참조하세요.

이 문서에서는 SQL Server 빅 데이터 클러스터에서 Machine Learning용 Spark를 효과적으로 사용하는 방법을 설명합니다.

SQL Server 빅 데이터 클러스터의 Spark Machine Learning

SQL Server 빅 데이터 클러스터를 사용하면 SQL Server Machine Learning ServicesApache Spark ML과 같은 다양한 기술 스택을 사용하여 기계 학습 시나리오 및 솔루션을 사용할 수 있습니다.

각 기술 스택을 사용하는 시기를 더 잘 이해하려면 SQL Server 빅 데이터 클러스터에 대한 Machine Learning 가이드를 참조하세요. 이 가이드에서는 Apache Spark ML에 대해 설명합니다.

빅 데이터 기반 기계 학습 시나리오의 경우 빅 데이터 호스팅 및 Apache Spark ML 기능에 HDFS를 사용하는 것이 비용 효율적이고 확장 가능하며 강력한 방법입니다. 스파크 머신 러닝을 통해 달성할 수 있는 가능성의 목록은 이와 거리가 멀며, 전체 기능 목록은 Spark MLlib에서 확인할 수 있습니다.

다음 섹션에서는 SQL Server 빅 데이터 클러스터의 Spark에 대한 시나리오 및 참조의 큐레이팅된 목록을 제공합니다.

SQL Server 빅 데이터 클러스터에서 Spark Machine Learning의 구성 요소

Learn Contents Link
Apache Spark용 SQL Server 빅 데이터 클러스터 런타임 그러면 각 릴리스에 포함된 내용이 표시됩니다. Apache Spark용 SQL Server 빅 데이터 클러스터 런타임 가이드
스토리지 풀 HDFS + Spark를 함께 저장하고 사용하여 기계 학습을 위한 데이터 잠금을 해제하는 방법 SQL Server 빅 데이터 클러스터의 스토리지 풀 소개
Notebook 기반 환경 및 선택한 도구 사용 선택한 도구를 사용하여 Spark-Livy 엔드포인트 연결 Azure Data Studio의 SQL Server 빅 데이터 클러스터에서 Spark 작업 제출
Visual Studio Code의 SQL Server 빅 데이터 클러스터에서 Spark 작업 제출
SQL Server 빅 데이터 클러스터에서 sparklyr 사용
추가 패키지를 설치하는 방법 패키지가 기본 제공되지 않는 경우 설치합니다. Spark 라이브러리 관리
문제 해결 방법 고장날 경우 pyspark Notebook 문제 해결
Spark 기록 서버의 SQL Server 빅 데이터 클러스터에서 Spark 애플리케이션 디버그 및 진단
기계 학습 일괄 처리 작업을 제출하는 방법 명령줄을 사용하여 ML 학습 및 일괄 처리 점수 매기기 실행 명령줄 도구를 사용하여 Spark 작업 제출
SQL Server와 Spark 간에 데이터를 빠르게 이동하는 방법 Spark ML 시나리오에 대한 SQL Server 원본 및/또는 대상을 만듭니다. HDFS 사용은 필수가 아닙니다. SQL Server 및 Azure SQL용 Apache Spark 커넥터 사용
Spark 모델 운영화 학습 후 MLeap을 사용하여 운영 SQL Server 빅 데이터 클러스터에서 Spark 기계 학습 모델 만들기, 내보내기 및 점수 매기기
Data wrangling Spark의 강력한 데이터 랭글링 기능과 함께 PROSE를 제공합니다. PROSE 코드 가속기를 사용한 데이터 랭글링

Next steps

자세한 내용은 SQL Server 빅 데이터 클러스터 소개를 참조하세요.