이 문서에서는 분석 워크로드를 위해 Microsoft Fabric에서 사용자 지정 Apache Spark 풀을 만드는 방법을 보여 줍니다. Apache Spark 풀을 사용하면 요구 사항에 따라 맞춤형 컴퓨팅 환경을 만들 수 있으므로 최적의 성능과 리소스 사용을 얻을 수 있습니다.
자동 크기 조정을 위한 최소 및 최대 노드를 지정합니다. 시스템은 작업의 컴퓨팅 요구 사항이 변경됨에 따라 노드를 가져오고 사용 중지하므로 크기 조정이 효율적이고 성능이 향상됩니다. Spark 풀은 실행기 수를 자동으로 조정하므로 수동으로 설정할 필요가 없습니다. 시스템은 데이터 볼륨 및 작업 컴퓨팅 요구 사항에 따라 실행기 수를 변경하므로 성능 튜닝 및 리소스 관리 대신 워크로드에 집중할 수 있습니다.
팁 (조언)
Spark 풀을 구성할 때 노드 크기는 각 노드에 할당된 컴퓨팅 용량을 나타내는 CU(용량 단위)에 따라 결정됩니다. 노드 크기 및 CU에 대한 자세한 내용은 이 가이드의 노드 크기 옵션 섹션을 참조하세요.
필수 조건
사용자 지정 Spark 풀을 만들려면 작업 영역에 대한 관리자 액세스 권한이 있는지 확인합니다. 용량 관리자는 용량 관리자 설정의 Spark Compute 섹션에서 사용자 지정된 작업 영역 풀 옵션을 사용하도록 설정합니다. 자세한 내용은 패브릭 용량에 대한 Spark 컴퓨팅 설정을 참조하세요.
사용자 지정 Spark 풀을 만듭니다.
작업 영역과 연결된 Spark 풀을 만들거나 관리하려면 다음을 수행합니다.
작업 영역으로 이동하여 작업 영역 설정을 선택합니다.
데이터 엔지니어링/과학 옵션을 선택하여 메뉴를 확장한 다음, Spark 설정선택합니다.
새 풀 옵션을 선택합니다. 풀 만들기 화면에서 Spark 풀의 이름을 지정합니다. 또한 노드 패밀리를 선택하고 워크로드에 대한 컴퓨팅 요구 사항에 따라 사용 가능한 크기(Small, Medium, Large, X-Large 및 XX-Large)에서 노드 크기를 선택합니다.
사용자 지정 풀에 대한 최소 노드 구성을 1로 설정할 수 있습니다. Fabric Spark는 단일 노드가 있는 클러스터에 복원 가능한 가용성을 제공하므로 작업 실패, 실패 시 세션 손실 또는 더 작은 Spark 작업에 대한 컴퓨팅 비용 초과를 염려할 필요가 없습니다.
사용자 지정 Spark 풀에 대해 자동 크기 조정은 사용하거나 사용하지 않도록 설정할 수 있습니다. 자동 크기 조정을 사용하도록 설정하면 풀은 사용자가 지정한 최대 노드 제한까지 새 노드를 동적으로 확보한 다음 작업 실행 후 사용 중지합니다. 이 기능은 작업 요구 사항에 따라 리소스를 조정하여 성능을 개선합니다. Fabric 용량 SKU의 일부로 구매한 용량 단위에 맞는 노드의 크기를 조정할 수 있습니다.
슬라이더를 사용하여 실행기 수를 조정할 수 있습니다. 각 실행기는 작업을 실행하고 메모리에 데이터를 저장하는 Spark 프로세스입니다. 실행기를 늘리면 병렬 처리가 향상될 수 있지만 클러스터의 크기와 시작 시간도 늘어나게 됩니다. Spark 풀에 동적 실행기 할당을 사용하도록 선택할 수도 있습니다. 그러면 사용자가 지정한 최대 바인딩 내에서 최적 실행기 수가 자동으로 결정됩니다. 이 기능은 데이터 볼륨에 따라 실행기 수를 조정하여 성능 및 리소스 사용률을 개선합니다.
이러한 사용자 지정 풀의 기본 자동 일시 중지 기간은 비활성 기간이 만료된 후 2분입니다. 자동 일시 중지 기간에 도달하면 세션이 만료되고 클러스터가 할당되지 않습니다. 사용자 지정 Spark 풀이 사용되는 기간 및 노드 수에 따라 요금이 청구됩니다.
참고 항목
Microsoft Fabric의 사용자 지정 Spark 풀은 현재 최대 노드 제한인 200을 지원합니다. 자동 크기 조정을 구성하거나 수동 노드 수를 설정할 때 최소값과 최대값이 이 제한 내에 남아 있는지 확인합니다. 이 제한을 초과하면 풀을 만들거나 업데이트하는 동안 유효성 검사 오류가 발생합니다.
노드 크기 옵션
사용자 지정 Spark 풀을 설정할 때 다음 노드 크기 중에서 선택합니다.
| 노드 크기 | vCores | 메모리(GB) | 설명 |
|---|---|---|---|
| 소형 | 4 | 32 | 경량 개발 및 테스트 작업의 경우. |
| 미디엄 | 8 (여덟) | 64 | 일반 워크로드 및 일반적인 작업의 경우 |
| 크다 | 16 | 128 | 메모리 집약적 작업 또는 대용량 데이터 처리 작업의 경우 |
| X-Large | 32 | 256 | 상당한 리소스가 필요한 가장 까다로운 Spark 워크로드의 경우. |
관련 콘텐츠
- Apache Spark 공개 문서에서 자세히 알아보세요.
- Microsoft Fabric에서 Spark 작업 영역 관리 설정을 시작합니다.