이 문서에는 Lakeflow 작업에 대한 컴퓨팅을 구성하기 위한 권장 사항 및 리소스가 포함되어 있습니다.
중요한
작업용 서버리스 컴퓨팅의 제한 사항은 다음과 같습니다.
- 연속 스케줄링을 지원하지 않습니다.
- 구조적 스트리밍에서 기본 또는 시간 기반 간격 트리거를 지원하지 않습니다.
제한 사항은 서버리스 컴퓨팅 제한을 참조하세요.
각 작업에는 하나 이상의 태스크가 있을 수 있습니다. 각 작업에 대한 컴퓨팅 리소스를 정의합니다. 동일한 작업에 정의된 여러 태스크는 동일한 컴퓨팅 리소스를 사용할 수 있습니다.
각 작업에 권장되는 컴퓨팅은 무엇인가요?
다음 표는 각 태스크 유형에 대해 권장되는 컴퓨팅 유형과 지원되는 컴퓨팅 유형을 나타냅니다.
참고
작업용 서버리스 컴퓨팅에는 제한 사항이 있으며 모든 워크로드를 지원하지는 않습니다. 서버리스 컴퓨팅 제한을 참조하세요.
| 작업 | 권장 컴퓨팅 | 지원되는 컴퓨팅 |
|---|---|---|
| 노트북 | 서버리스 작업 | 서버리스 작업, 클래식 작업, 클래식 다목적 작업 |
| Python 스크립트 | 서버리스 작업 | 서버리스 작업, 클래식 작업, 클래식 다목적 작업 |
| Python 휠 | 서버리스 작업 | 서버리스 작업, 클래식 작업, 클래식 다목적 작업 |
| SQL (영문) | 서버리스 SQL 웨어하우스 | 서버리스 SQL 웨어하우스, 프로 SQL 웨어하우스 |
| Lakeflow Spark 선언적 파이프라인 | 서버리스 파이프라인 | 서버리스 파이프라인, 클래식 파이프라인 |
| dbt | 서버리스 SQL 웨어하우스 | 서버리스 SQL 웨어하우스, 프로 SQL 웨어하우스 |
| dbt CLI 명령 | 서버리스 작업 | 서버리스 작업, 클래식 작업, 클래식 다목적 작업 |
| 독 | 전통적인 직업 | 클래식 작업, 클래식 다용도 |
| 스파크 제출 | 전통적인 직업 | 전통적인 직업 |
Lakeflow 작업의 가격은 작업을 실행하는 데 사용되는 컴퓨팅과 관련이 있습니다. 자세한 내용은 Databricks 가격 책정을 참조하세요.
작업용 컴퓨팅은 어떻게 구성하나요?
클래식 작업 컴퓨팅은 Lakeflow 작업 UI에서 직접 구성되며 이러한 구성은 작업 정의의 일부입니다. 사용 가능한 다른 모든 컴퓨팅 유형은 다른 작업 영역 자산과 함께 해당 구성을 저장합니다. 다음 표에 자세한 내용이 나와 있습니다.
| 컴퓨팅 형식 | 세부 정보 |
|---|---|
| 전통적인 작업 컴퓨팅 | 다목적 컴퓨팅에 사용할 수 있는 동일한 UI 설정을 사용하여 클래식 작업용 컴퓨팅을 구성합니다. 컴퓨팅 구성 참고자료를 참조하세요. |
| 작업용 서버리스 컴퓨팅 | 작업용 서버리스 컴퓨팅은 작업을 지원하는 모든 태스크의 기본값입니다. Databricks는 서버리스 컴퓨팅에 대한 컴퓨팅 설정을 관리합니다. 워크플로에 대한 서버리스 컴퓨팅을 사용하여 Lakeflow 작업 실행을 참조하세요. |
| SQL 데이터 웨어하우스 | 서버리스 및 프로 SQL 웨어하우스는 작업 영역 관리자 또는 무제한 클러스터 생성 권한이 있는 사용자가 구성합니다. 기존 SQL 웨어하우스에 대해 실행되도록 태스크를 구성합니다. SQL 웨어하우스에 연결을 참조하세요. |
| Lakeflow Spark 선언적 파이프라인 컴퓨팅 | 파이프라인 구성 중에 Lakeflow Spark 선언적 파이프라인에 대한 컴퓨팅 설정을 구성합니다. 파이프라인에 대한 클래식 컴퓨팅 구성을 참조하세요. Azure Databricks는 서버리스 Lakeflow Spark 선언적 파이프라인에 대한 컴퓨팅 리소스를 관리합니다. 서버리스 파이프라인 구성을 참조하세요. |
| 모든 용도 컴퓨팅 | 필요에 따라 클래식 다목적 컴퓨팅을 사용하여 태스크를 구성할 수 있습니다. Databricks는 프로덕션 작업에는 이 구성을 권장하지 않습니다. 컴퓨팅 구성 참고자료와 다목적 컴퓨팅을 작업에 사용해야 하나요?를 참조하세요. |
태스크 간 컴퓨팅 공유
태스크가 동일한 작업 컴퓨팅 리소스를 사용도록 구성하면 여러 태스크를 오케스트레이션하는 작업의 리소스 사용량이 최적화됩니다. 태스크 간에 컴퓨팅을 공유하면 시작 시간과 관련된 대기 시간을 줄일 수 있습니다.
단일 작업 컴퓨팅 리소스를 사용하여 작업의 일부인 모든 태스크를 실행하거나, 특정 워크로드에 최적화된 여러 작업 리소스를 실행할 수 있습니다. 작업의 일부로 구성된 모든 작업 컴퓨팅은 작업 내 다른 모든 태스크에 사용할 수 있습니다.
다음 표에서는 단일 태스크에 대해 구성된 작업 컴퓨팅과 태스크 간에 공유되는 작업 컴퓨팅 간의 차이를 강조합니다.
| 단일 태스크 | 태스크 간 공유 | |
|---|---|---|
| 시작 | 태스크 실행이 시작되는 경우 | 컴퓨팅 리소스를 사용하도록 구성된 첫 번째 태스크 실행이 시작되는 경우 |
| 끝내다 | 태스크가 실행된 후 | 컴퓨팅 리소스를 사용하도록 구성된 마지막 태스크가 실행된 후 |
| 유휴 컴퓨팅 | 해당 없음. | 컴퓨팅 리소스를 사용하지 않는 작업은 실행되는 동안 컴퓨팅은 켜져 있지만 유휴 상태로 유지됩니다. |
공유 작업 클러스터의 범위는 단일 작업 실행으로 지정되며, 이 클러스터는 다른 작업 또는 동일한 작업의 실행에서 사용할 수 없습니다.
라이브러리는 공유 작업 클러스터 구성에서 선언할 수 없습니다. 태스크 설정에서 종속 라이브러리를 추가해야 합니다.
작업 컴퓨팅을 검토하고 구성하며 교체하기
작업 세부 정보 패널의 컴퓨팅 섹션에는 현재 작업의 태스크에 대해 구성된 모든 컴퓨팅이 나열됩니다.
컴퓨팅 리소스를 사용하도록 구성된 태스크는 컴퓨팅 사양을 마우스로 가리키면 태스크 그래프에서 강조 표시됩니다.
전환 버튼을 사용하여 컴퓨팅 리소스와 연결된 모든 태스크의 컴퓨팅을 변경합니다.
클래식 작업 컴퓨팅 리소스에는 구성 옵션이 있습니다. 다른 컴퓨팅 리소스는 컴퓨팅 구성 세부 정보를 보고 수정하는 옵션을 제공합니다.
추가 정보
Azure Databricks 클래식 작업 구성에 대한 자세한 내용은 클래식 Lakeflow 작업 구성 모범 사례를 참조하세요.