중요합니다
이 기능은 베타 버전으로 제공됩니다. 작업 영역 관리자는 미리 보기 페이지에서 이 기능에 대한 액세스를 제어할 수 있습니다. Azure Databricks 미리 보기 관리를 참조하세요.
dbt 플랫폼 작업을 사용하여 Azure Databricks에서 직접 기존 dbt 플랫폼 작업을 오케스트레이션하고 모니터링합니다. 이 페이지에서는 dbt 작업을 선택하고 트리거하고, 오류에 대한 자동 다시 시도 옵션을 설정하고, 실행을 모니터링하는 방법을 설명합니다.
dbt 플랫폼과 dbt 작업 간의 차이점
작업은 dbt 프로젝트에 대해 두 가지 작업 유형을 제공합니다. dbt 프로젝트가 관리되는 위치에 따라 올바른 프로젝트를 선택합니다.
dbt 플랫폼 작업: 이를 사용하여 기존 dbt 플랫폼 작업을 오케스트레이션합니다. dbt 플랫폼 API에 연결하고 해당 플랫폼에서 실행을 트리거합니다. 모니터링 및 일정 예약과 같은 모든 dbt 플랫폼 이점을 유지하면서 Azure Databricks에서 오케스트레이션을 중앙 집중화하려면 이를 선택합니다.
dbt 작업: Git의 코드를 사용하여 Azure Databricks 클러스터에서 dbt 핵심 프로젝트를 실행하는 데 사용합니다. 실행 환경에 대한 모든 권한이 필요하고 Azure Databricks 내에서 종속성을 완전히 관리하려는 경우 이를 선택합니다. 작업을 위한 dbt 태스크를 참조하세요.
필수 조건
dbt 플랫폼 작업을 사용하려면 다음 필수 조건을 충족해야 합니다.
- 작업 영역 관리자는 미리 보기를 사용하도록 설정해야 합니다. Azure Databricks 미리 보기 관리를 참조하세요.
- 작업 영역의 Unity 카탈로그 메타스토어에 대한 권한이 있어야 합니다
CREATE CONNECTION. - dbt 플랫폼에서 정의된 작업을 사용하여 기존 dbt 프로젝트에 액세스합니다. 자세한 내용은 dbt 설명서의 dbt 플랫폼 에 있는 작업을 참조하세요.
- dbt 플랫폼에서 서비스 토큰을 생성할 수 있는 권한입니다. 자세한 내용은 서비스 계정 토큰을 참조하세요.
비고
보안 및 운영 안정성을 위해 Databricks는 개인용 액세스 토큰이 아닌 서비스 계정 토큰을 생성하는 것이 좋습니다. 서비스 계정 토큰은 개별 사용자에 연결되지 않으며 필요한 최소 권한을 제공하도록 쉽게 범위를 지정할 수 있습니다.
dbt 플랫폼 세부 정보 수집
Azure Databricks와 dbt를 통합하려면 다음 세 가지 세부 정보가 필요합니다.
- dbt 플랫폼 계정 ID입니다.
- dbt 플랫폼에서 생성된 API 키입니다.
- dbt 플랫폼 배포 호스트 URL입니다.
다음 섹션에서는 이 필수 정보를 찾는 방법을 설명합니다.
계정 ID 가져오기:
계정 ID를 검색하려면 다음을 수행합니다.
- dbt 플랫폼에 로그인합니다.
- 설정>계정 설정으로 이동합니다.
- URL 접미사에서 계정 ID를 가져옵니다. 형식은 다음과 같습니다
https://cloud.getdbt.com/settings/accounts/{account_id}.
API 키 가져오기
API 키를 검색하려면 다음을 수행합니다.
- dbt 플랫폼에 로그인합니다.
- 설정>프로필 설정>프로필>API 액세스>API 키로 이동합니다.
호스트 URL
호스트 URL은 위치 및 테넌시에 따라 달라집니다. 해당 지역의 URL을 찾으려면 dbt 설명서의 액세스, 지역 및 IP 주소를 참조하세요.
귀하의 지역 및 임대 유형(다중 임대 구조 또는 셀 기반)을 식별하십시오. Access URL 열을 사용하여 호스트 URL을 가져옵니다.
| 테넌시 유형 | 지역 예제 | 호스트 URL 예제 |
|---|---|---|
| 다중 임차인 | 북아메리카 | https://cloud.getdbt.com |
| 셀 기반 | 북아메리카(us-east-1) |
https://12345.us1.dbt.com (계정 ID로 사용 12345 ) |
dbt 플랫폼 연결 설정
다음 단계를 사용하여 Azure Databricks에서 dbt 플랫폼 연결을 설정합니다.
-
을 클릭합니다.사이드바의 카탈로그입니다.
-
을 클릭합니다. 스키마 브라우저의 더하기 아이콘입니다. 그런 다음 연결 만들기를 클릭합니다. 연결 설정 양식이 열립니다.
- 다음 정보를 입력하고 다음을 클릭합니다.
- 연결 이름에 이름을 입력합니다.
- 연결 형식의 경우 dbt 플랫폼을 선택합니다.
-
호스트 텍스트 필드에 dbt 플랫폼 호스트 URL을 입력합니다. 후행 슬래시(
/)를 포함하지 않습니다. - 이전 단계에서 수집한 dbt 플랫폼 계정 ID 및 API 토큰을 입력합니다.
- 연결 만들기를 클릭하여 연결 세부 정보를 확인합니다.
- (선택 사항) 다른 사용자에게 연결을 사용할 수 있는 권한을 부여합니다.
- 보안 주체 드롭다운 메뉴에서 권한을 부여하려는 사용자 ID 및 그룹을 선택합니다.
- 부여하려는 권한을 선택합니다.
- 확인을 클릭합니다.
dbt 플랫폼 작업을 사용하여 새 작업 만들기
- 작업 영역에서
사이드바의 작업 및 파이프라인입니다.
- 만들기를 클릭한 다음 작업을 클릭합니다. 새 작업의 이름은 연결된 타임스탬프와 함께 자동으로 지정됩니다.
- (선택 사항) 작업 이름을 클릭하고 새 이름을 입력하여 편집합니다.
- 다른 작업 유형 추가를 클릭합니다. dbt 플랫폼을 검색하고 타일을 클릭하여 선택합니다.
- 태스크 이름을 입력합니다.
- dbt 플랫폼 연결 드롭다운 메뉴를 사용하여 이전에 만든 연결을 선택합니다.
- dbt 플랫폼 작업 드롭다운 메뉴를 사용하여 오케스트레이션하려는 dbt 플랫폼 작업을 선택합니다.
- 작업 저장을 클릭합니다.
- (선택 사항) 지금 실행을 클릭하여 작업을 수동으로 테스트합니다.
일정 또는 트리거 설정
시간 기반 일정 또는 새 데이터의 도착에 따라 자동으로 트리거되도록 작업을 구성할 수 있습니다. 사용 가능한 옵션에 대한 자세한 내용은 일정 및 트리거를 사용하여 작업 자동화를 참조하세요.
비고
dbt 플랫폼 작업에는 연속 트리거가 지원되지 않습니다.
실행 상태 모니터링
Azure Databricks UI에서 Lakeflow 작업을 모니터링할 수 있습니다. dbt 플랫폼 작업의 경우 dbt 플랫폼에서 작업 실행 세부 정보를 가리키는 링크를 열 수도 있습니다.
실행을 모니터링하려면 다음을 수행합니다.
작업 영역 사이드바에서 작업 및 파이프라인 을 클릭합니다.
(선택 사항) 작업 필터와 내 소유 필터를 선택합니다.
작업의 이름 링크를 클릭합니다.
활성 및 완료된 실행 의 행렬 및 목록 보기를 보여 주는 실행 탭이 나타납니다.
실행 목록 보기의 시작 시간 열에서 실행에 대한 링크를 클릭합니다. dbt 플랫폼의 작업 상태가 표시됩니다.
dbt에서 보기를 클릭하여 dbt 플랫폼에서 작업 실행 세부 정보를 확인합니다.