Databricks 자산 번들은 작업 영역에서 직접 만들고 수정할 수 있습니다.
작업 영역에서 번들을 사용하기 위한 요구 사항은 작업 영역 요구 사항의 Databricks 자산 번들을 참조하세요.
번들에 대한 더 많은 정보를 원하시면 Databricks 자산 번들이란?을 참조하세요.
번들 만들기
Databricks 작업 영역에서 번들을 만들려면 다음을 수행합니다.
번들을 생성하려는 Git 디렉토리로 이동합니다.
만들기 단추를 클릭한 다음 자산 번들을 클릭합니다. 또는 작업 영역 트리에서 Git 폴더 또는 연결된 케밥을 마우스 오른쪽 단추로 클릭하고자산 번들>를 클릭합니다.
자산 번들 만들기 대화 상자에서 자산 번들에 완전히 멋진 번들 등의 이름을 지정합니다. 번들 이름은 문자, 숫자, 대시 및 밑줄만 포함할 수 있습니다.
템플릿의 경우 빈 번들, 샘플 Python Notebook을 실행하는 번들 또는 SQL을 실행하는 번들을 만들 것인지 선택합니다. Lakeflow 파이프라인 편집기를 사용하도록 설정한 경우 ETL 파이프라인 프로젝트를 만드는 옵션도 표시됩니다.
일부 템플릿에는 추가 구성이 필요합니다. 다음을 클릭하여 프로젝트 구성을 완료합니다.
Template 구성 옵션 Lakeflow Spark 선언적 파이프라인 - 파이프라인 데이터에 사용할 기본 카탈로그
- 이 번들에서 공동 작업하는 각 사용자에 대해 개인 스키마 사용(권장)
- 파이프라인의 코드 파일에 대한 초기 언어
기본 Python - 샘플 노트북 포함
- 샘플 파이프라인을 추가하세요
- 샘플 Python 패키지 포함
- 서버리스 컴퓨팅 사용
기본 SQL - SQL 웨어하우스 경로
- 초기 카탈로그
- 개인 스키마 사용
- 개발 중 초기 스키마
만들기 및 배포를 클릭합니다.
그러면 선택한 .gitignore 프로젝트 템플릿의 파일, Git 구성 파일 및 필요한 Databricks 자산 번들 파일이 포함된 초기 번들이 databricks.yml Git 폴더에 만들어집니다. 파일에는 databricks.yml 번들에 대한 기본 구성이 포함되어 있습니다. 자세한 내용은 Databricks 자산 번들 구성을 참조하세요.
번들 내의 파일에 대한 모든 변경 내용은 Git 폴더와 연결된 원격 리포지토리와 동기화할 수 있습니다. Git 폴더에는 여러 번들이 포함될 수 있습니다.
번들에 새 파일 추가
번들에는 배포 및 작업 영역 구성을 정의하는 databricks.yml 파일, Notebook, Python 파일 및 테스트 파일과 같은 원본 파일, 그리고 Lakeflow 작업 및 Lakeflow Spark 선언적 파이프라인과 같은 Databricks 리소스에 대한 정의 및 설정이 포함됩니다. 작업 영역 폴더와 마찬가지로 번들에 새 파일을 추가할 수 있습니다.
팁 (조언)
번들 파일을 수정할 수 있는 번들 보기에 새 탭을 열려면 작업 영역의 번들 폴더로 이동한 다음 번들 이름 오른쪽 에 있는 편집기에서 열기 를 클릭합니다.
소스 코드 파일 추가
작업 영역 UI의 번들에 새 Notebook 또는 기타 파일을 추가하려면 번들 폴더로 이동한 다음, 다음을 수행합니다.
- 오른쪽 위에서 만들기 를 클릭하고 다음 파일 형식 중 하나를 선택하여 번들에 추가합니다. Notebook, File, Query, Dashboard.
- 또는 공유 왼쪽의 케밥을 클릭하고 파일을 가져옵니다.
비고
파일이 번들 배포의 일부가 되려면 번들 폴더에 파일을 추가한 후 번들 구성에 databricks.yml 파일을 추가하거나 이를 포함하는 작업 또는 파이프라인 정의 파일을 만들어야 합니다.
기존 리소스를 번들에 추가하는 방법을 참조하세요.
작업 정의 추가
번들에는 배포에 포함할 작업 및 파이프라인과 같은 리소스에 대한 정의가 포함되어 있습니다. 이러한 정의는 YAML 또는 Python에서 지정되며 UI에서 직접 이러한 구성을 만들고 편집할 수 있습니다.
작업을 정의하는 번들 구성 파일을 만들려면 다음을 수행합니다.
새 작업을 정의하려는 작업 영역의 번들 폴더로 이동합니다.
팁 (조언)
이전에 작업 영역의 편집기에서 번들을 연 경우 작업 영역 브라우저 작성 컨텍스트 목록을 사용하여 번들 폴더로 이동할 수 있습니다. 작성 컨텍스트를 참조하세요.
번들 이름 오른쪽에서 편집기에서 열기 를 클릭하여 번들 편집기 보기로 이동합니다.
번들의 배포 아이콘을 클릭하여 배포 패널로 전환합니다.
번들 리소스 섹션에서 추가, 새 작업 정의를 차례로 클릭합니다.
작업 정의 만들기 대화 상자의 작업 이름 필드에 작업 이름을 입력합니다. 만들기를 클릭합니다.
생성된 작업 정의 파일에 YAML을 추가합니다. 다음의 예제 YAML은 Notebook을 실행하는 작업을 정의합니다.
resources: jobs: run_notebook: name: run-notebook queue: enabled: true tasks: - task_key: my-notebook-task notebook_task: notebook_path: ../helloworld.ipynb
YAML에서 작업을 정의하는 방법에 대한 자세한 내용은 작업을 참조하세요. 지원되는 다른 작업 유형에 대한 YAML 구문은 Databricks 자산 번들의 작업에 작업 추가를 참조하세요.
파이프라인 추가
번들에 파이프라인을 추가하려면 다음 단계를 따르십시오.
새 파이프라인을 정의하려는 작업 영역의 번들 폴더로 이동합니다.
팁 (조언)
이전에 작업 영역의 편집기에서 번들을 연 경우 작업 영역 브라우저 작성 상황에 맞는 메뉴를 사용하여 번들 폴더로 이동할 수 있습니다. 작성 컨텍스트를 참조하세요.
번들 이름 오른쪽에서 편집기에서 열기 를 클릭하여 번들 편집기 보기로 이동합니다.
번들의 배포 아이콘을 클릭하여 배포 패널로 전환합니다.
작업 영역에서 Lakeflow 파이프라인 편집기를 사용하도록 설정한 경우 번들 리소스 섹션에서 추가, 새 파이프라인 정의 또는 새 ETL 파이프라인을 클릭합니다. 파이프라인 만들기 환경은 이러한 두 옵션에 따라 다릅니다.
파이프라인 정의 만들기
번들 리소스 만들기 메뉴에서 새 파이프라인 정의를 선택한 경우:
- 파이프라인의 이름을 기존 번들 대화 상자에 파이프라인 추가 대화 상자의 파이프라인 이름 필드에 입력합니다.
- 추가 및 배포를 클릭합니다.
이름이 test_pipeline인 노트북을 실행하는 파이프라인의 경우, 파일 test_pipeline.pipeline.yml에 다음의 YAML이 만들어집니다.
resources:
pipelines:
test_pipeline:
name: test_pipeline
libraries:
- notebook:
path: ../test_pipeline.ipynb
serverless: true
catalog: main
target: test_pipeline_${bundle.environment}
기존 Notebook을 실행하도록 구성을 수정할 수 있습니다. YAML에서 파이프라인을 정의하는 방법에 대한 자세한 내용은 파이프라인을 참조하세요.
ETL 파이프라인 만들기
번들 리소스 만들기 메뉴에서 새 ETL 파이프라인 을 선택한 경우:
파이프라인의 이름을 기존 번들 대화 상자에 파이프라인 추가 대화 상자의 이름 필드에 입력합니다. 이름은 작업 영역 내에서 고유해야 합니다.
개인 스키마 사용 필드의 경우 개발 시나리오의 경우 예, 프로덕션 시나리오의 경우 아니요를 선택합니다.
파이프라인에 대한 기본 카탈로그 및 기본 스키마 를 선택합니다.
파이프라인 소스 코드에 대한 언어를 선택합니다.
추가 및 배포를 클릭합니다.
개발자에 배포 확인 대화 상자에서 세부 정보를 검토한 다음 배포를 클릭합니다.
ETL 파이프라인은 예제 탐색 및 변환 테이블을 사용하여 만들어집니다.
이름이 rad_pipeline인 파이프라인의 경우, 파일 rad_pipeline.pipeline.yml에 다음과 같은 YAML이 생성됩니다. 이 파이프라인은 서버리스 컴퓨팅에서 실행되도록 구성됩니다.
resources:
pipelines:
rad_pipeline:
name: rad_pipeline
libraries:
- glob:
include: transformations/**
serverless: true
catalog: main
schema: ${workspace.current_user.short_name}
root_path: .
번들에 기존 리소스를 추가하기
파이프라인과 같은 기존 리소스와 Notebook 및 기타 원본 파일과 같은 자산도 번들에 추가할 수 있습니다. 그러나 번들 배포에 포함하려면 번들 구성에서 정의해야 합니다. 다음 예제에서는 번들에 기존 파이프라인을 추가합니다.
공유 작업 영역에 있는 taxifilter 노트북을 실행하는 파이프라인 taxifilter.ipynb이/가 있다고 가정합니다.
Azure Databricks 작업 영역의 사이드바에서 작업 및 파이프라인을 클릭합니다.
필요에 따라 파이프라인을 선택하고 내 소유 필터를 선택합니다.
taxifilter기존 파이프라인을 선택하십시오.파이프라인 페이지에서 개발 배포 모드 단추의 왼쪽에 있는 케밥을 클릭합니다. 그런 다음 설정 YAML 보기를 클릭합니다.
복사 아이콘을 클릭하여 파이프라인에 대한 번들 구성을 복사합니다.
작업 영역에서 나의 번들로 이동합니다.
번들의 배포 아이콘을 클릭하여 배포 패널로 전환합니다.
번들 리소스 섹션에서 추가, 새 파이프라인 정의를 차례로 클릭합니다.
비고
대신 새 ETL 파이프라인 메뉴 항목이 표시되면 Lakeflow 파이프라인 편집기를 사용하도록 설정됩니다. 번들에 ETL 파이프라인을 추가하려면 원본 제어 파이프라인 만들기를 참조하세요.
taxifilter대화 상자의 파이프라인 이름 필드에 입력 합니다. 만들기를 클릭합니다.기존 파이프라인에 대한 구성을 파일에 붙여넣습니다. 이 예제 파이프라인은 Notebook을 실행하도록 정의됩니다
taxifilter.resources: pipelines: taxifilter: name: taxifilter catalog: main libraries: - notebook: path: /Workspace/Shared/taxifilter.ipynb target: taxifilter_${bundle.environment}
이제 번들을 배포한 다음 UI를 통해 파이프라인 리소스를 실행할 수 있습니다.