중요합니다
이 기능은 공개 미리보기 단계에 있습니다.
이 문서에서는 Lakeflow 파이프라인 편집기를 사용하여 SDP(Lakeflow Spark 선언적 파이프라인)에서 ETL(추출, 변환 및 로드) 파이프라인을 개발하고 디버그하는 방법을 설명합니다.
비고
Lakeflow 파이프라인 편집기는 기본적으로 사용하도록 설정됩니다. 해제하거나 해제된 경우 다시 사용하도록 설정할 수 있습니다. Lakeflow 파이프라인 편집기 및 업데이트된 모니터링 사용을 참조하세요.
Lakeflow 파이프라인 편집기가 무엇인가요?
Lakeflow 파이프라인 편집기는 파이프라인 개발을 위해 빌드된 IDE입니다. 단일 화면에서 모든 파이프라인 개발 작업을 결합하여 코드 우선 워크플로, 폴더 기반 코드 조직, 선택적 실행, 데이터 미리 보기 및 파이프라인 그래프를 지원합니다. Azure Databricks 플랫폼과 통합되어 버전 제어, 코드 검토 및 예약된 실행도 사용할 수 있습니다.
Lakeflow 파이프라인 편집기 UI 개요
다음 이미지는 Lakeflow 파이프라인 편집기를 보여 줍니다.
이미지는 다음과 같은 기능을 보여줍니다.
- 파이프라인 자산 브라우저: 파이프라인 자산을 만들고, 삭제하고, 이름을 바꾸고, 구성합니다. 파이프라인 구성에 대한 바로 가기도 포함됩니다.
- 탭이 있는 다중 파일 코드 편집기: 파이프라인과 연결된 여러 코드 파일에서 작동합니다.
- 파이프라인별 도구 모음: 파이프라인 구성 옵션을 포함하며 파이프라인 수준 실행 작업이 있습니다.
- 대화형 DAG(방향성 순환 그래프): 테이블 개요를 확인하고, 데이터 미리 보기 아래쪽 막대를 열고, 다른 테이블 관련 작업을 수행합니다.
- 데이터 미리 보기: 스트리밍 테이블 및 구체화된 뷰의 데이터를 검사합니다.
- 테이블 수준 실행 인사이트: 파이프라인의 모든 테이블 또는 단일 테이블에 대한 실행 인사이트를 가져옵니다. 최신 파이프라인 실행에 기반한 통찰입니다.
- 문제 패널: 이 기능은 파이프라인의 모든 파일에 대한 오류를 요약하고 특정 파일 내에서 오류가 발생한 위치로 이동할 수 있습니다. 코드가 부착된 오류 표시기를 보완합니다.
- 선택적 실행: 코드 편집기에서는 파일 실행 작업 또는 단일 테이블을 사용하여 현재 파일에서만 테이블을 새로 고치는 기능과 같은 단계별 개발을 위한 기능을 제공합니다.
- 기본 파이프라인 폴더 구조: 새 파이프라인에는 파이프라인의 시작점으로 사용할 수 있는 미리 정의된 폴더 구조와 샘플 코드가 포함됩니다.
- 간소화된 파이프라인 만들기: 테이블이 기본적으로 만들어지고 파이프라인이 기본 설정을 사용하여 만들어지는 이름, 카탈로그 및 스키마를 제공합니다. 나중에 파이프라인 편집기 도구 모음에서 설정을 조정할 수 있습니다.
새 ETL 파이프라인 만들기
Lakeflow 파이프라인 편집기를 사용하여 새 ETL 파이프라인을 만들려면 다음 단계를 수행합니다.
사이드바 위쪽에서
을 클릭합니다.새로 만들기를 선택한 다음
을 선택합니다.ETL 파이프라인.
맨 위에서 파이프라인에 고유한 이름을 지정할 수 있습니다.
이름 바로 아래에서 선택한 기본 카탈로그 및 스키마를 볼 수 있습니다. 파이프라인에 다른 기본값을 제공하도록 변경합니다.
기본 카탈로그 및 기본 스키마는 코드에서 카탈로그 또는 스키마 를 사용하여 데이터 세트를 한정하지 않을 때 데이터 세트를 읽거나 쓰는 위치입니다. 자세한 내용은 Azure Databricks의 데이터베이스 개체 를 참조하세요.
파이프라인을 만들기 위해 다음 옵션 중 하나를 선택하십시오.
- SQL에서 샘플 코드로 시작하여 SQL의 샘플 코드를 포함하여 새 파이프라인 및 폴더 구조를 만듭니다.
- Python에서 샘플 코드로 시작하여 Python의 샘플 코드를 포함하여 새 파이프라인 및 폴더 구조를 만듭니다.
- 단일 변환으로 시작하여 새 빈 코드 파일을 사용하여 새 파이프라인 및 폴더 구조를 만듭니다.
- 기존 자산을 추가하여 작업 영역의 기존 코드 파일과 연결할 수 있는 파이프라인을 만듭니다.
ETL 파이프라인에 SQL 및 Python 소스 코드 파일을 둘 다 사용할 수 있습니다. 새 파이프라인을 만들고 샘플 코드에 대한 언어를 선택할 때 언어는 기본적으로 파이프라인에 포함된 샘플 코드에만 해당합니다.
선택하면 새로 만든 파이프라인으로 리디렉션됩니다.
ETL 파이프라인은 다음과 같은 기본 설정으로 만들어집니다.
- Unity 카탈로그
- 현재 채널
- 서버리스 컴퓨팅
- 개발 모드 해제. 이 설정은 파이프라인의 예약된 실행에만 영향을 줍니다. 편집기에서 파이프라인을 실행하는 것은 항상 개발 모드를 사용하는 기본값입니다.
파이프라인 도구 모음에서 이러한 설정을 조정할 수 있습니다.
또는 작업 영역 브라우저에서 ETL 파이프라인을 만들 수 있습니다.
- 왼쪽 패널에서 작업 영역을 클릭합니다.
- Git 폴더를 포함하여 모든 폴더를 선택합니다.
- 오른쪽 위 모서리에서 만들기 를 클릭하고 ETL 파이프라인을 클릭합니다.
작업 및 파이프라인 페이지에서 ETL 파이프라인을 만들 수도 있습니다.
- 작업 영역에서
사이드바의 작업 및 파이프라인입니다.
- 새로 만들기에서 ETL 파이프라인을 클릭합니다.
기존 ETL 파이프라인 열기
Lakeflow 파이프라인 편집기에서 기존 ETL 파이프라인을 여는 방법에는 여러 가지가 있습니다.
파이프라인과 연결된 원본 파일을 엽니다.
- 측면 패널에서 작업 영역을 클릭합니다.
- 파이프라인에 대한 소스 코드 파일이 있는 폴더로 이동합니다.
- 소스 코드 파일을 클릭하여 편집기에서 파이프라인을 엽니다.
최근에 편집한 파이프라인을 엽니다.
- 편집기에서 자산 브라우저 맨 위에 있는 파이프라인의 이름을 클릭하고 표시되는 최근 목록에서 다른 파이프라인을 선택하여 최근에 편집한 다른 파이프라인으로 이동할 수 있습니다.
- 편집기 외부의 왼쪽 사이드바에 있는 최근 정보 페이지에서 파이프라인의 소스 코드로 구성된 파이프라인 또는 파일을 엽니다.
제품 전체에서 파이프라인을 볼 때 파이프라인을 편집하도록 선택할 수 있습니다.
- 파이프라인 모니터링 페이지에서
을 클릭합니다.파이프라인을 편집합니다.
- 왼쪽 사이드바의 작업 실행 페이지에서 작업 및 파이프라인 탭을 클릭하고
을 클릭하고 파이프라인 편집을 클릭합니다.
- 작업을 편집하고 파이프라인 작업을 추가할 때
open in new tab icon파이프라인 아래에서 파이프라인을 선택할 때 단추를 클릭할 수 있습니다.
- 파이프라인 모니터링 페이지에서
자산 브라우저에서 모든 파일을 검색하고 다른 파이프라인에서 소스 코드 파일을 여는 경우 편집기 맨 위에 배너가 표시되어 연결된 파이프라인을 열라는 메시지가 표시됩니다.
파이프라인 자산 브라우저
파이프라인을 편집할 때 왼쪽 작업 영역 사이드바에서는 파이프라인 자산 브라우저라는 특수 모드를 사용합니다. 기본적으로 파이프라인 자산 브라우저는 파이프라인 루트와 루트 내의 폴더 및 파일에 중점을 둡니다. 파이프라인의 루트 외부에 있는 파일을 보려면 모든 파일을 보도록 선택할 수도 있습니다. 특정 파이프라인을 편집하는 동안 파이프라인 편집기에서 열린 탭이 기억되며, 다른 파이프라인으로 전환하면 해당 파이프라인을 마지막으로 편집할 때 탭이 열립니다.
비고
또한 편집기에서는 SQL 파일( Databricks SQL 편집기라고 함)을 편집하는 컨텍스트와 SQL 파일 또는 파이프라인 파일이 아닌 작업 영역 파일을 편집하기 위한 일반적인 컨텍스트가 있습니다. 이러한 각 컨텍스트는 해당 컨텍스트를 마지막으로 사용한 탭을 기억하고 복원합니다. 왼쪽 사이드바의 위쪽에서 컨텍스트를 전환할 수 있습니다. 머리글을 클릭하여 작업 영역, SQL 편집기 또는 최근에 편집한 파이프라인 중에서 선택합니다.
작업 영역 브라우저 페이지에서 파일을 열면 해당 파일의 해당 편집기에서 열립니다. 파일이 파이프라인과 연결된 경우 즉, Lakeflow 파이프라인 편집기입니다.
파이프라인에 속하지 않지만 파이프라인 컨텍스트를 유지하려면 자산 브라우저의 모든 파일 탭에서 파일을 엽니다.
파이프라인 자산 브라우저에는 다음 두 개의 탭이 있습니다.
- 파이프라인: 파이프라인과 연결된 모든 파일을 찾을 수 있습니다. 만들고, 삭제하고, 이름을 바꾸고, 폴더로 구성할 수 있습니다. 이 탭에는 파이프라인 구성에 대한 바로 가기와 최근 실행의 그래픽 보기도 포함됩니다.
- 모든 파일: 다른 모든 작업 영역 자산은 여기에서 사용할 수 있습니다. 이는 파이프라인에 추가할 파일을 찾거나 Databricks 자산 번들을 정의하는 YAML 파일과 같이 파이프라인과 관련된 다른 파일을 보는 데 유용할 수 있습니다.
파이프라인에 다음과 같은 형식의 파일을 사용할 수 있습니다.
- 소스 코드 파일: 이러한 파일은 설정에서 볼 수 있는 파이프라인의 소스 코드 정의의 일부입니다. Databricks는 항상 파이프라인 루트 폴더 내에 소스 코드 파일을 저장하는 것이 좋습니다. 그렇지 않으면 브라우저 아래쪽의 외부 파일 섹션에 표시되고 덜 풍부한 기능 집합이 있습니다.
- 소스 코드가 아닌 파일: 이러한 파일은 파이프라인 루트 폴더 내에 저장되지만 파이프라인 소스 코드 정의의 일부가 아닙니다.
중요합니다
파이프라인 탭 아래의 파이프라인 자산 브라우저를 사용하여 파이프라인 에 대한 파일 및 폴더를 관리해야 합니다. 이렇게 하면 파이프라인 설정이 올바르게 업데이트됩니다. 작업 영역 브라우저 또는 모든 파일 탭에서 파일 및 폴더를 이동하거나 이름을 바꾸면 파이프라인 구성이 중단되고 설정에서 이 문제를 수동으로 해결해야 합니다.
루트 폴더
파이프라인 자산 브라우저는 파이프라인 루트 폴더에 고정됩니다. 새 파이프라인을 만들 때 파이프라인 루트 폴더는 사용자 홈 폴더에 만들어지고 파이프라인 이름과 이름이 같습니다.
파이프라인 자산 브라우저에서 루트 폴더를 변경할 수 있습니다. 이 기능은 폴더에 파이프라인을 만들고 나중에 모든 항목을 다른 폴더로 이동하려는 경우에 유용합니다. 예를 들어 일반 폴더에 파이프라인을 만들고 버전 제어를 위해 소스 코드를 Git 폴더로 이동하려고 합니다.
-
을 클릭합니다. 루트 폴더의 오버플로 메뉴입니다.
- 새 루트 폴더 구성을 클릭합니다.
-
파이프라인 루트 폴더에서
을 클릭하고 다른 폴더를 파이프라인 루트 폴더로 선택합니다. - 저장을 클릭합니다.
에서 루트 폴더의 이름을 바꾸려면 루트 폴더 이름 바꾸기를 클릭할 수도 있습니다. 여기에서 루트 폴더 이동을 클릭하여 루트 폴더 를 Git 폴더로 이동할 수도 있습니다.
설정에서 파이프라인 루트 폴더를 변경할 수도 있습니다.
- 설정을 클릭합니다.
- 코드 자산에서경로 구성을 클릭합니다.
-
을 클릭하여 파이프라인 루트 폴더 아래의 폴더를 변경합니다. - 저장을 클릭합니다.
비고
파이프라인 루트 폴더를 변경하면 이전 루트 폴더의 파일이 외부 파일로 표시되므로 파이프라인 자산 브라우저에 표시되는 파일 목록이 영향을 받습니다.
루트 폴더가 없는 기존 파이프라인
레거시 Notebook 편집 환경을 사용하여 만든 기존 파이프라인에는 루트 폴더가 구성되지 않습니다. 루트 폴더가 구성되지 않은 파이프라인을 열면 루트 폴더를 만들고 그 안에 원본 파일을 구성하라는 메시지가 표시됩니다.
이를 해제하고 루트 폴더를 설정하지 않고 파이프라인을 계속 편집할 수 있습니다.
나중에 파이프라인에 대한 루트 폴더를 구성하려면 다음 단계를 수행합니다.
- 파이프라인 자산 브라우저에서 구성을 클릭합니다.
-
을 클릭하여 파이프라인 루트 폴더 아래의 루트 폴더를 선택합니다. - 저장을 클릭합니다.
기본 폴더 구조
새 파이프라인을 만들 때 기본 폴더 구조가 만들어집니다. 이는 아래 설명된 대로 파이프라인 소스 및 비 소스 코드 파일을 구성하는 데 권장되는 구조입니다.
이 폴더 구조에는 소수의 샘플 코드 파일이 만들어집니다.
| 폴더 이름 | 이러한 유형의 파일에 권장되는 위치 |
|---|---|
<pipeline_root_folder> |
파이프라인에 대한 모든 폴더와 파일이 포함된 루트 폴더입니다. |
transformations |
테이블 정의가 있는 Python 또는 SQL 코드 파일과 같은 소스 코드 파일입니다. |
explorations |
예비 데이터 분석에 사용되는 Notebook, 쿼리 및 코드 파일과 같은 소스가 아닌 코드 파일입니다. |
utilities |
다른 코드 파일에서 가져올 수 있는 Python 모듈이 있는 소스가 아닌 코드 파일입니다. 샘플 코드의 언어로 SQL을 선택하면 이 폴더가 만들어지지 않습니다. |
폴더 이름의 이름을 바꾸거나 워크플로에 맞게 구조를 변경할 수 있습니다. 새 소스 코드 폴더를 추가하려면 다음 단계를 수행합니다.
- 파이프라인 자산 브라우저에서 추가 를 클릭합니다.
- 파이프라인 소스 코드 폴더 만들기를 클릭합니다.
- 폴더 이름을 입력하고 만들기를 클릭합니다.
소스 코드 파일
소스 코드 파일은 파이프라인의 소스 코드 정의에 속합니다. 파이프라인을 실행하면 이러한 파일이 평가됩니다. 소스 코드 정의의 파일 및 폴더 부분에는 미니 파이프라인 아이콘이 겹쳐진 특수 아이콘이 있습니다.
새 소스 코드 파일을 추가하려면 다음 단계를 수행합니다.
- 파이프라인 자산 브라우저에서 추가 를 클릭합니다.
- 변환을 클릭합니다.
- 파일의 이름을 입력하고 Python 또는 SQL 을 언어로 선택합니다.
- 만들기를 클릭합니다.
을 클릭할 수 있습니다. 파이프라인 자산 브라우저의 모든 폴더에 대해 소스 코드 파일을 추가할 수 있습니다.
transformations 소스 코드의 폴더는 새 파이프라인을 만들 때 기본적으로 만들어집니다. 이 폴더는 파이프라인 테이블 정의가 있는 Python 또는 SQL 코드 파일과 같은 파이프라인 소스 코드에 권장되는 위치입니다.
소스가 아닌 코드 파일
소스가 아닌 코드 파일은 파이프라인 루트 폴더 내에 저장되지만 파이프라인 소스 코드 정의에는 포함되지 않습니다. 이러한 파일은 파이프라인을 실행할 때 평가되지 않습니다. 소스가 아닌 코드 파일은 외부 파일일 수 없습니다.
소스 코드와 함께 저장하려는 파이프라인의 작업과 관련된 파일에 사용할 수 있습니다. 다음은 그 예입니다.
- Lakeflow Spark 선언적 파이프라인이 아닌 곳에서 실행되는 임시 탐색에 사용하는 노트북은 파이프라인의 수명 주기 외부에서 계산됩니다.
- 소스 코드 파일 내에서 이러한 모듈을 명시적으로 가져오지 않는 한 소스 코드로 평가되지 않는 Python 모듈입니다.
소스가 아닌 새 코드 파일을 추가하려면 다음 단계를 수행합니다.
- 파이프라인 자산 브라우저에서 추가 를 클릭합니다.
- 탐색 또는 유틸리티를 클릭합니다.
- 파일의 이름을 입력합니다.
- 만들기를 클릭합니다.
을 클릭할 수도 있습니다. 파이프라인 루트 폴더 또는 소스가 아닌 코드 파일의 경우 이 폴더에 소스가 아닌 코드 파일을 추가합니다.
새 파이프라인을 만들 때 소스가 아닌 코드 파일에 대한 다음 폴더는 기본적으로 만들어집니다.
| 폴더 이름 | Description |
|---|---|
explorations |
이 폴더는 노트북, 쿼리, 대시보드 및 기타 파일에 권장되는 위치로, 일반적으로 파이프라인의 실행 수명 주기 외부에서 수행하듯이, Lakeflow가 아닌 Spark 선언적 파이프라인의 컴퓨팅에서 실행할 수 있습니다. |
utilities |
이 폴더는 부모 폴더가 루트 폴더 아래에 계층적으로 있는 한 표현된 from <filename> import직접 가져오기를 통해 다른 파일에서 가져올 수 있는 Python 모듈에 권장되는 위치입니다. |
루트 폴더 외부에 있는 Python 모듈을 가져올 수도 있지만, 이 경우 Python 코드에 폴더 경로를 sys.path 추가해야 합니다.
import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*
외부 파일
파이프라인 브라우저의 외부 파일 섹션에는 루트 폴더 외부의 소스 코드 파일이 표시됩니다.
외부 파일을 루트 폴더인 transformations로 이동하려면 다음 단계를 수행합니다.
-
을 클릭합니다. 자산 브라우저의 파일에 대해 이동을 클릭합니다.
- 파일을 이동할 폴더를 선택하고 이동을 클릭합니다.
여러 파이프라인과 연결된 파일
파일이 둘 이상의 파이프라인과 연결된 경우 파일의 헤더에 배지가 표시됩니다. 연결된 파이프라인 수가 있으며 다른 파이프라인으로 전환할 수 있습니다.
모든 파일 섹션
파이프라인 섹션 외에도 작업 영역에서 모든 파일을 열 수 있는 모든 파일 섹션이 있습니다. 다음을 수행할 수 있습니다.
- Lakeflow 파이프라인 편집기를 벗어나지 않고 탭의 루트 폴더 외부에 있는 파일을 엽니다.
- 다른 파이프라인의 소스 코드 파일로 이동하여 엽니다. 그러면 편집기에서 파일이 열리고 편집기에서 포커스를 이 두 번째 파이프라인으로 전환하는 옵션이 포함된 배너가 표시됩니다.
- 파이프라인의 루트 폴더로 파일을 이동합니다.
- 파이프라인 소스 코드 정의의 루트 폴더 외부에 파일을 포함합니다.
파이프라인 원본 파일 편집
작업 영역 브라우저 또는 파이프라인 자산 브라우저에서 파이프라인 원본 파일을 열면 Lakeflow 파이프라인 편집기에서 편집기 탭에서 열립니다. 더 많은 파일을 열면 별도의 탭이 열리고 여러 파일을 한 번에 편집할 수 있습니다.
비고
작업 영역 브라우저에서 파이프라인과 연결되지 않은 파일을 열면 편집기가 다른 컨텍스트(일반 작업 영역 편집기 또는 SQL 파일의 경우 SQL 편집기)로 열립니다.
파이프라인 자산 브라우저의 모든 파일 탭에서 비 파이프라인 파일을 열면 파이프라인 컨텍스트의 새 탭에서 열립니다.
파이프라인 소스 코드에는 여러 파일이 포함됩니다. 기본적으로 원본 파일은 파이프라인 자산 브라우저의 변환 폴더에 있습니다. 소스 코드 파일은 Python(*.py) 또는 SQL(*.sql) 파일일 수 있습니다. 원본은 단일 파이프라인에 Python 및 SQL 파일의 혼합을 포함할 수 있으며, 한 파일의 코드는 다른 파일에 정의된 테이블 또는 뷰를 참조할 수 있습니다.
tranformations 폴더에 markdown(*.md) 파일을 포함할 수도 있습니다. Markdown 파일은 설명서 또는 메모에 사용할 수 있지만 파이프라인 업데이트를 실행할 때는 무시됩니다.
다음 기능은 Lakeflow 파이프라인 편집기에서만 사용할 수 있습니다.
연결 - 서버리스 또는 클래식 컴퓨팅에 연결하여 파이프라인을 실행합니다. 파이프라인과 연결된 모든 파일은 동일한 컴퓨팅 연결을 사용하므로 연결되면 동일한 파이프라인의 다른 파일에 연결할 필요가 없습니다. 컴퓨팅 옵션에 대한 자세한 내용은 컴퓨팅 구성 옵션을 참조하세요.
예비 Notebook과 같은 비 파이프라인 파일의 경우 연결 옵션을 사용할 수 있지만 해당 개별 파일에만 적용됩니다.
파일 실행 - 코드를 실행하여 이 원본 파일에 정의된 테이블을 업데이트합니다. 다음 섹션에서는 파이프라인 코드를 실행하는 다양한 방법을 설명합니다.
편집 - Databricks Assistant를 사용하여 파일의 코드를 편집하거나 추가합니다.
빠른 수정 - 코드에 오류가 있는 경우 Assistant를 사용하여 오류를 해결합니다.
아래쪽 패널도 현재 탭에 따라 조정됩니다. 아래쪽 패널에서 파이프라인 정보를 항상 볼 수 있습니다. SQL 편집기 파일과 같이 파이프라인이 아닌 관련 파일도 별도의 탭의 아래쪽 패널에 출력을 표시합니다. 다음 이미지는 선택한 Notebook에 대한 파이프라인 정보 또는 정보 보기 간에 아래쪽 패널을 전환하는 세로 탭 선택기를 보여줍니다.
파이프라인 코드 실행
파이프라인 코드를 실행하는 네 가지 옵션이 있습니다.
파이프라인에서 모든 소스 코드 파일 실행
파이프라인 실행 또는 전체 테이블 새로 고침을 사용하여 파이프라인 실행을 클릭하여 파이프라인 소스 코드로 정의된 모든 파일의 모든 테이블 정의를 실행합니다. 새로 고침 유형에 대한 자세한 내용은 파이프라인 새로 고침 의미 체계를 참조하세요.
드라이 실행을 클릭하여 데이터를 업데이트하지 않고 파이프라인의 유효성을 검사할 수도 있습니다.
단일 파일에서 코드 실행
파일 실행을 클릭하거나 전체 테이블 새로 고침이 있는 파일 실행을 클릭하여 현재 파일의 모든 테이블 정의를 실행합니다. 파이프라인의 다른 파일은 평가되지 않습니다.
이 옵션은 파일을 빠르게 편집하고 반복할 때 디버깅하는 데 유용합니다. 단일 파일에서만 코드를 실행하는 경우 부작용이 있습니다.
- 다른 파일이 평가되지 않으면 해당 파일의 오류를 찾을 수 없습니다.
- 다른 파일에서 구체화된 테이블은 최신 원본 데이터가 있더라도 테이블의 가장 최근 구체화를 사용합니다.
- 참조된 테이블이 아직 구체화되지 않은 경우 오류가 발생할 수 있습니다.
- DAG가 구체화되지 않은 다른 파일의 테이블에 대해 올바르지 않거나 연결되지 않을 수 있습니다. Azure Databricks는 그래프를 올바르게 유지하기 위해 최선을 다하지만 다른 파일을 평가하지는 않습니다.
파일 디버깅 및 편집이 완료되면 Databricks는 파이프라인을 프로덕션 환경에 배치하기 전에 파이프라인이 종단 간 작동하는지 확인하기 위해 파이프라인의 모든 소스 코드 파일을 실행하는 것이 좋습니다.
단일 테이블에 대한 코드 실행
소스 코드 파일의 테이블 정의 옆에 있는 테이블 실행 아이콘 실행 아이콘
을 클릭한 다음 드롭다운에서 테이블 새로 고침 또는 전체 새로 고침 테이블을 선택합니다. 단일 테이블에 대한 코드를 실행하면 단일 파일에서 코드를 실행하는 것과 유사한 부작용이 있습니다.
비고
단일 테이블에 대한 코드를 실행하는 것은 스트리밍 테이블 및 구체화된 뷰에 사용할 수 있습니다. 싱크 및 뷰는 지원되지 않습니다.
테이블 집합에 대한 코드 실행
DAG에서 테이블을 선택하여 실행할 테이블 목록을 만들 수 있습니다. DAG에서 테이블을 마우스로 가리키고
을 클릭한 다음 새로 고칠 테이블 선택을 선택합니다. 새로 고칠 테이블을 선택한 후 DAG 아래쪽에서 전체 새로 고침 옵션을 사용하여 실행 또는 실행을 선택합니다.
파이프라인 그래프, 유향 비순환 그래프(DAG)
파이프라인의 모든 소스 코드 파일을 실행하거나 유효성을 검사한 후, 파이프라인 그래프라는 지시 비순환 그래프(DAG)가 표시됩니다. 그래프는 테이블 종속성 그래프를 보여줍니다. 각 노드에는 파이프라인 수명 주기에 따라 유효성 검사됨, 실행 중 또는 오류와 같은 상태가 다릅니다.
오른쪽 패널에서 그래프 아이콘을 클릭하여 그래프를 켜고 끌 수 있습니다. 그래프를 최대화할 수도 있습니다. 오른쪽 아래에는 확대/축소 옵션 및 을 비롯한 추가 옵션이 있습니다.그래프를 세로 또는 가로 레이아웃으로 표시하는 추가 옵션입니다.
노드를 마우스로 가리키면 쿼리 새로 고침을 비롯한 옵션이 포함된 도구 모음이 표시됩니다. 노드를 마우스 오른쪽 단추로 클릭하면 상황에 맞는 메뉴에서 동일한 옵션이 제공됩니다.
노드를 클릭하면 데이터 미리 보기 및 테이블 정의가 표시됩니다. 파일을 편집할 때 해당 파일에 정의된 테이블이 그래프에 강조 표시됩니다.
데이터 미리 보기
데이터 미리 보기 섹션에는 선택한 테이블에 대한 샘플 데이터가 표시됩니다.
지시된 DAG(순환 그래프)에서 노드를 클릭하면 테이블 데이터의 미리 보기가 표시됩니다.
테이블이 선택되지 않은 경우 테이블 섹션으로 이동하여 데이터 미리 보기
을 클릭합니다. 테이블을 선택한 경우 모든 테이블을 클릭하여 모든 테이블로 돌아갑니다.
테이블 데이터를 미리 볼 때 데이터를 현재 위치에서 필터링하거나 정렬할 수 있습니다. 더 복잡한 분석을 수행하려는 경우 탐색 폴더에서 Notebook을 사용하거나 만들 수 있습니다(기본 폴더 구조를 유지한다고 가정). 기본적으로 이 폴더의 소스 코드는 파이프라인 업데이트 중에 실행되지 않으므로 파이프라인 출력에 영향을 주지 않고 쿼리를 만들 수 있습니다.
실행 인사이트
편집기 하단의 패널에서 최신 파이프라인 업데이트에 대한 테이블 실행 인사이트를 볼 수 있습니다.
| Panel | Description |
|---|---|
| Tables | 상태 및 메트릭이 있는 모든 테이블을 나열합니다. 하나의 테이블을 선택하면 해당 테이블의 메트릭 및 성능과 데이터 미리 보기 탭이 표시됩니다. |
| Performance | 이 파이프라인의 모든 흐름에 대한 쿼리 기록 및 프로필입니다. 실행 중 및 실행 후에 실행 메트릭 및 자세한 쿼리 계획에 액세스할 수 있습니다. 자세한 내용은 파이프라인에 대한 액세스 쿼리 기록을 참조하세요. |
| 문제 패널 | 파이프라인에 대한 오류 및 경고의 간소화된 보기를 보려면 패널을 클릭합니다. 항목을 클릭하여 자세한 내용을 확인하고 오류가 발생한 코드의 위치로 이동할 수 있습니다. 오류가 현재 표시된 파일이 아닌 다른 파일에 있으면 오류가 있는 파일로 리디렉션됩니다. 세부 정보 보기를 클릭하여 해당 이벤트 로그 항목을 확인하여 전체 세부 정보를 확인합니다. 로그 보기를 클릭하여 전체 이벤트 로그를 확인합니다. 코드에 부착된 오류 표시기가 코드의 특정 부분과 연결된 오류에 대해 표시됩니다. 자세한 내용을 보려면 오류 아이콘을 클릭하거나 빨간색 선을 마우스로 가리킵니다. 자세한 정보가 포함된 팝업이 나타납니다. 그런 다음 빠른 수정 을 클릭하여 오류 문제를 해결하기 위한 작업 집합을 표시할 수 있습니다. |
| 이벤트 로그 | 마지막 파이프라인 실행 중에 트리거된 모든 이벤트입니다. 문제 트레이의 로그 또는 항목 보기를 클릭합니다. |
파이프라인 구성
파이프라인 편집기에서 파이프라인을 구성할 수 있습니다. 파이프라인 설정, 일정 또는 권한을 변경할 수 있습니다.
이러한 각 항목은 편집기의 헤더에 있는 단추 또는 자산 브라우저의 아이콘(왼쪽 사이드바)에서 액세스할 수 있습니다.
설정 (또는 자산 브라우저에서
선택):
일반 정보, 루트 폴더 및 소스 코드 구성, 컴퓨팅 구성, 알림, 고급 설정 등을 포함하여 설정 패널에서 파이프라인에 대한 설정을 편집할 수 있습니다.
일정 (또는 자산 브라우저에서
선택):
일정 대화 상자에서 파이프라인에 대한 일정을 하나 이상 만들 수 있습니다. 예를 들어 매일 실행하려는 경우 여기에서 설정할 수 있습니다. 선택한 일정에 따라 파이프라인을 실행하는 작업을 만듭니다. 새 일정을 추가하거나 일정 대화 상자에서 기존 일정을 제거할 수 있습니다.
공유 (또는 자산 브라우저의
에서
을 선택합니다).
파이프라인 사용 권한 대화 상자에서 사용자 및 그룹에 대한 파이프라인에 대한 권한을 관리할 수 있습니다.
이벤트 로그
파이프라인에 대한 이벤트 로그를 Unity 카탈로그에 게시할 수 있습니다. 기본적으로 파이프라인에 대한 이벤트 로그는 UI에 표시되며 소유자가 쿼리할 수 있습니다.
- 설정을 엽니다.
-
을 클릭합니다. 고급 설정 옆의 화살표입니다.
- 고급 설정 편집을 클릭합니다.
- 이벤트 로그에서 카탈로그에 게시를 클릭합니다.
- 이벤트 로그의 이름, 카탈로그 및 스키마를 제공합니다.
- 저장을 클릭합니다.
파이프라인 이벤트는 지정한 테이블에 게시됩니다.
파이프라인 이벤트 로그 사용에 대한 자세한 내용은 이벤트 로그 쿼리를 참조하세요.
파이프라인 환경
설정에 종속성을 추가하여 소스 코드에 대한 환경을 만들 수 있습니다.
- 설정을 엽니다.
- 환경 아래에서 환경 편집을 클릭합니다.
-
을 선택합니다. 종속성을 추가하여 마치
requirements.txt파일에 추가하는 것처럼 추가합니다. 종속성에 대한 자세한 내용은 Notebook에 종속성 추가를 참조하세요.
Databricks는 ==로 버전을 고정할 것을 권장합니다. PyPI 패키지를 참조하세요.
환경은 파이프라인의 모든 소스 코드 파일에 적용됩니다.
알림
파이프라인 설정을 사용하여 알림을 추가할 수 있습니다.
- 설정을 엽니다.
- 알림 섹션에서 알림 추가를 클릭합니다.
- 하나 이상의 전자 메일 주소를 추가하고 보내려는 이벤트를 지정합니다.
- 알림추가를 클릭합니다.
비고
Python 이벤트 후크를 사용하여 알림 또는 사용자 지정 처리를 포함하여 이벤트에 대한 사용자 지정 응답을 만듭니다.
파이프라인 모니터링
Azure Databricks는 실행 중인 파이프라인을 모니터링하는 기능도 제공합니다. 편집기는 가장 최근 실행에 대한 결과 및 실행 인사이트를 보여 줍니다. 파이프라인을 대화형으로 개발하는 동안 효율적으로 반복하는 데 도움이 되도록 최적화되었습니다.
파이프라인 모니터링 페이지를 사용하면 기록 실행을 볼 수 있습니다. 이는 파이프라인이 작업을 사용하여 일정에 따라 실행되는 경우에 유용합니다.
비고
기본 모니터링 환경과 업데이트된 미리 보기 모니터링 환경이 있습니다. 다음 섹션에서는 미리 보기 모니터링 환경을 사용하거나 사용하지 않도록 설정하는 방법을 설명합니다. 두 환경에 대한 자세한 내용은 UI의 파이프라인 모니터링을 참조하세요.
모니터링 환경은 작업 영역 왼쪽의 작업 및 파이프라인 단추에서 사용할 수 있습니다. 파이프라인 자산 브라우저에서 실행 결과를 클릭하여 편집기에서 모니터링 페이지로 직접 이동할 수도 있습니다.
모니터링 페이지에 대한 자세한 내용은 UI의 파이프라인 모니터링을 참조하세요. 모니터링 UI에는 UI 헤더에서 파이프라인 편집을 선택하여 Lakeflow 파이프라인 편집기로 돌아갈 수 있는 기능이 포함되어 있습니다.
Lakeflow 파이프라인 편집기 및 업데이트된 모니터링 활성화
Lakeflow 파이프라인 편집기 미리 보기는 기본적으로 사용하도록 설정되어 있습니다. 사용하지 않도록 설정하거나 다음 지침에 따라 다시 사용하도록 설정할 수 있습니다. Lakeflow 파이프라인 편집기 미리 보기를 사용하도록 설정하면 업데이트된 모니터링 환경(미리 보기)을 사용하도록 설정할 수도 있습니다.
작업 영역에 대한 Lakeflow 파이프라인 편집기 옵션을 설정하여 미리 보기를 사용하도록 설정해야 합니다. 옵션을 편집하는 방법에 대한 자세한 내용은 Azure Databricks 미리 보기 관리를 참조하세요.
미리 보기를 사용하도록 설정하면 다음과 같은 여러 가지 방법으로 Lakeflow 파이프라인 편집기를 사용하도록 설정할 수 있습니다.
새 ETL 파이프라인을 만들 때 Lakeflow 파이프라인 편집기 토글을 사용하여 Lakeflow Spark 선언적 파이프라인에서 편집기를 사용하도록 설정합니다.
파이프라인에 대한 고급 설정 페이지는 편집기를 처음 사용하도록 설정할 때 사용됩니다. 간소화된 파이프라인 만들기 창은 다음에 새 파이프라인을 만들 때 사용됩니다.
기존 파이프라인의 경우 파이프라인에 사용되는 Notebook을 열고 헤더에서 Lakeflow 파이프라인 편집기 토글을 사용하도록 설정합니다. 파이프라인 모니터링 페이지로 이동하여 설정을 클릭하여 Lakeflow 파이프라인 편집기를 사용하도록 설정할 수도 있습니다.
사용자 설정에서 Lakeflow 파이프라인 편집기를 사용하도록 설정할 수 있습니다.
- 작업 영역의 오른쪽 위 영역에서 사용자 배지 를 클릭한 다음 설정 및 개발자를 클릭합니다.
- Lakeflow 파이프라인 편집기를 사용하도록 설정합니다.
Lakeflow 파이프라인 편집기 토글을 사용하도록 설정한 후 모든 ETL 파이프라인은 기본적으로 Lakeflow 파이프라인 편집기를 사용합니다. 편집기에서 Lakeflow 파이프라인 편집기를 켜고 끌 수 있습니다.
비고
새 파이프라인 편집기를 사용하지 않도록 설정하면 해당 편집기를 해제한 이유를 설명하는 피드백을 남기는 것이 좋습니다. 새로운 편집기에 대한 의견을 보내기 위한 피드백 보내기 버튼이 토글에 있습니다.
새 파이프라인 모니터링 페이지 사용
중요합니다
이 기능은 공개 미리보기 단계에 있습니다.
Lakeflow 파이프라인 편집기 미리 보기의 일부로 파이프라인에 대한 새 파이프라인 모니터링 페이지를 사용하도록 설정할 수도 있습니다. 파이프라인 모니터링 페이지를 사용하도록 설정하려면 Lakeflow 파이프라인 편집기 미리 보기를 사용하도록 설정해야 합니다. 편집기 미리 보기를 사용하도록 설정하면 새 모니터링 페이지도 기본적으로 사용하도록 설정됩니다.
작업 및 파이프라인을 클릭합니다.
파이프라인의 세부 정보를 보려면 파이프라인의 이름을 클릭합니다.
페이지 맨 위에서 새 파이프라인 페이지 토글로 업데이트된 모니터링 UI를 사용하도록 설정합니다.
제한 사항 및 알려진 문제
Lakeflow Spark 선언적 파이프라인의 ETL 파이프라인 편집기에서 다음과 같은 제한 사항 및 알려진 문제를 참조하세요.
이러한 파일 또는 Notebook이 파이프라인 소스 코드 정의의 일부가 아니기 때문에 폴더 또는 Notebook에서
explorations파일을 열어 시작하면 작업 영역 브라우저 사이드바가 파이프라인에 초점을 맞추지 않습니다.작업 영역 브라우저에서 파이프라인 포커스 모드로 전환하려면 파이프라인과 연결된 파일을 엽니다.
데이터 미리 보기는 일반 보기에서 지원되지 않습니다.
Python 모듈은 루트 폴더에 있거나
sys.path에 있어도 UDF 내에서 찾을 수 없습니다. UDF 내의 경로를 추가하여 이러한 모듈에sys.path액세스할 수 있습니다. 예를 들면 다음과 같습니다.sys.path.append(os.path.abspath(“/Workspace/Users/path/to/modules”))%pip install는 파일에서 지원되지 않습니다(새 편집기가 있는 기본 자산 형식). 설정에서 종속성을 추가할 수 있습니다. 파이프라인 환경을 참조하세요.대안으로, 파이프라인과 연관된 Notebook의 소스 코드 정의 내에서
%pip install를 계속 사용할 수 있습니다.
자주 묻는 질문(FAQ)
소스 코드에 Notebook이 아닌 파일을 사용하는 이유는 무엇인가요?
노트북의 셀 기반 실행은 파이프라인과 호환되지 않습니다. Notebook의 표준 기능은 파이프라인으로 작업할 때 사용하지 않도록 설정되거나 변경되어 Notebook 동작에 익숙한 사용자에게 혼란을 야기합니다.
Lakeflow 파이프라인 편집기에서 파일 편집기는 파이프라인에 대한 일류 편집기를 위한 기초로 사용됩니다. 기능은 다른 동작으로 익숙한 기능을 오버로드하는 대신 테이블 실행
과 같은 파이프라인을 명시적으로 대상으로 합니다.
전자 필기장을 소스 코드로 계속 사용할 수 있나요?
예, 가능합니다. 그러나 테이블 실행
또는 실행 파일과 같은 일부 기능은 존재하지 않습니다.
Notebook을 사용하는 기존 파이프라인이 있는 경우 새 편집기에서 계속 작동합니다. 그러나 Databricks는 새 파이프라인에 대한 파일로 전환하는 것이 좋습니다.
새로 만든 파이프라인에 기존 코드를 추가하려면 어떻게 해야 하나요?
기존 소스 코드 파일을 새 파이프라인에 추가할 수 있습니다. 기존 파일이 있는 폴더를 추가하려면 다음 단계를 수행합니다.
- 설정을 클릭합니다.
- 소스 코드에서 경로 구성을 클릭합니다.
- 경로 추가를 클릭하고 기존 파일의 폴더를 선택합니다.
- 저장을 클릭합니다.
개별 파일을 추가할 수도 있습니다.
- 파이프라인 자산 브라우저에서 모든 파일을 클릭합니다.
- 파일로 이동하여
을 클릭한 다음 파이프라인에서 [포함]을 클릭합니다.
이러한 파일을 파이프라인 루트 폴더로 이동하는 것이 좋습니다. 파이프라인 루트 폴더 외부에 남아 있는 경우 외부 파일 섹션에 표시됩니다.
Git에서 파이프라인 소스 코드를 관리할 수 있나요?
처음에 파이프라인을 만들 때 Git 폴더를 선택하여 Git에서 파이프라인 원본을 관리할 수 있습니다.
비고
Git 폴더에서 소스를 관리하면 소스 코드에 대한 버전 제어가 추가됩니다. 그러나 구성을 버전 제어하기 위해 Databricks는 Databricks 자산 번들을 사용하여 Git(또는 다른 버전 제어 시스템)에 저장할 수 있는 번들 구성 파일에서 파이프라인 구성을 정의하는 것이 좋습니다. 자세한 내용은 Databricks 자산 번들이란?을 참조하세요.
처음에 Git 폴더에 파이프라인을 만들지 않은 경우 원본을 Git 폴더로 이동할 수 있습니다. Databricks는 편집기 작업을 사용하여 전체 루트 폴더를 Git 폴더로 이동하는 것이 좋습니다. 이렇게 하면 모든 설정이 적절하게 업데이트됩니다. 루트 폴더를 참조하세요.
파이프라인 자산 브라우저에서 루트 폴더를 Git 폴더로 이동하려면 다음을 수행합니다.
-
을 클릭하여 루트 폴더로 이동합니다.
- 루트 폴더 이동을 클릭합니다.
- 루트 폴더의 새 위치를 선택하고 이동을 클릭합니다.
자세한 내용은 루트 폴더 섹션을 참조하세요.
이동한 후 루트 폴더 이름 옆에 친숙한 Git 아이콘이 표시됩니다.
중요합니다
파이프라인 루트 폴더를 이동하려면 파이프라인 자산 브라우저 및 위의 단계를 사용합니다. 다른 방법으로 이동하면 파이프라인 구성이 중단되고 설정에서 올바른 폴더 경로를 수동으로 구성해야 합니다.
-
동일한 루트 폴더에 여러 파이프라인을 사용할 수 있나요?
가능하지만 Databricks는 루트 폴더당 하나의 파이프라인만 사용하는 것이 좋습니다.
언제 드라이 런을 실행해야 하나요?
테이블을 업데이트하지 않고 코드를 확인하려면 드라이 실행을 클릭합니다.
임시 뷰를 사용해야 하는 경우와 코드에서 구체화된 뷰를 사용해야 하는 경우는 언제인가요?
데이터를 구체화하지 않으려면 임시 뷰를 사용합니다. 예를 들어 이는 스트리밍 테이블 또는 카탈로그에 등록된 구체화된 뷰를 사용하여 구체화할 준비가 되기 전에 데이터를 준비하는 단계의 일련의 단계입니다.