다음을 통해 공유


파이프라인 개요

Microsoft Fabric Data Factory의 파이프라인은 데이터 워크플로를 오케스트레이션하고 자동화하는 데 도움이 됩니다. 파이프라인은 함께 작업을 수행하는 활동의 논리적 그룹화입니다. 예를 들어 파이프라인에는 로그 데이터를 수집하고 정리한 다음 데이터 흐름을 시작하여 로그 데이터를 분석하는 활동 집합이 포함될 수 있습니다.

파이프라인을 사용하면 각 작업을 개별적으로 관리하는 대신 집합으로 활동을 관리할 수 있습니다. 작업이 아닌 파이프라인을 독립적으로 배포하고 예약합니다.

파이프라인을 사용하는 경우

파이프라인은 반복적인 작업을 자동화하고 일관된 데이터 처리를 보장하여 일반적인 데이터 문제를 해결합니다.

여러 매장의 일일 판매 데이터를 처리해야 하는 소매 회사라고 가정해 보겠습니다. 매일 다음을 수행해야 합니다.

  1. 판매 시점 시스템, 온라인 주문 및 인벤토리 데이터베이스에서 데이터 수집
  2. 데이터의 유효성을 검사하고 정리하여 정확도를 보장합니다.
  3. 일일 합계를 계산하고, 비즈니스 규칙을 적용하고, 고객 정보로 보강하여 데이터 변환
  4. 보고를 위해 처리된 데이터를 데이터 웨어하우스에 로드
  5. 데이터가 준비되면 비즈니스 인텔리전스 팀에 알립니다.

파이프라인은 이 전체 워크플로를 자동화합니다. 일정에 따라 실행되고 오류를 정상적으로 처리하며 각 단계에 대한 가시성을 제공합니다. 수동 개입 없이 일관되고 시기 적절하게 데이터를 처리할 수 있습니다.

주요 파이프라인 구성 요소

파이프라인은 강력한 데이터 워크플로를 만들기 위해 함께 작동하는 몇 가지 주요 구성 요소로 구성됩니다. 주요 구성 요소에는 작업을 수행하고 파이프라인에 논리를 추가하는 작업 , 파이프라인 실행 시기를 결정하는 일정 또는 트리거 , 파이프라인을 유연하고 재사용 가능하게 만드는 매개 변수 가 포함됩니다.

Activities

활동은 파이프라인의 구성 요소입니다. 각 활동은 특정 작업을 수행하며 다음과 같은 세 가지 주요 유형의 활동이 있습니다.

작업을 함께 연결하여 복잡한 워크플로를 만들 수 있습니다. 하나의 작업이 완료되면 성공, 실패 또는 완료 상태에 따라 다음 활동을 트리거할 수 있습니다.

사용 가능한 활동의 전체 목록 및 자세한 내용은 활동 개요를 참조하세요.

파이프라인 운영 및 일정 관리

파이프라인 실행은 파이프라인이 실행되면 발생합니다. 실행하는 동안 파이프라인의 모든 활동이 처리되고 완료됩니다. 각 파이프라인 실행은 추적 및 모니터링에 사용할 수 있는 고유한 실행 ID를 가져옵니다.

다음 세 가지 방법으로 파이프라인 실행을 시작할 수 있습니다.

  • 주문형 실행: 파이프라인 편집기에서 실행을 선택하여 즉시 실행을 트리거합니다. 파이프라인이 시작되기 전에 변경 내용을 저장해야 합니다.

    홈 탭에서 실행을 선택할 위치를 보여주는 스크린샷.

  • 예약된 실행: 시간 및 빈도에 따라 자동 실행을 설정합니다. 일정을 만들 때 시작 및 종료 날짜, 빈도 및 표준 시간대를 지정합니다.

    홈 탭에서 일정을 선택할 위치를 보여 주는 스크린샷

  • 이벤트 기반 실행: 데이터 레이크에 도착하는 새 파일이나 데이터베이스의 변경 내용과 같은 특정 이벤트가 발생할 때 이벤트 트리거를 사용하여 파이프라인을 시작합니다.

    홈 탭에서 이벤트 기반 실행 트리거를 추가할 트리거를 선택할 위치를 보여 주는 스크린샷

자세한 내용은 파이프라인 실행, 예약 또는 트리거를 참조하세요.

매개 변수 및 변수

매개 변수는 파이프라인을 유연하게 만듭니다. 파이프라인을 실행할 때 다른 값을 전달하여 동일한 파이프라인이 다른 데이터 세트를 처리하거나 다른 구성을 사용할 수 있도록 할 수 있습니다.

변수는 파이프라인을 실행하는 동안 임시 값을 저장합니다. 이를 사용하여 활동 간에 데이터를 전달하거나 런타임 조건에 따라 결정을 내릴 수 있습니다.

자세한 내용은 파이프라인에서 매개 변수, 식 및 함수를 사용하는 방법을 참조하세요.

파이프라인 모니터링 및 관리

패브릭은 파이프라인에 대한 포괄적인 모니터링을 제공합니다.

  • 실시간 모니터링: 파이프라인이 실행되는 동안 각 활동의 상태에 대한 시각적 표시기를 사용하여 파이프라인 진행률을 확인합니다.
  • 실행 기록: 이전 실행을 검토하여 패턴을 식별하고 문제를 해결합니다.
  • 성능 메트릭: 실행 시간 및 리소스 사용량을 분석하여 파이프라인 최적화
  • 감사 내역: 시작 시간, 종료 시간, 활동 기간, 오류 메시지 및 데이터 계보에 대한 자세한 로그를 사용하여 언제 어떤 파이프라인을 실행했는지 추적합니다.

자세한 내용은 파이프라인 실행 모니터링을 참조하세요.

모범 사례

파이프라인을 디자인할 때 다음 권장 사항을 고려합니다.

  • 간단한 시작: 기본 데이터 이동으로 시작하고 점차 복잡성 추가
  • 매개 변수 사용: 연결 및 파일 경로를 매개 변수화하여 파이프라인을 다시 사용할 수 있도록 합니다.
  • 오류 처리: 재시도 논리 및 대체 처리 경로를 사용하여 오류 계획
  • 성능 모니터링: 정기적으로 실행 시간을 검토하고 실행 속도가 느린 활동을 최적화합니다.
  • 철저히 테스트: 프로덕션 워크로드를 처리하기 전에 샘플 데이터로 파이프라인 유효성 검사

다음 단계