다음을 통해 공유


Azure에서 데이터 파이프라인 오케스트레이션 기술 선택

대부분의 빅 데이터 솔루션은 워크플로에 캡슐화된 반복된 데이터 처리 작업으로 구성됩니다. 파이프라인 오케스트레이터는 이러한 워크플로를 자동화하는 데 도움이 됩니다. 작업을 예약하고, 워크플로를 실행하고, 작업 간의 종속성을 조정할 수 있습니다.

데이터 파이프라인 오케스트레이션 옵션

Azure에서 다음 서비스 및 도구는 파이프라인 오케스트레이션, 제어 흐름 및 데이터 이동에 대한 핵심 요구 사항을 충족합니다.

이러한 서비스 및 도구를 독립적으로 사용하거나 결합하여 하이브리드 솔루션을 만들 수 있습니다. 예를 들어 Data Factory V2의 IR(통합 런타임)은 관리되는 Azure 컴퓨팅 환경에서 SSIS 패키지를 기본적으로 실행할 수 있습니다. 이러한 서비스는 몇 가지 기능을 공유하지만 몇 가지 주요 차이점이 있습니다.

주요 선택 조건

옵션 범위를 좁히려면 다음 요소를 고려합니다.

  • 데이터를 이동하고 변환하는 데 빅 데이터 기능이 필요한지 여부를 결정합니다. 이러한 기능은 일반적으로 수 기가바이트(GB)에서 테라바이트(TB)에 이르는 데이터를 사용합니다. 이러한 기능이 필요한 경우 빅 데이터를 위해 설계된 서비스를 선택합니다.

  • 대규모로 작동할 수 있는 관리되는 서비스가 필요한지 여부를 식별합니다. 이 경우 로컬 처리 성능에 의존하지 않는 클라우드 기반 서비스를 선택합니다.

  • 온-프레미스에 데이터 원본이 있는지 확인합니다. 이 경우 클라우드 및 온-프레미스 데이터 원본 또는 대상을 모두 지원하는 서비스를 선택합니다.

  • HDFS(Hadoop 분산 파일 시스템)의 Blob Storage에 원본 데이터를 저장하는지 확인합니다. 이 경우 Hive 쿼리를 지원하는 서비스를 선택합니다.

  • 여러 데이터 원본에서 복잡한 ETL(추출, 변환 및 로드) 워크플로에 대한 고급 오케스트레이션이 필요한지 여부를 결정합니다. 이 경우 온-프레미스 및 클라우드 환경 모두와 연결선, 파이프라인 오케스트레이션 및 통합 집합을 제공하므로 Fabric Data Factory를 선택합니다. 엔터프라이즈 규모 데이터 이동 및 변환에 이상적입니다.

기능 매트릭스

다음 표에서는 기능의 주요 차이점을 요약합니다.

일반 기능

능력 Data Factory SSIS(SQL Server 통합 서비스) HDInsight의 Oozie 패브릭 데이터 팩토리
관리됨 아니요
클라우드 기반 아니요(로컬)
전제 조건 Azure 구독 SQL 서버 Azure 구독, HDInsight 클러스터 패브릭 사용 작업 영역
관리 도구 Azure portal, PowerShell, CLI, .NET SDK SSMS(SQL Server Management Studio), PowerShell Bash 셸, Oozie REST API, Oozie UI(웹 사용자 인터페이스) 복사 작업, 미러링, 파이프라인 작업, Dataflow Gen2
가격 사용량당 지불 라이선스, 추가 기능으로 비용 추가 HDInsight 클러스터에 포함 패브릭 용량에 포함됨

파이프라인 기능

능력 Data Factory SSIS(SQL Server 통합 서비스) HDInsight의 Oozie 패브릭 데이터 팩토리
데이터 복사
사용자 지정 변환 예(MapReduce, Pig 및 Hive 작업)
Azure Machine Learning 점수 매기기 예(스크립팅 포함) 아니요 예(통합을 통해)
주문형 HDInsight 아니요 아니요 아니요
Azure Batch (마이크로소프트의 클라우드 기반 일괄 처리 서비스) 아니요 아니요
Pig, Hive 및 MapReduce 아니요
Apache Spark 아니요 아니요
SSIS 패키지 실행 아니요
제어 흐름
온-프레미스 데이터 액세스 아니요

확장성 기능

능력 Data Factory SSIS(SQL Server 통합 서비스) HDInsight의 Oozie 패브릭 데이터 팩토리
확대하다 아니요 아니요
규모 확장 아니요 예(클러스터에 작업자 노드 추가)
빅 데이터에 최적화 아니요

대체 방법

기존 일괄 처리 기반 오케스트레이션 외에도 플랫폼은 패브릭 Real-Time Intelligence 기능을 통해 실시간 인텔리전스를 사용할 수 있습니다. 이 방법을 사용하면 연속 스트리밍 데이터 수집, 진행 중인 변환 및 이벤트 기반 워크플로가 가능하므로 데이터가 도착할 때 즉시 응답할 수 있습니다. IoT(사물 인터넷) 원격 분석 처리, 사기 감지 및 운영 모니터링과 같은 고부가가치 시나리오를 지원합니다.

참여자

Microsoft는 이 문서를 유지 관리합니다. 다음 기여자는 이 문서를 작성했습니다.

주 작성자:

LinkedIn 비공개 프로필을 보려면, LinkedIn에 로그인하세요.

다음 단계

  • 최신 데이터 웨어하우스를 위한 DataOps