대부분의 빅 데이터 솔루션은 워크플로에 캡슐화된 반복된 데이터 처리 작업으로 구성됩니다. 파이프라인 오케스트레이터는 이러한 워크플로를 자동화하는 데 도움이 됩니다. 작업을 예약하고, 워크플로를 실행하고, 작업 간의 종속성을 조정할 수 있습니다.
데이터 파이프라인 오케스트레이션 옵션
Azure에서 다음 서비스 및 도구는 파이프라인 오케스트레이션, 제어 흐름 및 데이터 이동에 대한 핵심 요구 사항을 충족합니다.
이러한 서비스 및 도구를 독립적으로 사용하거나 결합하여 하이브리드 솔루션을 만들 수 있습니다. 예를 들어 Data Factory V2의 IR(통합 런타임)은 관리되는 Azure 컴퓨팅 환경에서 SSIS 패키지를 기본적으로 실행할 수 있습니다. 이러한 서비스는 몇 가지 기능을 공유하지만 몇 가지 주요 차이점이 있습니다.
주요 선택 조건
옵션 범위를 좁히려면 다음 요소를 고려합니다.
데이터를 이동하고 변환하는 데 빅 데이터 기능이 필요한지 여부를 결정합니다. 이러한 기능은 일반적으로 수 기가바이트(GB)에서 테라바이트(TB)에 이르는 데이터를 사용합니다. 이러한 기능이 필요한 경우 빅 데이터를 위해 설계된 서비스를 선택합니다.
대규모로 작동할 수 있는 관리되는 서비스가 필요한지 여부를 식별합니다. 이 경우 로컬 처리 성능에 의존하지 않는 클라우드 기반 서비스를 선택합니다.
온-프레미스에 데이터 원본이 있는지 확인합니다. 이 경우 클라우드 및 온-프레미스 데이터 원본 또는 대상을 모두 지원하는 서비스를 선택합니다.
HDFS(Hadoop 분산 파일 시스템)의 Blob Storage에 원본 데이터를 저장하는지 확인합니다. 이 경우 Hive 쿼리를 지원하는 서비스를 선택합니다.
여러 데이터 원본에서 복잡한 ETL(추출, 변환 및 로드) 워크플로에 대한 고급 오케스트레이션이 필요한지 여부를 결정합니다. 이 경우 온-프레미스 및 클라우드 환경 모두와 연결선, 파이프라인 오케스트레이션 및 통합 집합을 제공하므로 Fabric Data Factory를 선택합니다. 엔터프라이즈 규모 데이터 이동 및 변환에 이상적입니다.
기능 매트릭스
다음 표에서는 기능의 주요 차이점을 요약합니다.
일반 기능
| 능력 | Data Factory | SSIS(SQL Server 통합 서비스) | HDInsight의 Oozie | 패브릭 데이터 팩토리 |
|---|---|---|---|---|
| 관리됨 | 예 | 아니요 | 예 | 예 |
| 클라우드 기반 | 예 | 아니요(로컬) | 예 | 예 |
| 전제 조건 | Azure 구독 | SQL 서버 | Azure 구독, HDInsight 클러스터 | 패브릭 사용 작업 영역 |
| 관리 도구 | Azure portal, PowerShell, CLI, .NET SDK | SSMS(SQL Server Management Studio), PowerShell | Bash 셸, Oozie REST API, Oozie UI(웹 사용자 인터페이스) | 복사 작업, 미러링, 파이프라인 작업, Dataflow Gen2 |
| 가격 | 사용량당 지불 | 라이선스, 추가 기능으로 비용 추가 | HDInsight 클러스터에 포함 | 패브릭 용량에 포함됨 |
파이프라인 기능
| 능력 | Data Factory | SSIS(SQL Server 통합 서비스) | HDInsight의 Oozie | 패브릭 데이터 팩토리 |
|---|---|---|---|---|
| 데이터 복사 | 예 | 예 | 예 | 예 |
| 사용자 지정 변환 | 예 | 예 | 예(MapReduce, Pig 및 Hive 작업) | 예 |
| Azure Machine Learning 점수 매기기 | 예 | 예(스크립팅 포함) | 아니요 | 예(통합을 통해) |
| 주문형 HDInsight | 예 | 아니요 | 아니요 | 아니요 |
| Azure Batch (마이크로소프트의 클라우드 기반 일괄 처리 서비스) | 예 | 아니요 | 아니요 | 예 |
| Pig, Hive 및 MapReduce | 예 | 아니요 | 예 | 예 |
| Apache Spark | 예 | 아니요 | 아니요 | 예 |
| SSIS 패키지 실행 | 예 | 예 | 아니요 | 예 |
| 제어 흐름 | 예 | 예 | 예 | 예 |
| 온-프레미스 데이터 액세스 | 예 | 예 | 아니요 | 예 |
확장성 기능
| 능력 | Data Factory | SSIS(SQL Server 통합 서비스) | HDInsight의 Oozie | 패브릭 데이터 팩토리 |
|---|---|---|---|---|
| 확대하다 | 예 | 아니요 | 아니요 | 예 |
| 규모 확장 | 예 | 아니요 | 예(클러스터에 작업자 노드 추가) | 예 |
| 빅 데이터에 최적화 | 예 | 아니요 | 예 | 예 |
대체 방법
기존 일괄 처리 기반 오케스트레이션 외에도 플랫폼은 패브릭 Real-Time Intelligence 기능을 통해 실시간 인텔리전스를 사용할 수 있습니다. 이 방법을 사용하면 연속 스트리밍 데이터 수집, 진행 중인 변환 및 이벤트 기반 워크플로가 가능하므로 데이터가 도착할 때 즉시 응답할 수 있습니다. IoT(사물 인터넷) 원격 분석 처리, 사기 감지 및 운영 모니터링과 같은 고부가가치 시나리오를 지원합니다.
참여자
Microsoft는 이 문서를 유지 관리합니다. 다음 기여자는 이 문서를 작성했습니다.
주 작성자:
- 조이너 테자다 | CEO 및 설계자
LinkedIn 비공개 프로필을 보려면, LinkedIn에 로그인하세요.
다음 단계
- Fabric Data Factory의 파이프라인 및 활동
- Data Factory에서 Azure-SSIS 통합 런타임 프로비전
- Oozie를 사용하여 HDInsight에서 워크플로 실행
- Fabric Real-Time Intelligence의 Medallion 아키텍처
관련 리소스
- 최신 데이터 웨어하우스를 위한 DataOps