이 문서에서는 중소기업이 현재 예산 및 기술 집합 내에서 레거시 데이터 저장소를 마이그레이션하고 현대화할 수 있는 방법을 설명합니다. 빅 데이터 도구 및 기능을 점진적으로 탐색하는 방법을 보여줍니다. 이러한 데이터 웨어하우징 솔루션은 Azure Machine Learning, Foundry Tools, Microsoft Power Platform, Dynamics 365 및 기타 Microsoft 기술과 통합됩니다. 이러한 솔루션은 요구 사항이 증가함에 따라 확장할 수 있는 SaaS(관리형 소프트웨어 서비스) 데이터 플랫폼인 Microsoft Fabric에 대한 초기 진입점을 제공합니다.
이 패턴은 다음과 같은 특성을 가진 중소기업을 지원합니다.
1TB(테라바이트) 미만의 데이터 웨어하우징 솔루션에 온-프레미스 SQL Server 사용
SSIS(SQL Server Integration Services), SSAS(SQL Server Analysis Services), SSRS(SQL Server Reporting Services), 일반적인 SQL 저장 프로시저 및 SQL Server 에이전트 작업과 같은 기존 SQL Server 도구 사용
외부 ETL(추출, 변환 및 로드) 및 ELT(추출, 로드 및 변환) 도구 사용
데이터 동기화를 위해 스냅샷 복제 사용
일괄 처리 기반 작업을 실행하고 실시간 보고가 필요하지 않음
단순화된 아키텍처
중소기업 데이터 웨어하우징 현대화를 위한 데이터 흐름을 보여 주는 다이어그램 왼쪽에서 레거시 데이터 웨어하우징 솔루션은 데이터 파이프라인 화살표를 통해 '저장 및 처리'라는 점선 상자와 연결됩니다. 이 상자에는 Azure SQL Database 및 Azure SQL Managed Instance가 포함되어 있으며 Process 및 Present라는 레이블이 지정된 두 번째 점선 상자에 연결됩니다. 이 상자에는 Fabric이 포함되어 있으며 Power BI에 연결됩니다.
이 아키텍처의 Visio 파일을 다운로드합니다 .
개념적 현대화 기회에는 레거시 데이터 웨어하우징 솔루션을 Azure SQL Database, Azure SQL Managed Instance 및 Fabric의 조합으로 전환하는 작업이 포함됩니다. 이 전략은 기존 SQL Server 및 SQL Server Management Studio(SSMS)와 같은 SQL 클라이언트 도구와의 광범위한 호환성을 보장합니다. 또한 기존 프로세스에 대한 재호스팅 옵션을 제공하며 지원 팀에 최소한의 업스킬링이 필요합니다. 이 솔루션은 포괄적인 현대화를 위한 초기 단계를 제공합니다. 데이터 웨어하우스가 성장하고 팀이 전문 지식을 쌓으면 Fabric에서 전체 SaaS 웨어하우징으로 진행하거나 Lakehouse 접근 방식을 채택할 수 있습니다.
중소기업용 레거시 데이터 웨어하우스에는 다음과 같은 여러 유형의 데이터가 포함될 수 있습니다.
문서 및 그래픽과 같은 구조화되지 않은 데이터
로그, CSV(쉼표로 구분된 값), JSON 및 XML 파일과 같은 반구조화된 데이터
ETL 및 ELT 작업에 저장 프로시저를 사용하는 데이터베이스를 포함하여 구조화된 관계형 데이터
아키텍처
이 아키텍처의 Visio 파일을 다운로드합니다 .
데이터 흐름
다음 데이터 흐름은 이전 다이어그램에 해당합니다.
패브릭 데이터 파이프라인 또는 Azure Data Factory 파이프라인은 트랜잭션 데이터를 데이터 웨어하우징 솔루션으로 수집합니다.
파이프라인은 마이그레이션되거나 부분적으로 리팩터링된 레거시 데이터베이스 및 SSIS 패키지의 흐름을 SQL Database 또는 SQL Managed Instance로 오케스트레이션합니다. 이 다시 호스팅 접근 방식은 온-프레미스 SQL 솔루션에서 향후 Fabric SaaS 환경으로의 전환을 제공합니다. 초기 마이그레이션 후에 데이터베이스를 증분 방식으로 현대화할 수 있습니다.
파이프라인은 중앙 집중식 스토리지 및 원본 간 분석을 위해 비정형, 반구조화 및 구조화된 데이터를 Azure Data Lake Storage로 이동할 수 있습니다. 여러 원본의 데이터를 결합하여 데이터를 새 플랫폼으로 마이그레이션하는 것보다 더 많은 비즈니스 가치를 제공하는 경우 이 방법을 사용합니다.
Dynamics 365 데이터를 사용하여 보강된 데이터 세트에 패브릭 서버리스 분석 도구를 사용하여 중앙 집중식 BI(비즈니스 인텔리전스) 대시보드를 빌드합니다. OneLake에서 Dynamics 365 바로 가기를 사용하여 Dynamics 365 데이터를 Data Lake Storage에 수집하거나 Dataverse 환경을 Fabric에 직접 연결할 수 있습니다. 분석 결과를 Dynamics 365에 다시 쓰거나 패브릭 내에서 분석을 계속할 수 있습니다.
Azure Event Hubs 또는 기타 스트리밍 솔루션은 실시간 데이터를 시스템으로 스트리밍합니다. 패브릭 Real-Time 인텔리전스는 실시간 대시보드를 지원하기 위한 즉각적인 분석을 제공합니다.
Data Lake Storage 바로 가기는 분석, 스토리지 및 보고를 위해 데이터를 Fabric OneLake로 가져옵니다. 이 방법은 데이터를 이동하지 않고 데이터를 분석하고 다운스트림 소비자가 사용할 수 있도록 합니다.
Fabric은 프로비전된 리소스 없이 SQL 분석 엔드포인트 및 Apache Spark와 같은 주문형 서버리스 분석 도구를 제공합니다. 이러한 도구는 다음 작업을 지원합니다.
OneLake 데이터의 ETL 및 ELT 활동
DirectLake 기능을 통해 Power BI 보고서에 medallion 아키텍처의 골드 계층 제공
T-SQL 또는 Python의 즉석 데이터 과학 탐색
데이터 웨어하우스 엔터티에 대한 초기 프로토타입 생성
패브릭은 Power BI 프런트 엔드 보고서, Machine Learning, Power Apps, Azure Logic Apps, Azure Functions 및 Azure App Service 웹앱을 비롯한 다중 원본 데이터 세트의 소비자와 통합됩니다.
구성 요소
패브릭 은 데이터 엔지니어링, 데이터 웨어하우징, 데이터 과학, 실시간 데이터 및 BI 기능을 결합한 분석 서비스입니다. 이 아키텍처에서 패브릭 데이터 엔지니어링 기능은 데이터 엔지니어, 데이터 과학자, 데이터 분석가 및 BI 전문가를 위한 공동 작업 플랫폼을 제공합니다. 패브릭은 서버리스 컴퓨팅 엔진을 사용하여 비즈니스 의사 결정을 지원하는 인사이트를 생성합니다.
SQL Database 및 SQL Managed Instance 는 클라우드 기반 관계형 데이터베이스 서비스입니다. 이 아키텍처에서 이러한 서비스는 엔터프라이즈 데이터 웨어하우스를 호스트하고 저장 프로시저 또는 SSIS(외부 패키지)를 사용하여 ETL 및 ELT 작업을 수행합니다. SQL Database 및 SQL Managed Instance는 고가용성 및 재해 복구 요구 사항을 충족하는 데 사용할 수 있는 PaaS(Platform as a Service) 환경입니다. 요구 사항을 충족하는 SKU를 선택합니다. 자세한 내용은 SQL Database의 고가용성 및 SQL Managed Instance의 고가용성을 참조하세요.
Event Hubs 는 실시간 데이터 스트리밍 플랫폼 및 이벤트 수집 서비스입니다. 이 아키텍처에서 Event Hubs는 Azure 데이터 서비스와 통합되어 분석 및 보고를 위해 다양한 원본에서 Data Lake Storage로 스트리밍 데이터를 수집합니다. Event Hubs는 데이터를 Real-Time 인텔리전스로 직접 스트리밍할 수도 있습니다.
Data Lake Storage 는 구조화되고 구조화되지 않은 데이터를 저장하는 중앙 집중식 클라우드 기반 리포지토리입니다. 이 아키텍처에서 Data Lake Storage는 보관된 스트리밍 데이터와 Dynamics 365 데이터의 복사본을 저장할 수 있습니다.
대안
Azure IoT Hub를 사용하여 Event Hubs를 대체하거나 보완할 수 있습니다. 스트리밍 데이터의 원본 및 보고 디바이스와의 복제 및 양방향 통신이 필요한지 여부에 따라 솔루션을 선택합니다.
데이터 통합을 위해 Data Factory 파이프라인 대신 패브릭 데이터 파이프라인을 사용할 수 있습니다. 결정은 여러 가지 요인에 따라 달라집니다. 자세한 내용은 Azure Data Factory와 Fabric Data Factory 간의 차이점을 참조하세요.
SQL Database 또는 SQL Managed Instance 대신 Fabric Data Warehouse 를 사용하여 엔터프라이즈 데이터를 저장할 수 있습니다. 이 문서에서는 데이터 웨어하우스를 현대화하려는 고객을 위해 TTM(Time to Market)을 우선합니다. 자세한 내용은 패브릭 데이터 저장소 옵션을 참조하세요.
시나리오 정보
클라우드용 온-프레미스 데이터 웨어하우스를 현대화하는 중소기업은 두 가지 방법 중에서 선택할 수 있습니다. 향후 확장성을 위해 빅 데이터 도구를 채택하거나 비용 효율성과 예측 가능한 전환을 위해 기존 SQL 기반 솔루션을 사용할 수 있습니다. 하이브리드 접근 방식을 사용하면 최신 도구 및 AI 기능을 사용하는 동안 기존 데이터를 마이그레이션할 수 있습니다. SQL 기반 데이터 원본을 클라우드에서 계속 실행하고 증분 방식으로 현대화할 수 있습니다.
이 문서에서는 중소기업이 기존 예산 및 기술 집합 내에 머물면서 레거시 데이터 저장소를 현대화하고 빅 데이터 도구를 채택하는 방법을 설명합니다. 이러한 Azure 데이터 웨어하우징 솔루션은 Foundry Tools, Dynamics 365 및 Power Platform을 비롯한 Azure 및 Microsoft 서비스와 통합됩니다.
잠재적인 사용 사례
1TB 미만이고 SSIS 패키지를 사용하여 저장 프로시저를 오케스트레이션하는 기존 온-프레미스 관계형 데이터 웨어하우스를 마이그레이션합니다.
Dynamics 365 또는 Dataverse 데이터를 Data Lake Storage의 일괄 처리 및 실시간 데이터와 결합합니다.
혁신적인 기술을 사용하여 중앙 집중식 Data Lake Storage 데이터와 상호 작용합니다. 이러한 기술에는 서버리스 분석, 지식 마이닝, 도메인 간의 데이터 융합 및 Fabric에서 Copilot를 사용한 셀프 서비스 데이터 탐색이 포함됩니다.
전자상거래 기업이 운영 최적화를 위해 클라우드 데이터 웨어하우징을 채택할 수 있도록 합니다.
다음 시나리오에는 이 솔루션을 권장하지 않습니다.
그린필드 데이터 웨어하우스 구축. 이 시나리오는 패브릭의 그린필드 레이크하우스를 참조하세요.
1TB 이상이거나 1년 이내에 해당 크기에 도달하는 온-프레미스 데이터 웨어하우스입니다. 대부분의 조직에서는 이 크기의 데이터 웨어하우스에 대한 특수 데이터 웨어하우징 솔루션을 채택합니다. 이러한 시나리오에 대해서는 리플랫폼 대안을 참조하세요.
고려 사항
이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일련의 기본 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Well-Architected Framework를 참조하세요.
Reliability
신뢰성은 애플리케이션이 고객에게 약속한 수준을 충족할 수 있도록 보장하는 데 도움이 됩니다. 자세한 내용은 안정성에 대한 디자인 검토 검사 목록을 참조하세요.
사용자와 Microsoft는 대부분의 Azure 서비스의 안정성에 대한 책임을 공유합니다. Microsoft는 복원력 및 복구를 지원하는 기능을 제공합니다. 이러한 기능이 사용하는 각 서비스에서 작동하는 방식을 이해하고 비즈니스 목표 및 가동 시간 목표를 충족하는 구성을 선택해야 합니다. 서비스 관련 설명서를 검토하여 비즈니스 연속성 및 재해 복구 목표를 충족하는 구성을 선택합니다.
비용 최적화
비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 개선하는 방법에 중점을 둡니다. 자세한 내용은 비용 최적화에 대한 디자인 검토 검사 목록을 참조하세요.
Azure 가격 계산기를 사용하면 값을 수정하여 특정 요구 사항이 비용에 미치는 영향을 이해할 수 있습니다. 중소기업 데이터 웨어하우징 시나리오에 대한 가격 책정 샘플을 참조하세요.
SQL Database 가격 책정은 컴퓨팅 계층, 서비스 계층, vCore 수 및 데이터베이스 트랜잭션 단위에 따라 달라집니다. 가격 책정 샘플은 프로비전된 컴퓨팅이 있는 단일 데이터베이스와 8개의 vCore를 사용하여 SQL Database에서 저장 프로시저를 실행합니다. 예약된 용량 및 Azure 하이브리드 혜택을 사용하여 비용을 절감할 수 있습니다.
Data Lake Storage 가격 책정은 스토리지 볼륨 및 데이터 액세스 빈도에 따라 달라집니다. 가격 책정 샘플에는 1TB의 데이터 스토리지 및 관련 트랜잭션 비용이 포함됩니다. 1TB는 원래 레거시 데이터베이스 크기가 아닌 데이터 레이크 크기를 나타냅니다. Data Lake Storage는 레거시 데이터베이스를 넘어서는 추가 현대화 비용입니다.
패브릭 가격은 패브릭 F 용량 모델 또는 1인당 프리미엄 모델에 따라 달라집니다. 서버리스 기능은 구매한 전용 용량의 CPU 및 메모리를 사용합니다. 현대화 후에는 기존 라이선싱을 사용하여 새 데이터 웨어하우스(SQL Database 또는 SQL Managed Instance)에 연결하여 기존 보고서가 계속 작동합니다. 가격 책정 샘플에는 셀프 서비스 데이터 준비, 데이터마트, Real-Time 인텔리전스 및 AI 지원 워크플로를 통해 향후 BI 확장을 나타내는 F2 SKU가 포함되어 있습니다. 1년 예약이 있는 F2 SKU는 비용 효율적인 진입점을 제공합니다. 현재 Power BI Premium을 사용하거나 F64로 마이그레이션하는 경우 추가 F 용량이 필요하지 않을 수 있습니다.
Event Hubs 가격은 선택한 계층, 프로비전된 처리량 단위(CPU) 및 수신 트래픽 볼륨에 따라 달라집니다. 가격 책정 샘플에서는 표준 계층의 처리량 단위가 매월 100만 개 이상의 이벤트를 처리한다고 가정합니다. Event Hubs는 솔루션에 실시간 스트리밍 기능을 추가하는 경우 추가 현대화 비용을 나타냅니다.
참가자
Microsoft는 이 문서를 유지 관리합니다. 다음 기여자는 이 문서를 작성했습니다.
보안 주체 작성자:
- Galina Polyakova | 선임 클라우드 솔루션 설계자
기타 기여자:
- 바스카 샤르마 | 선임 프로그램 관리자
LinkedIn 비공개 프로필을 보려면, LinkedIn에 로그인하세요.
다음 단계
- 데이터 엔지니어 학습 경로
- Fabric 시작하기
- Fabric에 대한 모든 과정, 학습 경로 및 모듈 찾아보기
- 단일 데이터베이스 만들기
- SQL Managed Instance 배포 만들기
- Data Lake Storage와 함께 사용할 스토리지 계정 만들기
- Azure Portal을 사용하여 이벤트 허브 만들기