다음을 통해 공유


메인프레임 데이터를 Azure에 복제 및 동기화

Azure Data Factory
Azure Databricks

이 예제 아키텍처는 Azure로 현대화하는 동안 데이터를 복제하고 동기화하기 위한 구현 계획을 간략하게 설명합니다. 데이터 저장소, 도구 및 서비스와 같은 기술적 측면을 설명합니다.

건축학

메인프레임 현대화 중에 온-프레미스 데이터와 Azure 데이터베이스 데이터를 동기화하는 방법을 보여 주는 아키텍처 다이어그램입니다.

다이어그램은 Azure Data Factory 파이프라인을 통해 Db2 원본에서 Azure의 데이터 스토리지, 분석 및 BI 서비스로의 데이터 흐름을 보여 줍니다. 다이어그램에는 온-프레미스 구성 요소와 Azure 구성 요소에 대한 두 개의 영역이 있습니다. 온-프레미스 영역에는 두 개의 사각형이 있습니다. 하나의 사각형은 Db2 zOS 및 Db2 LUW와 같은 데이터베이스를 나타냅니다. 화살표는 이러한 데이터베이스에서 통합 도구를 나열하는 두 번째 사각형을 가리킵니다. 화살표는 각 통합 도구에서 Azure 섹션의 구성 요소를 가리킵니다. 자체 호스팅 통합 런타임은 "동적 파이프라인"이라는 레이블이 지정된 상자를 가리킵니다. 이 상자에는 하나의 상위 파이프라인과 세 개의 하위 파이프라인이 포함되어 있습니다. 화살표는 이러한 파이프라인에서 "데이터 스토리지, 분석 및 BI"라는 레이블이 지정된 상자를 가리킵니다. 이 상자에는 Azure SQL Database, Azure Cosmos DB 및 Azure Blob Storage와 같은 Azure 서비스가 포함되어 있습니다. 점선 양면 화살표는 동적 파이프라인 경로를 Azure Data Lake Storage Gen2 및 Azure Databricks와 연결합니다. 화살표는 온-프레미스 SQL Server 통합 서비스 및 타사 도구에서 Azure 섹션의 "데이터 스토리지, 분석 및 BI" 상자를 가리킵니다. 온-프레미스 데이터 게이트웨이 통합 도구는 Fabric Data Factory의 데이터 파이프라인을 가리킵니다. 화살표는 이 파이프라인에서 "데이터 스토리지, 분석 및 BI" 상자를 가리킵니다.

이 아키텍처의 Visio 파일을 다운로드합니다.

워크플로

다음 워크플로는 이전 다이어그램에 해당합니다.

메인프레임 및 미드레인지 시스템은 정기적으로 온-프레미스 애플리케이션 데이터베이스를 업데이트합니다. 일관성을 유지하기 위해 이 솔루션은 최신 데이터를 Azure 데이터베이스와 동기화합니다. 동기화 프로세스에는 다음 단계가 포함됩니다.

  1. Azure Data Factory 동적 파이프라인은 데이터 추출에서 데이터 로드에 이르는 작업을 오케스트레이션합니다. 파이프라인 작업을 예약하거나, 수동으로 시작하거나, 자동으로 트리거할 수 있습니다.

    파이프라인은 작업을 수행하는 작업을 그룹화합니다. 데이터를 추출하기 위해 Azure Data Factory는 각 온-프레미스 테이블에 대해 하나의 파이프라인을 동적으로 만듭니다. 그런 다음 Azure에서 데이터를 복제할 때 대규모 병렬 구현을 사용할 수 있습니다. 요구 사항에 맞게 솔루션을 구성할 수도 있습니다.

    • 전체 복제: 전체 데이터베이스를 복제하고 대상 Azure 데이터베이스의 데이터 형식 및 필드에 필요한 수정을 수행합니다.

    • 부분 복제, 델타 복제 또는 증분 복제: 원본 테이블에서 워터마크 열을 사용하여 업데이트된 행을 Azure 데이터베이스와 동기화합니다. 이러한 열에는 지속적으로 증가하는 키 또는 테이블의 마지막 업데이트를 나타내는 타임스탬프가 포함됩니다.

    Azure Data Factory는 다음과 같은 변환 작업에도 파이프라인을 사용합니다.

    • 데이터 유형 변환
    • 데이터 조작
    • 데이터 형식 지정
    • 열 파생
    • 데이터 평면화
    • 데이터 정렬
    • 데이터 필터링
  2. Db2 zOS, Db2 for i 및 Db2 LUW와 같은 온프레미스 데이터베이스는 애플리케이션 데이터를 저장합니다.

  3. 자체 호스팅 IR(통합 런타임)은 Azure Data Factory가 작업을 실행하고 디스패치하는 데 사용하는 환경을 제공합니다.

  4. Azure Data Lake Storage Gen2 및 Azure Blob Storage는 데이터를 스테이징합니다. 이 단계는 여러 소스의 데이터를 변환하고 병합하는 데 필요한 경우가 있습니다.

  5. 데이터 준비를 위해 Azure Data Factory는 Azure Databricks, 사용자 지정 작업 및 파이프라인 데이터 흐름을 사용하여 데이터를 빠르고 효과적으로 변환합니다.

  6. Azure Data Factory는 다음과 같은 관계형 및 비관계형 Azure 데이터베이스에 데이터를 로드합니다.

    • Azure SQL
    • PostgreSQL용 Azure 데이터베이스
    • Azure Cosmos DB (애저 코스모스 DB)
    • Azure Data Lake Storage
    • Azure Database for MySQL (MySQL을 위한 Azure 데이터베이스)
  7. SSIS(SQL Server Integration Services)는 데이터를 추출, 변환 및 로드합니다.

  8. 온-프레미스 데이터 게이트웨이는 로컬에 설치된 Windows 클라이언트 응용 프로그램으로, 로컬 온-프레미스 데이터 원본과 Azure 서비스 간의 다리 역할을 합니다.

  9. Microsoft Fabric의 데이터 파이프라인은 Db2에서 Azure 스토리지 및 데이터베이스로 데이터 수집을 수행하는 작업의 논리적 그룹입니다.

  10. 솔루션에 거의 실시간 복제가 필요한 경우 타사 도구를 사용할 수 있습니다.

구성 요소

이 섹션에서는 데이터 현대화, 동기화 및 통합 중에 사용할 수 있는 다른 도구에 대해 설명합니다.

데이터 통합자

  • Azure Data Factory 하이브리드 데이터 통합 서비스입니다. 이 완전 관리형 서버리스 솔루션을 사용하여 ETL(추출, 변환 및 로드) 워크플로와 ELT(추출, 로드 및 변환) 워크플로를 생성, 예약 및 오케스트레이션할 수 있습니다.

  • Azure Synapse Analytics는 데이터 웨어하우스와 빅 데이터 시스템 전반에 걸쳐 인사이트 확보 시간을 단축하는 엔터프라이즈 분석 서비스입니다. Azure Synapse Analytics는 다음과 같은 기술과 서비스의 장점을 결합합니다.

    • 엔터프라이즈 데이터 웨어하우징을 위한 SQL 기술

    • 빅 데이터를 위한 Spark 기술

    • 로그 및 시계열 분석을 위한 Azure Data Explorer

    • 데이터 통합과 ETL 및 ELT 워크플로를 위한 Azure Pipelines

    • Power BI, Azure Cosmos DB 및 Azure Machine Learning과 같은 다른 Azure 서비스와의 긴밀한 통합

  • SSIS 는 엔터프라이즈 수준의 데이터 통합 및 변환 솔루션을 구축하기 위한 플랫폼입니다. SSIS를 사용하여 데이터를 관리, 복제, 정리 및 마이닝할 수 있습니다.

  • Azure Databricks 는 데이터 분석 플랫폼입니다. Apache Spark 오픈 소스 분산 처리 시스템을 기반으로 하며 Azure 클라우드 플랫폼에 최적화되어 있습니다. 분석 워크플로에서 Azure Databricks는 여러 원본에서 데이터를 읽고 Spark를 사용하여 인사이트를 제공합니다.

데이터 스토리지

  • Azure SQL DatabaseAzure SQL 제품군의 일부이며 클라우드용으로 빌드되었습니다. 이 서비스는 완전 관리형 에버그린 PaaS(Platform as a Service)의 이점을 제공합니다. 또한 SQL Database는 성능과 내구성을 최적화하는 AI 기반의 자동화된 기능을 제공합니다. 서버리스 컴퓨팅 및 하이퍼스케일 스토리지 옵션은 필요에 따라 리소스를 자동으로 확장합니다.

  • Azure SQL Managed Instance 는 Azure SQL 서비스 포트폴리오의 일부입니다. 이 지능적이고 확장 가능한 클라우드 데이터베이스 서비스는 가장 광범위한 SQL Server 엔진 호환성과 완전 관리형 및 에버그린 PaaS의 모든 이점을 결합합니다. SQL Managed Instance를 사용하여 기존 앱을 대규모로 현대화합니다.

  • Azure Virtual Machines의 SQL Server 는 완전한 코드 호환성을 통해 SQL Server 워크로드를 클라우드로 리프트 앤 시프트하는 방법을 제공합니다. Azure SQL 제품군의 일부인 Azure Virtual Machines의 SQL Server는 SQL Server의 성능, 보안 및 분석과 Azure의 유연성 및 하이브리드 연결을 결합합니다. Azure Virtual Machines에서 SQL Server를 사용하여 기존 앱을 마이그레이션하거나 새 앱을 빌드합니다. SQL Server 2019를 포함한 최신 SQL Server 업데이트 및 릴리스에 액세스할 수도 있습니다.

  • Azure Database for PostgreSQL 은 오픈 소스 PostgreSQL 데이터베이스 엔진의 커뮤니티 버전을 기반으로 하는 완전 관리형 관계형 데이터베이스 서비스입니다. 이 서비스를 사용하여 데이터베이스 관리 대신 애플리케이션 혁신에 집중할 수 있습니다. 필요에 따라 워크로드를 확장할 수도 있습니다.

  • Azure Cosmos DB 는 전역적으로 분산된 다중 모델 데이터베이스입니다. Azure Cosmos DB를 사용하여 솔루션이 여러 지리적 지역에 걸쳐 처리량 및 스토리지를 탄력적이고 독립적으로 확장할 수 있도록 합니다. 이 완전 관리형 NoSQL 데이터베이스 서비스는 전 세계 어디에서나 99번째 백분위수에서 한 자릿수 밀리초 대기 시간을 보장합니다.

  • Data Lake Storage 는 많은 양의 데이터를 네이티브 원시 형식으로 보유하는 스토리지 리포지토리입니다. 데이터 레이크 저장소는 테라바이트 및 페타바이트 데이터 크기 조정에 최적화되어 있습니다. 데이터는 일반적으로 여러 이기종 소스에서 제공되며 정형, 반정형 또는 비정형일 수 있습니다. Data Lake Storage Gen2 는 Data Lake Storage Gen1 기능을 Blob Storage와 결합합니다. 이 차세대 데이터 레이크 솔루션은 파일 시스템 시맨틱스, 파일 수준 보안 및 확장성을 제공합니다. 또한 Blob Storage의 계층화된 스토리지, 고가용성 및 재해 복구 기능을 제공합니다.

  • Microsoft Fabric 은 엔터프라이즈급 엔드 투 엔드 분석 플랫폼입니다. 데이터 이동, 데이터 처리, 수집, 변환, 실시간 이벤트 라우팅 및 보고서 빌드를 통합합니다. Fabric Data Engineer, Fabric Data Factory, Fabric Data Science, Fabric Real-Time Intelligence, Fabric Data Warehouse 및 Fabric Database와 같은 통합 서비스를 사용하여 이러한 기능을 지원합니다.

  • Azure Database for MySQL오픈 소스 MySQL 데이터베이스 엔진의 커뮤니티 버전을 기반으로 하는 완전 관리형 관계형 데이터베이스 서비스입니다.

기타 도구

  • DRDA(분산 관계형 데이터베이스 아키텍처)에 대한 Microsoft 서비스는Host Integration Server의 구성 요소입니다. DRDA용 Microsoft 서비스는 DRDA AR(애플리케이션 요청자) 클라이언트가 사용하는 애플리케이션 서버입니다. DRDA AR 클라이언트의 예로는 IBM Db2 for z/OS 및 Db2 for i5/OS가 있습니다. 이러한 클라이언트는 애플리케이션 서버를 사용하여 Db2 SQL문을 변환하고 SQL Server에서 실행합니다.

  • Db2용 SQL Server Migration Assistant는 Db2 에서 Microsoft 데이터베이스 서비스로의 마이그레이션을 자동화합니다. 이 도구는 가상 머신에서 실행됩니다. Db2 데이터베이스 오브젝트를 SQL Server 데이터베이스 오브젝트로 변환하고 SQL에서 해당 오브젝트를 작성합니다.

시나리오 세부 정보

데이터 가용성과 무결성은 메인프레임 및 미드레인지 현대화에 필수적입니다. 데이터 우선 전략은 Azure로 마이그레이션하는 동안 데이터를 그대로 유지하고 사용할 수 있도록 하는 데 도움이 됩니다. 현대화 중 중단을 방지하기 위해 데이터를 신속하게 복제하거나 온-프레미스 데이터를 Azure 데이터베이스와 동기화된 상태로 유지해야 하는 경우가 있습니다.

특히 이 솔루션은 다음을 다룹니다.

  • 추출: 소스 데이터베이스에 연결하고 소스 데이터베이스에서 데이터를 추출합니다.

  • 변형:

    • 스테이징: 데이터를 원래 형식으로 임시로 저장하고 변환을 준비합니다.

    • 준비: 대상 데이터베이스 요구 사항을 충족하는 매핑 규칙을 사용하여 데이터를 변환하고 조작합니다.

  • 로드 중: 대상 데이터베이스에 데이터를 삽입합니다.

잠재적인 사용 사례

이 솔루션을 활용할 수 있는 데이터 복제 및 동기화 시나리오는 다음과 같습니다.

  • Azure를 사용하여 모든 조회 채널을 서비스하는 명령 쿼리 책임 분리 아키텍처입니다.

  • 온-프레미스 애플리케이션을 테스트하고 애플리케이션을 병렬로 다시 호스팅하거나 재엔지니어링하는 환경입니다.

  • 단계적 수정 또는 현대화가 필요한 긴밀하게 결합된 애플리케이션이 있는 온-프레미스 시스템입니다.

권장 사항

대부분의 시나리오에 다음 권장 사항을 적용할 수 있습니다. 특정 요구 사항이 이를 적용하지 않을 것을 요구하지 않는다면 이러한 권장 사항을 따르십시오.

Azure Data Factory를 사용하여 데이터를 추출하는 경우 복사 작업의 성능을 조정하기 위한 단계를 수행합니다.

고려 사항

이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일련의 기본 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Microsoft Azure Well-Architected Framework를 참조하세요.

신뢰도

안정성은 애플리케이션이 고객에 대한 약정을 충족할 수 있도록 하는 데 도움이 됩니다. 자세한 내용은 안정성에 대한 디자인 검토 검사 목록을 참조하세요.

  • 가용성을 포함한 인프라 관리는 Azure 데이터베이스에서 자동화됩니다.

  • DRDA 장애 조치(failover) 보호를 위한 Microsoft 서비스에 대한 자세한 내용은 풀링 및 장애 조치(failover)를 참조하세요.

  • 온-프레미스 데이터 게이트웨이 및 IR을 클러스터링하여 더 높은 가용성을 보장할 수 있습니다.

안전

보안은 의도적인 공격 및 중요한 데이터 및 시스템의 오용에 대한 보증을 제공합니다. 자세한 내용은 보안성에 대한 디자인 검토 검사 목록을 참조하세요.

  • 네트워크 보안 그룹을 사용하여 각 서비스에 필요한 기능에만 대한 액세스를 제한합니다.

  • PaaS 서비스에 프라이빗 엔드포인트를 사용합니다. 인터넷을 통해 연결할 수 있거나 연결할 수 없는 서비스 방화벽을 사용하여 서비스 보안을 강화합니다.

  • 구성 요소 간 데이터 흐름에 대해 관리 ID를 사용합니다.

  • Microsoft Service for DRDA에서 지원하는 클라이언트 연결 유형에 대한 자세한 내용은 Microsoft Service for DRDA를 사용하여 솔루션 계획 및 설계를 참조하세요. 클라이언트 연결은 네트워크의 트랜잭션, 풀링, 장애 조치(failover), 인증 및 암호화의 특성에 영향을 줍니다.

비용 최적화

비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 개선하는 방법에 중점을 둡니다. 자세한 내용은 비용 최적화를 위한 디자인 검토 검사 목록을 참조하세요.

  • 가격 책정 모델은 구성 요소 서비스마다 다릅니다. 사용 가능한 구성 요소 서비스의 가격 책정 모델을 검토하여 예산에 맞는지 확인합니다.

  • Azure 가격 계산기를 사용하여 이 솔루션 구현 비용을 예상합니다.

운영 효율성

운영 우수성은 애플리케이션을 배포하고 프로덕션에서 계속 실행하는 운영 프로세스를 다룹니다. 자세한 내용은 Operational Excellence에 대한 디자인 검토 검사 목록을 참조하세요.

  • 확장성을 포함한 인프라 관리는 Azure 데이터베이스에서 자동화됩니다.

  • 논리 인스턴스를 활성-활성 모드의 여러 온-프레미스 머신과 연결하여 자체 호스팅 IR을 확장 할 수 있습니다.

성능 효율성

성능 효율성은 사용자 요구를 효율적으로 충족하기 위해 워크로드의 크기를 조정하는 기능을 의미합니다. 자세한 내용은 성능 효율성에 대한 디자인 검토 검사 목록을 참조하세요.

  • 구현에서 초기 복제 또는 지속적인 변경된 데이터 복제에 상당한 대역폭을 사용하는 경우 Azure ExpressRoute 를 대규모 옵션으로 간주합니다.

  • 시나리오에 적합한 IR 구성을 선택합니다.

다음 단계