Replicar dados do mainframe usando o Precisely Connect

Banco de Dados SQL do Azure

Instância Gerenciada do Azure SQL

Azure Synapse Analytics

Azure Databricks

Hubs de eventos do Azure

Este artigo descreve como usar o Precisely Connect para migrar sistemas do mainframe e midrange para o Azure. Precisely Connect fornece replicação de dados em tempo real de sistemas legados para o Azure usando a tecnologia de captura de dados de alteração (CDC).

Essa solução fornece consistência de dados entre ambientes de mainframe locais e serviços de nuvem do Azure, minimizando o efeito no desempenho do sistema de origem. A arquitetura dá suporte a várias fontes de dados de mainframe e midrange e replica dados para destinos do Azure, como Banco de Dados SQL do Azure, Hubs de Eventos do Azure e Microsoft Fabric.

Apache®, Apache Spark e o logotipo da chama são marcas registradas ou marcas comerciais da Apache Software Foundation nos Estados Unidos e/ou em outros países. O uso desta marca não implica aprovação por parte da Apache Software Foundation.

Arquitetura

Baixe um Arquivo Visio dessa arquitetura.

Workflow

O fluxo de dados a seguir corresponde ao diagrama anterior:

Um componente do agente Connect captura logs de alteração usando utilitários nativos do mainframe ou midrange e armazena os logs em cache no armazenamento temporário.
Para sistemas do mainframe, um componente publicador no mainframe gerencia a migração de dados.
Para sistemas de médio alcance, um componente ouvinte gerencia a migração de dados em vez de um publicador. O ouvinte reside em um computador Windows ou Linux.
O publicador ou ouvinte move os dados do local para o Azure por meio de uma conexão de segurança aprimorada. O publicador ou ouvinte manipula a confirmação e a reversão de transações para cada unidade de trabalho, que mantém a integridade dos dados.
O Mecanismo Replicador do Connect captura os dados do publicador ou ouvinte e os aplica ao destino. Ele distribui dados para processamento paralelo.
Os Hubs de Eventos ingerem alterações de dados em tempo real do Precisely Connect para processamento imediato.
O Azure Databricks ou o Fabric (Apache Spark) processa os dados ingeridos, que são então armazenados em alvos do Azure ou em lakehouses ou warehouses do Fabric para análises downstream e business intelligence (BI).
O Daemon do Controlador do Connect autentica a solicitação e estabelece a conexão de soquete entre o publicador ou o ouvinte e o Mecanismo do Replicador.

Componentes

Essa arquitetura usa os seguintes componentes.

Rede e identidade

O Azure ExpressRoute é um serviço de conectividade que estende suas redes locais para a plataforma de nuvem do Azure por meio de uma conexão privada de um provedor de conectividade. Nessa arquitetura, o ExpressRoute fornece uma conexão segura e de alta largura de banda para replicar dados de mainframe para o Azure.
O Gateway de VPN do Azure é um serviço de gateway de rede virtual que permite criar gateways de rede virtual que enviam tráfego criptografado entre uma rede virtual do Azure e um local pela Internet pública. Nessa arquitetura, você pode usar o Gateway de VPN como uma alternativa ao ExpressRoute para conectar sistemas de mainframe ao Azure quando uma conexão privada não estiver disponível.
O Microsoft Entra ID é um serviço de gerenciamento de identidade e acesso que pode ser sincronizado com o Active Directory local. Nessa arquitetura, a ID do Microsoft Entra gerencia a autenticação e o controle de acesso para componentes do Precisely Connect que acessam recursos do Azure.

Armazenamento

O Banco de Dados do Azure para MySQL é um serviço de banco de dados relacional gerenciado baseado na edição da comunidade do mecanismo de banco de dados MySQL de software livre. Nessa arquitetura, o Banco de Dados do Azure para MySQL fornece uma opção de destino para dados de mainframe replicados.
O Banco de Dados do Azure para PostgreSQL é um serviço de banco de dados relacional gerenciado baseado na edição da comunidade do mecanismo de banco de dados PostgreSQL de software livre. Nessa arquitetura, o Banco de Dados do Azure para PostgreSQL pode servir como um banco de dados de destino alternativo para replicação de dados de mainframe.
O Banco de Dados SQL do Azure é um mecanismo de banco de dados paaS (plataforma como serviço) que faz parte da família SQL do Azure. Ele foi projetado para a nuvem e fornece todos os benefícios de uma PaaS gerenciada e sempre atualizada. O Banco de Dados SQL também fornece recursos automatizados da plataforma AI que otimizam o desempenho e a durabilidade. As opções de armazenamento de Hiperescala e de computação sem servidor dimensionam automaticamente os recursos sob demanda. Nessa arquitetura, o Banco de Dados SQL serve como um banco de dados de destino para receber dados de mainframe replicados por meio de conexões ODBC (Open Database Connectivity) ou de banco de dados nativo.
A Instância Gerenciada de SQL do Azure é um serviço de banco de dados de nuvem que fornece todos os benefícios de um PaaS gerenciado e sempre verde. A Instância Gerenciada de SQL tem compatibilidade quase completa com o mecanismo de banco de dados mais recente do SQL Server Enterprise Edition. Esse serviço também fornece uma implementação de rede virtual nativa que aborda preocupações comuns de segurança. Nessa arquitetura, a Instância Gerenciada de SQL pode servir como um destino para dados de mainframe que exigem compatibilidade com o SQL Server.
O Armazenamento do Microsoft Azure é uma solução de armazenamento em nuvem que inclui armazenamento de tabela, arquivo, disco, fila e objeto. Os serviços incluem soluções de armazenamento híbrido e ferramentas para transferir, compartilhar e fazer backup de dados. Nessa arquitetura, o Armazenamento fornece armazenamento escalonável para dados de mainframe replicados e cache temporário.
OneLake é o data lake unificado e único para Fabric. Nessa arquitetura, o OneLake serve como armazenamento para ingerir dados de Hubs de Eventos.
O Fabric é uma plataforma de análise que unifica a movimentação de dados, o processamento de dados, a ingestão, a transformação, o roteamento de eventos em tempo real e a criação de relatórios. Nessa arquitetura, o Fabric (lakehouses, warehouses ou Banco de Dados SQL no Fabric) serve como destino de armazenamento relacional para análise de dados e a camada de Business Intelligence.

Análise e relatórios

O Power BI é um grupo de ferramentas de análise de negócios que podem fornecer insights em toda a sua organização. O Power BI pode se conectar a centenas de fontes de dados, simplificar a preparação de dados e impulsionar a análise não planejada. Nessa arquitetura, o Power BI fornece recursos de BI para analisar dados de mainframe replicados. O Power BI é integrado nativamente ao Fabric para análise unificada.

Monitoramento

O Azure Monitor é um serviço de monitoramento que fornece uma solução para coletar, analisar e agir sobre telemetria de ambientes locais e de nuvem. Os recursos incluem Application Insights, Logs do Azure Monitor e Log Analytics. Nessa arquitetura, o Azure Monitor fornece monitoramento e observabilidade para o processo de replicação de dados e recursos do Azure.

Integradores de dados

O Azure Databricks é uma plataforma de análise unificada baseada no Spark que se integra a bibliotecas de software livre. Ele fornece um workspace colaborativo para executar cargas de trabalho de análise. Você pode usar as linguagens Python, Scala, R e SQL para criar pipelines etl (extrair, transformar, carregar) e orquestrar trabalhos. Nessa arquitetura, o Azure Databricks processa e transforma os dados de mainframe replicados para consumo pelos serviços da plataforma de dados do Azure.
O Fabric é uma plataforma de análise de IA de ponta a ponta que opera em uma plataforma de computação do Spark gerenciada. Nessa arquitetura, o Fabric Spark ingere e transforma dados de mainframe replicados para torná-los prontos para análise para consumo pela plataforma de dados downstream do Azure e pelos serviços do Fabric.
Os Hubs de Eventos são um serviço de ingestão de dados em tempo real que pode processar milhões de eventos por segundo. Você pode ingerir dados de várias fontes e usá-los para análise em tempo real. Você pode dimensionar os Hubs de Eventos com base no volume de dados. Nessa arquitetura, os Hubs de Eventos ingerem alterações de dados em tempo real do Precisely Connect para processamento e análise imediatos.
O Precisely Connect é uma plataforma de integração de dados que pode integrar dados de várias fontes e fornecer replicação em tempo real ao Azure. Você pode usá-los para replicar dados sem fazer alterações em seu aplicativo. Precisely Connect também pode melhorar o desempenho de trabalhos ETL. Nessa arquitetura, o Precisely Connect serve como o mecanismo de replicação de dados primário que captura e migra dados de mainframe para o Azure em tempo real.

Detalhes do cenário

Você pode usar várias estratégias para migrar sistemas do mainframe e midrange para o Azure. A migração de dados desempenha um papel fundamental nesse processo. Em uma arquitetura de nuvem híbrida, você deve replicar dados entre sistemas de mainframe ou de médio alcance e a plataforma de dados do Azure. Para manter a integridade dos dados, você precisa de replicação em tempo real para aplicativos comercialmente críticos. O PreciseLy Connect pode ajudá-lo a replicar dados de fontes de dados de mainframe e midrange para a plataforma de dados do Azure em tempo real usando CDC ou usando a ingestão em lote.

O Precisely Connect dá suporte a várias fontes de dados de mainframe e midrange, incluindo:

Db2 z/OS
Db2 para Linux, UNIX e Windows (LUW)
Db2 para i
Sistema de Gerenciamento de Informações da IBM (IMS)
Método de acesso ao armazenamento virtual da IBM (VSAM)
Arquivos e copybooks

O Precise Connect converte os dados em formato consumível que os Hubs de Eventos ingerem para processamento imediato. O Azure Databricks ou o Fabric processa os dados ingeridos para consumo posterior e armazenamento em alvos do Azure. Esses destinos incluem Banco de Dados SQL, Banco de Dados do Azure para PostgreSQL, Banco de Dados do Azure para MySQL, Azure Data Lake Storage e lakehouses ou armazéns do Fabric. O Precisely Connect também dá suporte à escalabilidade com base no volume de dados e nos requisitos do cliente. Ele replica dados sem afetar o desempenho ou forçar a rede.

Possíveis casos de uso

Replicação de dados de fontes de dados de mainframe e de médio porte para a plataforma de dados do Azure
Em uma arquitetura de nuvem híbrida, a sincronização de dados entre os sistemas de mainframe ou de médio porte e a plataforma de dados do Azure
Análise quase em tempo real no Azure, com base em dados operacionais de sistemas de mainframe ou midrange
Migração de dados de sistemas de mainframe ou de médio alcance para o Azure sem afetar aplicativos

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework, um conjunto de princípios orientadores que você pode usar para aprimorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Well-Architected Framework.

Confiabilidade

A confiabilidade ajuda a garantir que seu aplicativo possa cumprir os compromissos que você faz aos seus clientes. Para obter mais informações, consulte Lista de verificação de revisão de design parade confiabilidade.

Use o Azure Monitor e o Application Insights para monitorar a migração de dados. Configurar alertas para gerenciamento proativo.

Otimização de custos

A Otimização de Custos concentra-se em maneiras de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Lista de verificação de revisão de design parade Otimização de Custos.

A replicação de dados para o Azure e o processamento nos serviços do Azure podem economizar dinheiro em comparação com a manutenção de dados em um sistema de mainframe.
A ferramenta de gerenciamento de custos no portal do Azure fornece uma exibição de análise de custos que pode ajudá-lo a analisar os gastos.
Você pode usar o Azure Databricks para redimensionar seu cluster por meio do dimensionamento automático para otimizar os custos. Essa abordagem pode economizar dinheiro em comparação com uma configuração fixa.
O Assistente do Azure fornece recomendações para otimizar o desempenho e o gerenciamento de custos.

Use a Calculadora de preços do Azure para estimar o custo da implantação dessa solução.

Eficiência de desempenho

A Eficiência de Desempenho refere-se à capacidade da carga de trabalho de dimensionar para atender às demandas do usuário com eficiência. Para obter mais informações, consulte Lista de verificação de design parade Eficiência de Desempenho.

Precisely Connect pode ser dimensionado com base no volume dos dados e também otimizar sua replicação.
O Mecanismo Replicador do Connect pode distribuir dados para processamento paralelo. Você pode balancear a distribuição com base na ingestão de cargas de trabalho.
O Banco de Dados SQL sem servidor pode ser dimensionado automaticamente com base no volume de cargas de trabalho.
Os Hubs de Eventos podem ser dimensionados com base nas unidades de produtividade e no número de partições.

Para obter mais informações, consulte Práticas recomendadas do dimensionamento automático.

Colaboradores

A Microsoft mantém este artigo. Os colaboradores a seguir escreveram este artigo.

Autor principal:

Seetharaman Sankaran | Arquiteto sênior de engenharia

Outro colaborador:

Gyani Sinha | Engenheiro sênior de soluções

Para ver perfis não públicos no LinkedIn, entre no LinkedIn.

Próximas etapas

Comentários

Esta página foi útil?