Compartir a través de


Use Qlik para replicar datos de mainframe y de rango medio en Azure

Azure Event Hubs
Azure Data Lake
Azure Databricks

Esta solución utiliza una instancia local de Qlik para replicar orígenes de datos locales en Azure en tiempo real.

Nota:

Pronuncia "Qlik" como "clic".

Apache® y Apache Kafka® son marcas comerciales registradas o marcas comerciales de Apache Software Foundation en Estados Unidos u otros países. El uso de estas marcas no implica ninguna aprobación de The Apache Software Foundation.

Arquitectura

Diagrama de una arquitectura que usa Qlik para migrar datos a Azure.

Descargue un archivo de Visio de esta arquitectura.

Flujo de trabajo

  1. Agente anfitrión: El agente host del sistema local captura la información del registro de cambios de los almacenes de datos Db2, Information Management System (IMS) y Virtual Storage Access Method (VSAM) y la pasa al servidor de replicación de Qlik.

  2. Servidor de replicación: El software del servidor de replicación de Qlik ingiere la información del registro de cambios en la secuencia de eventos. En este ejemplo, Qlik es local, pero puede implementarlo en una máquina virtual de Azure.

  3. Ingesta de flujos: La secuencia de eventos y el centro de eventos controlan el almacenamiento provisional y la preparación de datos.

    • El flujo de eventos enruta los datos del registro de cambios en tiempo real desde el servidor de replicación de Qlik. Envía los datos a través de la ruta de acceso activa al centro de eventos para habilitar análisis casi en tiempo real.
    • El centro de eventos actúa como almacén analítico en tiempo real y almacena los datos del registro de cambios en Fabric para realizar consultas y análisis.
    • OneLake es el lago de datos unificado para el análisis histórico y la preparación de datos a gran escala para el análisis avanzado a través de la ruta fría. Almacena datos de registro de cambios seleccionados o replicados desde el eventhouse (a través de la disponibilidad de OneLake) o absorbe directamente desde la secuencia de eventos.
  4. Servicios de datos de Azure: Azure proporciona los siguientes servicios eficaces de almacenamiento de datos y servicios de procesamiento de datos.

    • Servicios de bases de datos relacionales:

      • Azure SQL Database
      • Base de Datos de Azure para PostgreSQL
      • Base de Datos Azure para MySQL

      Hay muchos factores a tener en cuenta a la hora de elegir un servicio de almacenamiento de datos. Tenga en cuenta el tipo de carga de trabajo, las consultas entre bases de datos, los requisitos de confirmación en dos fases, la capacidad de acceder al sistema de archivos, la cantidad de datos, el rendimiento requerido y la latencia.

    • Azure Cosmos DB: Azure Cosmos DB es una base de datos NoSQL que proporciona una respuesta rápida, escalabilidad automática y velocidad garantizada a cualquier escala.

    • Azure Databricks: Azure Databricks procesa los datos del registro de cambios y actualiza los archivos correspondientes en Azure.

    • Microsoft Fabric: Fabric es una solución de análisis todo en uno para empresas. Cubre todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real y la inteligencia empresarial. Proporciona un conjunto completo de servicios, que incluyen lago de datos, ingeniería de datos e integración de datos.

Componentes

Esta arquitectura consta de varios servicios en la nube de Azure y se divide en cuatro categorías de recursos: redes e identidad, aplicaciones, almacenamiento y supervisión. En las secciones siguientes se describen los servicios de cada recurso y sus roles.

Networking

Al diseñar la arquitectura de aplicaciones, es crucial priorizar los componentes de red e identidad para ayudar a garantizar la seguridad, el rendimiento y la capacidad de administración durante las interacciones a través de la Internet pública o las conexiones privadas.

  • Azure ExpressRoute es una conexión privada dedicada entre la infraestructura local y los servicios en la nube de Microsoft. En esta arquitectura, garantiza una conectividad segura y de alto rendimiento con Azure y Microsoft 365 y omite la red pública de Internet para mejorar la confiabilidad y el rendimiento.

Almacenamiento y bases de datos

Azure y Fabric proporcionan servicios administrados que permiten el almacenamiento en la nube escalable y las bases de datos administradas para la administración de datos flexible e inteligente.

  • Azure Databricks es una plataforma de análisis e ingeniería de datos basada en la nube basada en Apache Spark. Puede procesar y transformar cantidades masivas de datos. Puede explorar los datos mediante modelos de aprendizaje automático. Los trabajos se pueden escribir en R, Python, Java, Scala y Spark SQL. En esta arquitectura, Azure Databricks transforma y analiza grandes volúmenes de datos ingeridos mediante modelos de aprendizaje automático. También admite el desarrollo en R, Python, Java, Scala y Spark SQL.

  • OneLake es un lago de datos lógico unificado que puede servir a toda una organización. Al igual que OneDrive, OneLake incluye todos los inquilinos de Fabric y proporciona un único lugar para todos los datos de análisis. En esta arquitectura, OneLake actúa como la capa de almacenamiento persistente para procesar los datos de registro de cambios de los sistemas locales.

  • Azure Cosmos DB es un servicio de base de datos NoSQL distribuido globalmente. En esta arquitectura, almacena los datos notabulares migrados desde sistemas centrales y admite el acceso de baja latencia entre regiones.

  • Azure Database for MySQL es un servicio de base de datos MySQL totalmente administrado diseñado para escalabilidad y alta disponibilidad. En esta arquitectura, admite cargas de trabajo relacionales de código abierto.

  • Azure Database for PostgreSQL es un PostgreSQL totalmente administrado, inteligente y escalable que tiene conectividad nativa con los servicios de Azure. En esta arquitectura, hospeda datos relacionales que se benefician de la indexación, el análisis y la compatibilidad avanzados con herramientas de código abierto.

  • Azure SQL es una familia de servicios de base de datos SQL basados en la nube que admiten la migración, modernización y desarrollo. Esta familia incluye las siguientes ofertas:

    • Azure SQL Edge es un motor SQL ligero optimizado para implementaciones de IoT y edge. En esta arquitectura, procesa y almacena datos cerca de los dispositivos en entornos desconectados o sensibles a la latencia.

    • Instancia administrada de Azure SQL es una instancia de SQL Server totalmente administrada con casi 100% compatibilidad con SQL Server local. En esta arquitectura, hospeda bases de datos migradas que se benefician de la administración simplificada y la alta disponibilidad integrada.

    • SQL Database es una base de datos relacional totalmente administrada optimizada para escalabilidad y rendimiento. En esta arquitectura, admite cargas de trabajo modernizadas con proceso elástico e inteligencia integrada.

    • SQL Server en Azure Virtual Machines es una instancia completa de SQL Server que se ejecuta en la infraestructura de Azure. En esta arquitectura, admite cargas de trabajo heredadas que requieren control total sobre el sistema operativo y el motor de base de datos.

Monitorización

Las herramientas de supervisión proporcionan un análisis de datos exhaustivo y información valiosa sobre el rendimiento de las aplicaciones.

  • Application Insights es una característica de Azure Monitor que proporciona telemetría profunda para el rendimiento, la disponibilidad y el uso de las aplicaciones. En esta arquitectura, supervisa el comportamiento de la aplicación, detecta anomalías y admite el seguimiento distribuido para garantizar la confiabilidad en todos los servicios.

  • Azure Monitor es una plataforma completa para recopilar, analizar y actuar sobre telemetría de entornos locales y de Azure. En esta arquitectura, actúa como capa de observabilidad central, lo que permite la supervisión y el diagnóstico proactivos en toda la infraestructura y las aplicaciones.

    • Log Analytics es una herramienta de consulta dentro de Azure Monitor que permite un análisis profundo de los datos de registro mediante un lenguaje de consulta eficaz. En esta arquitectura, admite diagnósticos, paneles personalizados e información operativa mediante la combinación y agregación de datos entre varios orígenes.

Alternativas

  • En el diagrama anterior se muestra Qlik instalado localmente. Este enfoque es una práctica recomendada para mantener Qlik cerca de las fuentes de datos locales. Una alternativa es instalar Qlik en la nube en una máquina virtual de Azure.

  • Qlik Data Integration puede entregar datos directamente a Azure Databricks sin pasar por Kafka o un centro de eventos.

  • Qlik Data Integration no puede replicar datos directamente en Azure Cosmos DB, pero puede integrar Azure Cosmos DB con un centro de eventos mediante la arquitectura de origen de eventos.

Detalles del escenario

Muchas organizaciones utilizan sistemas de mainframe y de rango medio para ejecutar cargas de trabajo exigentes y críticas. La mayoría de las aplicaciones utilizan bases de datos compartidas, a menudo en varios sistemas. En este entorno, la modernización a la nube significa que los datos locales deben proporcionarse a las aplicaciones basadas en la nube. Por lo tanto, la replicación de datos se convierte en una importante táctica de modernización.

La plataforma Qlik Data Integration incluye Qlik Replicate, que realiza la replicación de datos. Usa la captura de datos modificados para replicar almacenes de datos locales en tiempo real en Azure. Los datos modificados pueden proceder de los registros de cambios de Db2, IMS y VSAM. Esta técnica de replicación elimina las incómodas cargas masivas por lotes. Esta solución utiliza una instancia local de Qlik para replicar orígenes de datos locales en Azure en tiempo real.

Casos de uso potenciales

Esta solución podría ser adecuada para:

  • Entornos híbridos que requieren la replicación de cambios de datos desde un sistema central o de rango medio a bases de datos de Azure.

  • Migración de bases de datos en línea de Db2 a una base de datos SQL de Azure con poco tiempo de inactividad.

  • Replicación de datos de varios almacenes de datos locales a Azure para su consolidación y análisis.

Consideraciones

Estas consideraciones implementan los pilares del Azure Well-Architected Framework, que es un conjunto de principios rectores que puede utilizar para mejorar la calidad de una carga de trabajo. Para obtener más información, consulte Well-Architected Framework.

Fiabilidad

La confiabilidad ayuda a garantizar que la aplicación pueda cumplir los compromisos que realice para sus clientes. Para obtener más información, consulte Lista de comprobación de revisión de diseño para confiabilidad.

  • Qlik Data Integration se puede configurar en un clúster de alta disponibilidad.

  • Los servicios de base de datos de Azure admiten redundancia de zona. Puede diseñarlos para conmutar por error a un nodo secundario durante una ventana de mantenimiento o una interrupción.

  • Fabric proporciona resistencia regional a través de zonas de disponibilidad y admite la recuperación entre regiones.

Seguridad

La seguridad proporciona garantías contra ataques deliberados y el uso indebido de sus valiosos datos y sistemas. Para obtener más información, consulte Lista de comprobación de revisión de diseño para seguridad.

  • ExpressRoute proporciona una conexión privada y eficaz a Azure desde el entorno local, pero puede usar una VPN de sitio a sitio en su lugar.

  • Los recursos de Azure se pueden autenticar mediante el identificador de Microsoft Entra y los permisos se administran a través del control de acceso basado en roles.

  • Los servicios de base de datos de Azure y Fabric admiten varias opciones de seguridad, incluidas las siguientes funcionalidades:

    • Cifrado de datos en reposo

    • Enmascaramiento dinámico de datos

    • Bases de datos siempre cifradas

  • Para más información, consulte la documentación de seguridad de Azure y la documentación de seguridad de Fabric.

Optimización de costos

La optimización de costos se centra en formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para obtener más información, consulte Lista de comprobación de revisión de diseño para la optimización de costes.

Para calcular los costos de la implementación, use la calculadora de precios de Azure y el estimador de precios de Fabric.

Excelencia operativa

La excelencia operativa abarca los procesos de las operaciones que implementan una aplicación y la mantienen en ejecución en producción. Para obtener más información, consulte la Lista de comprobación de revisión de diseño para la excelencia operativa.

Puede combinar las características de Application Insights y Log Analytics para supervisar el estado de los recursos de Azure. Puede establecer alertas para que pueda gestionar los problemas de forma proactiva.

Fabric permite la excelencia operativa mediante la unificación de los patrones de gobernanza, observabilidad y ingeniería resistente. Esta unificación se produce en OneLake, Fabric Data Warehouse, Fabric Data Engineer, Fabric Real-Time Intelligence y otras cargas de trabajo.

Eficiencia del rendimiento

La eficiencia del rendimiento hace referencia a la capacidad de escalado de la carga de trabajo para satisfacer las demandas de los usuarios de forma eficaz. Para obtener más información, consulte Lista de comprobación de revisión de diseño para la eficiencia del rendimiento.

Fabric, Azure Databricks, Data Lake Storage y otros servicios de base de datos de Azure tienen funcionalidades de escalado automático. Para más información, consulte Escalado automático.

Colaboradores

Microsoft mantiene este artículo. Los colaboradores siguientes escribieron este artículo.

Autores principales:

  • Nithish Aruldoss | Arquitecto de ingeniería
  • Ashish Khandelwal | Director de arquitectura de ingeniería principal

Otros colaboradores:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes