Compartir a través de


Introducción al análisis a escala de la nube

El análisis a escala en la nube se basa en zonas de aterrizaje de Azure para simplificar la implementación y la gobernanza. El propósito principal de una zona de aterrizaje de Azure es asegurarse de que, al implementar una aplicación o carga de trabajo en Azure, la infraestructura necesaria ya está en vigor. Antes de implementar la zona de aterrizaje de análisis a escala en la nube, debe seguir el Cloud Adoption Framework para Azure para desplegar una arquitectura de zona de aterrizaje de Azure que incluya zonas de aterrizaje de plataforma.

En el caso de las cargas de trabajo soberanas, Microsoft proporciona la zona de aterrizaje soberana (SLZ), que es una variante de la zona de aterrizaje de Azure. SlZ está pensado para organizaciones que necesitan controles soberanos avanzados. El análisis a escala en la nube se puede implementar en esta variante de zona de aterrizaje de Azure.

El análisis a escala de la nube implica la implementación en zonas de aterrizaje de aplicaciones. Estas zonas normalmente residen en el grupo de administración de zonas de aterrizaje. Las directivas se trasladan a las plantillas de ejemplo que proporciona Microsoft.

Puede usar estas plantillas de ejemplo para las implementaciones de data lakehouse y data mesh .

Evaluación del análisis a escala de la nube

A menudo, una empresa busca claridad o instrucciones prescriptivas antes de empezar a definir los detalles técnicos de un caso de uso específico o un proyecto, o para el análisis a escala de nube de un extremo a otro. Como una empresa formula su estrategia general de datos, puede ser difícil asegurarse de que se tienen en cuenta todos los principios estratégicos y necesarios en el ámbito del uso actual.

Para acelerar la entrega de esta implementación de información de un extremo a otro, al tiempo que tiene en cuenta estos desafíos, Microsoft ha desarrollado un escenario prescriptivo para el análisis a escala de la nube. Se alinea con los temas clave que se describen en Desarrollo de un plan para el análisis a escala de la nube.

El análisis a escala en la nube se basa en Cloud Adoption Framework y aplica los principios de Azure Well-Architected Framework. Cloud Adoption Framework proporciona instrucciones prescriptivas y procedimientos recomendados para modelos operativos en la nube, arquitecturas de referencia y plantillas de plataforma. Esta guía se basa en experiencias reales de algunos de nuestros entornos más desafiantes, sofisticados y complejos.

El análisis a escala en la nube le ayuda a preparar y poner en marcha zonas de aterrizaje para hospedar y ejecutar cargas de trabajo de análisis. Se construyen las zonas de aterrizaje sobre los fundamentos de una mejorada seguridad, gobernanza y cumplimiento. Las zonas de aterrizaje son escalables y modulares, pero admiten la autonomía y la innovación.

Historia de la arquitectura de datos

A finales de la década de 1980, se introdujo la generación 1 del almacenamiento de datos. Este modelo combina orígenes de datos dispares de toda una empresa. A finales de la década de 2000, surgió la generación 2, con la introducción de ecosistemas de macrodatos como Hadoop y lagos de datos. A mediados de 2010 se introdujo la plataforma de datos en la nube: la ingesta de datos de streaming, como las arquitecturas Kappa o Lambda, se introdujeron. A principios de los años 2020, se introdujeron data lakehouses, mallas de datos, tejidos de datos y patrones operativos centrados en datos.

A pesar de estos avances, muchas organizaciones siguen usando la plataforma monolítica centralizada: generación 1. Este sistema funciona bien, hasta cierto punto. Sin embargo, pueden producirse cuellos de botella debido a procesos interdependientes, componentes estrechamente acoplados y equipos hiperespecializados. Los trabajos de extracción, transformación y carga (ETL) pueden llegar a destacar mucho y ralentizar las escalas de tiempo de entrega.

Los almacenes de datos y los lagos de datos siguen siendo valiosos y desempeñan un papel importante en la arquitectura general. En la siguiente documentación se resaltan algunos de los desafíos que pueden producirse al usar estas prácticas tradicionales para el escalado. Estos desafíos son especialmente relevantes en una organización compleja, donde los orígenes de datos, los requisitos, los equipos y las salidas sufren cambios.

Migración al análisis a escala de la nube

La arquitectura analítica de datos y el modelo operativo actuales pueden incluir estructuras como almacenes de datos, lagos de datos, data lakehouse, tejido de datos o malla de datos.

Cada modelo de datos tiene sus propios méritos y desafíos. El análisis a escala en la nube le ayuda a cambiar el enfoque actual a la administración de datos para que pueda evolucionar con su infraestructura.

Puede admitir cualquier plataforma de datos y cualquier escenario para crear un marco de análisis a escala de la nube de un extremo a otro, que sirva como base y permita el escalado.

Plataforma de datos moderna y resultados deseados

Uno de los primeros pasos es activar la estrategia de datos para satisfacer los desafíos mediante la creación iterativa de una plataforma de datos moderna escalable y ágil.

En lugar de verse abrumado con los tickets de servicio e intentar satisfacer necesidades empresariales contrapuestas, al implementar una plataforma de datos moderna, puede asumir un rol más consultivo porque puede disponer de tiempo para concentrarse en tareas de mayor valor. Proporcione líneas de negocio con la plataforma y los sistemas para satisfacer directamente las necesidades de datos y análisis.

A continuación se recomiendan áreas de enfoque inicial:

  • Mejore la calidad de los datos, facilite la confianza y obtenga información para tomar decisiones empresariales guiadas por los datos.
  • Implemente datos holísticos, administración y análisis a escala en toda la organización.
  • Establezca una gobernanza de datos sólida que permita el autoservicio y la flexibilidad de las líneas de negocio.
  • Mantenga la seguridad y el cumplimiento legal en un entorno totalmente integrado.
  • Cree rápidamente la base para las funcionalidades de análisis avanzados mediante una solución integrada de patrones modulares, repetibles y bien diseñados.

Gobernanza del estado del análisis

Una segunda consideración es determinar cómo implementará la organización la gobernanza de datos.

La gobernanza de datos es el proceso de asegurarse de que los datos que usa en sus operaciones empresariales, informes y análisis son detectables, precisos, de confianza y que se pueden proteger.

Para muchas empresas, la expectativa es que los datos y la IA generen una ventaja competitiva. Como resultado, los ejecutivos están ansiosos por patrocinar iniciativas de inteligencia artificial en su determinación de convertirse en controladas por datos. Sin embargo, para que la inteligencia artificial sea eficaz, debe usar datos de confianza. De lo contrario, se puede poner en peligro la precisión de la decisión, es posible que se retrasen las decisiones o que se pierdan las acciones, lo que puede afectar al resultado. Las empresas no quieren que la calidad de sus datos sea mala. Hasta que revise el efecto que ha tenido la transformación digital en los datos, podría parecer sencillo corregir la calidad de los datos.

Las organizaciones que tienen datos distribuidos en un entorno híbrido multinube y datos distribuidos tienen dificultades para encontrar dónde están sus datos y gobernarlos. Los datos no gubernamentales pueden tener un efecto considerable en la empresa. La mala calidad de los datos afecta a las operaciones empresariales porque los errores de datos provocan errores de proceso y retrasos. La mala calidad de los datos también afecta a la toma de decisiones empresariales y a la capacidad de seguir siendo compatible. A menudo, es preferible garantizar la calidad de los datos en el origen, ya que la corrección de problemas de calidad en el sistema analítico puede ser más compleja y costosa que aplicar reglas de calidad de datos al principio de la fase de ingesta. Para ayudarle a realizar un seguimiento y controlar la actividad de datos, la gobernanza de datos debe incluir:

  • Detección de datos.
  • Calidad de los datos.
  • Creación de directivas.
  • Uso compartido de datos.
  • Metadatos.

Asegurar el estado del análisis

Otro factor importante para la gobernanza de datos es su protección. La protección de datos puede ayudarle a garantizar el cumplimiento de la legislación normativa y puede evitar infracciones de datos. La privacidad de los datos y el creciente número de infracciones de datos han hecho que la protección de datos sea una prioridad más alta. Las infracciones de datos resaltan el riesgo de datos confidenciales, como los datos de los clientes de identificación personal. Las consecuencias de la infracción de privacidad de datos o una vulneración de seguridad de datos pueden incluir:

  • Daños graves en la imagen de marca.
  • Pérdida de confianza del cliente y cuota de mercado.
  • Una reducción del precio de las acciones, que afecta a la rentabilidad de las partes interesadas en la inversión y los salarios ejecutivos.
  • Sanciones financieras significativas debido a errores de auditoría o cumplimiento.
  • Acción judicial.
  • Efectos secundarios de la infracción, por ejemplo, los clientes podrían ser víctimas del robo de identidad.

En la mayoría de los casos, las empresas cotizadas públicamente deben declarar infracciones. Si se producen infracciones, es probable que los clientes culpen a la empresa en lugar del hacker. Es posible que los clientes boicoteen a la empresa durante varios meses o que nunca vuelvan.

El incumplimiento de la legislación regulatoria sobre la privacidad de los datos podría dar lugar a importantes penalizaciones financieras. La gobernanza de los datos le ayuda a evitar estos riesgos.

Modelo operativo y ventajas

La adopción de una plataforma de estrategia de datos moderna no solo cambia la tecnología que usa su organización. También cambia el funcionamiento de la organización.

El análisis a escala en la nube proporciona instrucciones para ayudarle a organizar y entrenar a sus empleados, entre los que se incluyen:

  • Definiciones de personas, roles y responsabilidades.
  • Estructuras sugeridas para equipos ágiles, verticales y entre dominios.
  • Recursos de aprendizaje, incluidas las certificaciones de inteligencia artificial y datos de Azure a través de Microsoft Learn.

También es importante involucrar a los usuarios finales en todo el proceso de modernización y a medida que continúa evolucionando la plataforma e incorporando nuevos casos de uso.

Arquitecturas

Las zonas de aterrizaje de Azure representan la ruta de diseño estratégica y el estado técnico de destino para su entorno. Facilitan la implementación y la gobernanza para que pueda mejorar la agilidad y el cumplimiento. También garantizan que, cuando se agrega una nueva aplicación o carga de trabajo al entorno, la infraestructura adecuada ya está en vigor. Las zonas de aterrizaje de datos y administración de datos de Azure, integradas con soluciones de gobernanza y análisis de software como servicio (SaaS) de Microsoft, están diseñadas teniendo en cuenta estos principios fundamentales y, cuando se combinan con los otros elementos del análisis a escala de la nube, pueden ayudar a habilitar:

  • Autoservicio.
  • Escalabilidad.
  • Un inicio rápido.
  • Seguridad.
  • Privacy.
  • Operaciones optimizadas.

Zona de aterrizaje de la administración de datos

La zona de aterrizaje de administración de datos proporciona la base para la administración y gobernanza centralizadas de los datos de la plataforma en toda la organización. También facilita la comunicación para la recopilación de datos de todo el entorno digital, incluyendo infraestructuras híbridas y multinube.

La zona de aterrizaje de administración de datos admite muchas otras capacidades de administración y gobernanza de datos, como:

  • Catálogos de datos.
  • Administración de la calidad de los datos.
  • Clasificación de datos.
  • Linaje de datos.
  • Repositorios de modelado de datos.
  • Catálogos de API.
  • Uso compartido de datos y contratos.

Sugerencia

Si utiliza soluciones de socios para el catálogo de datos, la gestión de la calidad de los datos o el linaje de datos, deben residir en la zona de aterrizaje de gestión de datos. Como alternativa, puede implementar Microsoft Purview como una solución SaaS, conectándose tanto a la zona de aterrizaje de administración de datos como a las zonas de aterrizaje de datos.

Zonas de aterrizaje de datos

Las zonas de aterrizaje de datos acercan los datos a los usuarios y permiten el autoservicio al tiempo que mantienen la administración y la gobernanza comunes a través de la conexión a la zona de aterrizaje de administración de datos.

Hospedan servicios estándar como redes, supervisión y ingesta y procesamiento de datos, además de personalizaciones como productos de datos y visualizaciones.

Las zonas de aterrizaje de datos son vitales para habilitar la escalabilidad de la plataforma. En función del tamaño y las necesidades de su organización, puede empezar con una o varias zonas de aterrizaje.

Cuando decida entre una y varias zonas de aterrizaje, tenga en cuenta los requisitos de residencia de datos y dependencias regionales. Por ejemplo, ¿hay leyes o regulaciones locales que requieran que los datos permanezcan en una ubicación específica?

Independientemente de la decisión inicial, puede agregar o quitar zonas de aterrizaje de datos según sea necesario. Si empieza con una sola zona de aterrizaje, se recomienda que planee extenderse a varias zonas de aterrizaje para evitar futuras necesidades de migración.

Nota:

Donde se implementa Microsoft Fabric, la zona de aterrizaje de datos hospeda soluciones que no son saaS, como lagos de datos y otros servicios de datos de Azure.

Para más información sobre las zonas de aterrizaje, consulte Azure landing zones for cloud-scale analytics (Zonas de aterrizaje de Azure para el análisis a escala de la nube).

Conclusión

Después de leer este conjunto de documentación, en particular las secciones gobernanza, seguridad, funcionamiento y procedimientos recomendados, se recomienda configurar un entorno de prueba de concepto mediante las plantillas de implementación. Estas plantillas, junto con las instrucciones de arquitectura, proporcionan experiencia práctica con algunas de las tecnologías De Azure y Microsoft SaaS. Para más información, consulte Getting started checklist (Introducción: lista de comprobación).

Paso siguiente