Creación de una arquitectura de plataforma de datos moderna para pymes mediante Microsoft Fabric y Azure Databricks
ideas de solución
En este artículo se describe una idea de solución. El arquitecto de la nube puede usar esta guía para ayudar a visualizar los componentes principales para una implementación típica de esta arquitectura. Use este artículo como punto de partida para diseñar una solución bien diseñada que se adapte a los requisitos específicos de la carga de trabajo.
En este artículo se describe cómo las pequeñas y medianas empresas (SMB) pueden crear una arquitectura de plataforma de datos moderna mediante la combinación de inversiones existentes en Azure Databricks con una plataforma de datos de software como servicio (SaaS) totalmente administrada, como Microsoft Fabric. Las plataformas de datos saaS son soluciones de análisis de datos integrales que se integran fácilmente con herramientas como Azure Machine Learning, Azure AI Services, Power Platform, Microsoft Dynamics 365 y otras tecnologías de Microsoft.
Arquitectura simplificada
Descargar un archivo de Visio de esta arquitectura.
La interoperabilidad entre Azure Databricks y Fabric proporciona una solución sólida que minimiza la fragmentación de datos al tiempo que mejora las funcionalidades analíticas.
Fabric proporciona un lago de datos abierto y regulado, denominado OneLake, como el almacenamiento SaaS subyacente. OneLake usa el formato Delta Parquet, que es el mismo formato que usa Azure Databricks. Para acceder a los datos de Azure Databricks desde OneLake, puede usar accesos directos de OneLake en Fabric o reflejar el catálogo de Unity de Azure Databricks en Fabric. Esta integración le permite aumentar los sistemas de análisis de Azure Databricks con inteligencia artificial generativa sobre OneLake.
También puede usar el modo de lago directo en Power BI en los datos de Azure Databricks en OneLake. El modo de lago directo simplifica la capa de servicio y mejora el rendimiento del informe. OneLake admite API para Azure Data Lake Storage y almacena todos los datos tabulares en formato Delta Parquet.
Como resultado, los cuadernos de Azure Databricks pueden usar puntos de conexión de OneLake para acceder a los datos almacenados. La experiencia es la misma que el acceso a los datos a través de un almacenamiento de Fabric. Esta integración le permite usar Fabric o Azure Databricks sin volver a dar forma a los datos.
Arquitectura
Descargar un archivo de Visio de esta arquitectura.
Flujo de datos
Azure Data Factory: Usar canalizaciones existentes de Azure Data Factory para ingerir datos estructurados y no estructurados de sistemas de origen y colocarlos en el lago de datos existente.
Microsoft Dynamics 365: Puede usar orígenes de datos de Microsoft Dynamics 365 para crear paneles de BI centralizados en conjuntos de datos aumentados mediante Azure Synapse Link o Microsoft Fabric Link. Vuelva a incorporar los datos fusionados y procesados a Microsoft Dynamics 365 y Power BI para su posterior análisis.
ingesta de datos de streaming: los datos de streaming se pueden ingerir a través de Azure Event Hubs o Azure IoT Hubs, en función de los protocolos que se usan para enviar estos mensajes.
ruta de acceso en frío: puede incorporar los datos de streaming al lago de datos centralizado para realizar análisis, almacenamiento e informes adicionales mediante Azure Databricks. Estos datos se pueden unificadar con otros orígenes de datos para el análisis por lotes.
ruta de acceso activa: los datos de streaming de se pueden analizar en tiempo real y los paneles en tiempo real se pueden crear a través de Microsoft Fabric Real-Time Intelligence.
Azure Databricks: Los cuadernos de Azure Databricks existentes se pueden usar para realizar la limpieza, la unificación y los análisis de datos como de costumbre. Considere la posibilidad de usar la arquitectura medallion como:
Bronce, que contiene datos sin procesar.
Silver, que contiene datos limpios y filtrados.
Gold, que almacena datos agregados que son útiles para el análisis empresarial.
Datos dorados o un almacenamiento de datos: Para los datos dorados o un almacenamiento de datos, siga usando Azure Databricks SQL o cree una creación de reflejo del catálogo de Unity de Azure Databricks en Fabric. Cree fácilmente paneles basados en el análisis sin servidor de datos en Fabric lakehouses sin necesidad de configurarlos mediante los modelos semánticos de Power BI que se crean automáticamente para todos los almacenes de fabric lakehouses. Fabric Data Warehouse también se puede usar como capa dorada si los requisitos analíticos requieren un proceso más rápido.
Entre las herramientas que se usan para la gobernanza, la colaboración, la seguridad, el rendimiento y la supervisión de costos se incluyen:
Detección y control
Microsoft Purview proporciona servicios de detección de datos, clasificación de datos confidenciales e información de gobernanza en todo el patrimonio de datos.
Unity Catalog proporciona funcionalidades centralizadas de control de acceso, auditoría, linaje y detección de datos en áreas de trabajo de Azure Databricks.
Azure DevOps proporciona integración continua e implementación continua y otras características de control de versiones integradas.
Azure Key Vault administra secretos, claves y certificados.
Microsoft Entra ID proporciona el inicio de sesión único para los usuarios de Azure Databricks. Azure Databricks admite el aprovisionamiento automatizado de usuarios con el identificador entra de Microsoft para:
Cree nuevos usuarios.
Asigne a cada usuario un nivel de acceso.
Quite los usuarios y deniegue el acceso.
Azure Monitor recopila y analiza la telemetría de recursos de Azure. Este servicio maximiza el rendimiento y la confiabilidad mediante la identificación proactiva de problemas.
Microsoft Cost Management proporciona servicios de gobernanza financiera para cargas de trabajo de Azure.
Componentes
Data Lake Storage es un servicio de almacenamiento de datos escalable diseñado para datos estructurados y no estructurados. En esta arquitectura, Data Lake Storage actúa como la infraestructura subyacente de Delta Lake. Es la capa de almacenamiento principal para los datos sin procesar y procesados, lo que permite la ingesta, el almacenamiento y la recuperación de datos eficaces para cargas de trabajo de análisis y aprendizaje automático.
azure Data Factory es un servicio de integración de datos basado en la nube que organiza y automatiza el movimiento y la transformación de datos. En esta arquitectura, Azure Data Factory crea, programa y organiza canalizaciones de datos que mueven y transforman datos en varios almacenes de datos y servicios.
Azure Event Hubs es un servicio de ingesta de datos en tiempo real que puede procesar millones de eventos por segundo desde cualquier origen. En esta arquitectura, Event Hubs captura y transmite grandes volúmenes de datos de varios orígenes para habilitar el análisis en tiempo real y el procesamiento controlado por eventos.
Azure IoT Hub es un servicio administrado que mejora la seguridad y la comunicación confiable entre dispositivos de Internet de las cosas (IoT) y la nube. En esta arquitectura, IoT Hub facilita la ingesta, el procesamiento y el análisis de datos de telemetría de dispositivos IoT para proporcionar información en tiempo real y habilitar la supervisión remota.
Dataverse es una plataforma de datos escalable que las organizaciones pueden usar para ayudar a almacenar y administrar de forma segura los datos que usan las aplicaciones empresariales. En esta arquitectura, actúa como origen de datos que se alimenta en la canalización de análisis a través de Azure Synapse Link o Microsoft Fabric Link.
Azure Synapse Link es una característica de integración de datos que conecta aplicaciones de Dynamics con Azure Synapse Analytics o Data Lake Storage. En esta arquitectura, copia los datos casi en tiempo real desde Dataverse a Data Lake Storage.
Microsoft Fabric Link es una característica de integración de datos que conecta aplicaciones de Dynamics a Fabric. En esta arquitectura, replica datos de Dataverse a Fabric casi en tiempo real.
Azure Databricks es una plataforma de análisis basada en Apache Spark para el procesamiento de macrodatos, el aprendizaje automático y la ingeniería de datos. En esta arquitectura, realiza la limpieza, transformación y análisis de datos mediante capas de arquitectura medallion.
Delta Lake es una capa de almacenamiento de código abierto que aporta transacciones de atomicidad, coherencia, aislamiento y durabilidad (ACID) a apache Spark y cargas de trabajo de macrodatos. En esta arquitectura, Delta Lake mejora la confiabilidad y el rendimiento de los datos dentro del lago de datos.
Azure Databricks SQL es un servicio de análisis basado en SQL que permite a los usuarios ejecutar consultas SQL en datos almacenados en Azure Databricks. En esta arquitectura, Azure Databricks SQL proporciona una interfaz SQL eficaz para consultar y analizar datos, lo que permite el análisis interactivo.
La inteligencia artificial y el aprendizaje automático abarcan una variedad de tecnologías y servicios que permiten el desarrollo, la implementación y la administración de modelos de aprendizaje automático. En esta arquitectura, los servicios ai y Machine Learning crean, entrenan e implementan modelos predictivos. Esta funcionalidad permite la toma de decisiones controlada por datos.
unity Catalog es una solución de gobernanza de datos que proporciona funcionalidades centralizadas de control de acceso, auditoría, linaje y detección de datos en áreas de trabajo de Databricks. En esta arquitectura, El catálogo de Unity ayuda a garantizar la gobernanza y la seguridad de los datos proporcionando controles de acceso, auditoría y seguimiento de linaje de datos específicos.
arquitectura del lago Medallion es un patrón de arquitectura de datos que organiza los datos en capas de bronce, plata y oro para un procesamiento y análisis de datos eficientes. En esta arquitectura, estructura los flujos de trabajo de procesamiento de datos mediante Data Lake Storage, Delta Lake y Azure Databricks para admitir análisis escalables.
Fabric es una plataforma de datos completa que integra varios servicios de datos y herramientas para proporcionar una experiencia de análisis y administración de datos sin problemas. En esta arquitectura, Fabric conecta e integra datos de varios orígenes, lo que permite un análisis completo de datos e información en toda la organización.
Real-Time Intelligence es una funcionalidad de procesamiento de datos que permite a las organizaciones ingerir, procesar y analizar datos en tiempo real. Real-Time Intelligence procesa el streaming de datos de varios orígenes. En esta arquitectura, proporciona información en tiempo real y permite acciones automatizadas basadas en patrones de datos.
Los accesos directos de OneLake crean un vínculo local entre OneLake y otros orígenes de datos. En esta arquitectura, simplifican el acceso a los datos y la administración, y proporcionan una vista unificada de los datos en toda la organización.
Power BI es un servicio de análisis empresarial que proporciona visualizaciones interactivas y funcionalidades de inteligencia empresarial. En esta arquitectura, Power BI visualiza datos de Fabric y Databricks mediante el modo Direct Lake para mejorar el rendimiento.
microsoft Purview es un servicio unificado de gobernanza de datos que ayuda a las organizaciones a administrar y controlar sus datos en varios orígenes. En esta arquitectura, cataloga los datos, realiza un seguimiento del linaje y aplica el cumplimiento en todo el patrimonio de datos. Puede integrar Unity Catalog en Purview para acceder a los metadatos del catálogo de Unity desde Purview.
microsoft Entra ID es una solución de administración de identidades y acceso basada en la nube que ayuda a garantizar inicios de sesión seguros y acceso a recursos como Microsoft 365, Azure y otras aplicaciones SaaS. En esta arquitectura, Microsoft Entra ID proporciona administración segura de identidades y acceso para los recursos de Azure. Esta característica permite inicios de sesión seguros, administra identidades de usuario y ayuda a garantizar el acceso autorizado a los datos y los recursos.
Microsoft Cost Management es un conjunto de herramientas de FinOps que las organizaciones pueden usar para analizar, supervisar y optimizar los costos de Microsoft Cloud. En esta arquitectura, estas herramientas proporcionan gobernanza financiera sobre los recursos de Azure.
key Vault es un servicio en la nube que almacena y administra secretos, como claves de API, contraseñas, certificados y claves criptográficas. En esta arquitectura, Azure Databricks puede recuperar secretos de Key Vault para autenticar y acceder a Data Lake Storage, lo que garantiza la integración segura.
Azure Monitor es un servicio de supervisión que proporciona observabilidad de pila completa para aplicaciones, infraestructura y redes. Azure Monitor permite a los usuarios recopilar, analizar y actuar sobre los datos de telemetría de sus entornos locales y de Azure. En esta arquitectura, Azure Monitor garantiza el rendimiento y la confiabilidad mediante la identificación proactiva de problemas.
Azure DevOps es un conjunto de herramientas de desarrollo que admiten una cultura colaborativa y procesos simplificados. Estas herramientas permiten a los desarrolladores, administradores de proyectos y colaboradores desarrollar software de forma más eficaz. Azure DevOps proporciona características integradas, como Azure Boards, Azure Repos, Azure Pipelines, Azure Test Plans y Azure Artifacts. Puede acceder a estas características a través de un explorador web o un cliente de entorno de desarrollo integrado. En esta arquitectura, Azure DevOps admite la implementación automatizada y el control de versiones para canalizaciones de datos y cuadernos.
gitHub es un servicio de hospedaje de repositorios git basado en la nube que simplifica el control de versiones y la colaboración para los desarrolladores. Los usuarios y equipos pueden almacenar y administrar su código, realizar un seguimiento de los cambios y colaborar en proyectos. En esta arquitectura, GitHub se integra con Azure DevOps para aplicar la automatización y el cumplimiento en flujos de trabajo de desarrollo e canalizaciones de implementación para Azure Data Factory, Azure Databricks y Fabric.
Alternativas
Para crear un entorno independiente de Fabric, consulte Greenfield lakehouse on Fabric.
Para migrar un entorno de análisis sql local a Fabric, consulte Almacenamientos de datos modernos para pequeñas y medianas empresas.
Alternativas de servicio dentro de esta arquitectura
de ingesta de batch de
- Opcionalmente, use canalización de datos de Fabric para la integración de datos en lugar de canalizaciones de Data Factory. La elección depende de varios factores. Para obtener más información, consulte Obtención de Azure Data Factory a Data Factory en Microsoft Fabric.
de ingesta de Microsoft Dynamics 365
Si usa Azure Data Lake como almacenamiento de Data Lake y quiere ingerir datos de Dataverse, use Azure Synapse Link para Dataverse con Azure Data Lake. Para Dynamics Finance and Operations, consulte FnO Azure Synapse Link for Dataverse.
Si usa Microsoft Fabric Lakehouse como almacenamiento del lago de datos, consulte Fabric Link.
de ingesta de datos de streaming
- La decisión entre Azure IoT y Event Hubs depende del origen de los datos de streaming, tanto si se necesita la clonación como la comunicación bidireccional con los dispositivos de informes y los protocolos necesarios. Para más información, consulte Comparación de IoT Hub y Event Hubs.
Lakehouse
- Microsoft Fabric Lakehouse es una plataforma de arquitectura de datos unificada para administrar y analizar datos estructurados y no estructurados en un formato abierto que usa principalmente archivos Delta Parquet. Admite dos tipos de almacenamiento. Estos tipos de almacenamiento son tablas administradas como CSV, Parquet o Delta y archivos no administrados. Las tablas administradas se reconocen automáticamente. Los archivos no administrados requieren la creación explícita de tablas. La plataforma permite transformaciones de datos a través de puntos de conexión de Spark o SQL y se integra sin problemas con otros componentes de Fabric. Esta integración sin problemas permite el uso compartido de datos sin duplicación. Este concepto se alinea con la arquitectura de medallion común que se usa en cargas de trabajo analíticas. Para obtener más información, consulte Lakehouse in Fabric.
de análisis en tiempo real
azure Databricks
- Si tiene una solución de Azure Databricks existente, es posible que quiera seguir usando Structured Streaming para el análisis en tiempo real. Para obtener más información, consulte Streaming en Databricks.
Tejido
Si ha usado otros servicios de Azure para análisis en tiempo real en el pasado o no tiene ninguna solución de análisis en tiempo real existente, consulte Fabric Real-time Intelligence versus Azure Streaming Solutions.
El streaming estructurado de Fabric usa Spark Structured Streaming para procesar e ingerir flujos de datos en vivo como tablas anexadas continuamente. El streaming estructurado admite varios orígenes de archivos, como CSV, JSON, ORC, Parquet y servicios de mensajería como Kafka y Event Hubs. Este enfoque garantiza el procesamiento de flujos escalable y tolerante a errores, que optimiza los entornos de producción de alto rendimiento. Para obtener más información, consulte Fabric Spark Structured Streaming.
de ingeniería de datos de
- Use Fabric o Azure Databricks para escribir cuadernos de Spark. Para obtener más información, consulte Uso de cuadernos de Fabric. Para obtener información sobre cómo se comparan los cuadernos de Fabric con lo que proporciona Azure Synapse Spark, consulte Compare Fabric Data Engineering and Azure Synapse Spark. Para más información sobre los cuadernos de Azure Databricks, consulte Introducción a los cuadernos de Databricks.
almacenamiento de datos de o de capa gold
- Puede usar Fabric o Azure Databricks para crear un almacén basado en SQL o una capa de oro. Para obtener una guía de decisión sobre cómo elegir una solución de almacenamiento de datos o almacenamiento de capas gold en Fabric, consulte Guía de decisión de Tejido: elección de un almacén de datos. Para más información sobre los tipos de SQL Warehouse en Azure Databricks, consulte tipos de SQL Warehouse.
data science
Use Fabric o Azure Databricks para funcionalidades de ciencia de datos. Para obtener más información sobre la oferta de ciencia de datos de Fabric, consulte ¿Qué es la ciencia de datos en Fabric?. Para más información sobre la oferta de Azure Databricks, consulte IA y aprendizaje automático en Databricks.
La ciencia de datos de tejido difiere de Machine Learning. Machine Learning proporciona una solución completa para administrar flujos de trabajo e implementar modelos de aprendizaje automático. La ciencia de datos de Fabric se adapta a un escenario de análisis e informes.
power BI
Azure Databricks, integrado con Power BI, permite el procesamiento y la visualización de datos sin problemas. Para más información, consulte Conexión de Power BI a Azure Databricks.
Mediante la creación de reflejo del catálogo de Unity de Azure Databricks en Fabric, puede acceder a los datos administrados por Azure Databricks Unity Catalog directamente desde la carga de trabajo de Fabric. Para más información, consulte creación de reflejo del catálogo de Azure Databricks unity.
Cree un acceso directo desde Data Lake Storage con Delta Lake en fabric One Lake. Para obtener más información, consulte Integrar databricks Unity Catalog con OneLake. Puede consultar estos datos desde Power BI mediante el modo Direct Lake sin copiar datos en el servicio Power BI. Para obtener más información, consulte Direct Lake Mode.
Detalles del escenario
Las pequeñas y medianas empresas que tienen un entorno de Azure Databricks existente y, opcionalmente, una arquitectura de lakehouse pueden beneficiarse de este patrón. Actualmente usan una herramienta de extracción, transformación y carga de Azure, como Azure Data Factory y proporcionan informes en Power BI. Sin embargo, también pueden tener varios orígenes de datos que usan diferentes formatos de datos propietarios en el mismo lago de datos, lo que conduce a la duplicación de datos y a las preocupaciones sobre el bloqueo del proveedor. Esta situación puede complicar la administración de datos y aumentar la dependencia de proveedores específicos. También pueden requerir up-to-date y casi en tiempo real para la toma de decisiones y estar interesados en adoptar herramientas de inteligencia artificial en su entorno.
Fabric es una base saaS abierta, unificada y regulada que puede usar para:
Use OneLake para almacenar, administrar y analizar datos en una sola ubicación sin preocuparse por el bloqueo del proveedor.
Innovar más rápido con integraciones con aplicaciones de Microsoft 365.
Obtenga información rápida con las ventajas del modo de lago directo de Power BI.
Beneficiarse de Copilots en cada experiencia de Fabric.
Acelere el análisis mediante el desarrollo de modelos de inteligencia artificial en una base única.
Mantenga los datos en su lugar sin movimiento, lo que reduce el tiempo que los científicos de datos necesitan para proporcionar valor.
Colaboradores
Microsoft mantiene este artículo. Originalmente fue escrito por los siguientes colaboradores.
Autores principales:
- Bonita Rui | Arquitecto de soluciones en la nube
- Naren Jogendran | Arquitecto de soluciones en la nube
Para ver perfiles de LinkedIn no públicos, inicie sesión en LinkedIn.
Pasos siguientes
- rutas de aprendizaje de para ingenieros de datos
- Tejido: ruta de acceso de inicio de MSLearn
- Tejido: módulos MSLearn
- Creación de una cuenta de almacenamiento para Data Lake Storage
- Inicio rápido de Event Hubs: creación de un centro de eventos mediante Azure Portal
- ¿Cuál es la arquitectura de la casa del lago medallion?
- ¿Qué es un lago en Fabric?
Recurso relacionado
- de lagos de datos de