Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo se ofrece una orientación arquitectónica para el lakehouse, que abarca los orígenes de datos, la ingesta, la transformación, la consulta y el procesamiento, el servicio, el análisis y el almacenamiento.
Cada arquitectura de referencia tiene un PDF descargable en formato 11 x 17 (A3).
Aunque el lakehouse en Databricks es una plataforma abierta que se integra con un gran ecosistema de herramientas de asociados, las arquitecturas de referencia solo se centran en los servicios de Azure y en el lakehouse de Databricks. Los servicios de proveedor de nube que se muestran están seleccionados para ilustrar los conceptos y no son exhaustivos.
Descarga: Arquitectura de referencia para Azure Databricks Lakehouse
La arquitectura de referencia de Azure muestra los siguientes servicios específicos de Azure para la ingesta, almacenamiento, servicio y análisis:
- Azure Synapse y SQL Server como sistemas de origen para la federación de almacenes de lago
- Azure IoT Hub y Azure Event Hubs para la ingesta en streaming
- Azure Data Factory para la ingesta por lotes
- Azure Data Lake Storage Gen 2 (ADLS) como almacenamiento de objetos para los recursos de datos e inteligencia artificial
- Azure SQL DB y Azure Cosmos DB como bases de datos operativas
- Azure Purview como catálogo empresarial al que UC exporta información de esquema y linaje
- Power BI como herramienta de BI
- Azure OpenAI se puede usar mediante Model Serving como LLM externo
Organización de las arquitecturas de referencia
La arquitectura de referencia se estructura en distintas líneas, como son Origen, Ingesta, Transformación, Consulta/proceso, Servicio, Análisis y Almacenamiento:
Source
Hay tres maneras de integrar datos externos en la Plataforma de inteligencia de datos:
- ETL: la plataforma permite la integración con sistemas que proporcionan datos semiestructurados y no estructurados (como sensores, dispositivos IoT, medios, archivos y registros), así como datos estructurados de bases de datos relacionales o aplicaciones empresariales.
- Federación de Lakehouse: los orígenes SQL, como las bases de datos relacionales, se pueden integrar en almacén de lago de datos y Catálogo de Unity sin ETL. En este caso, los datos del sistema de origen se rigen por el catálogo de Unity y las consultas se insertan en el sistema de origen.
- Federación de catálogos: los catálogos de Metastore de Hive también se pueden integrar en el catálogo de Unity a través de la federación del catálogo, lo que permite a Unity Catalog controlar las tablas almacenadas en Hive Metastore.
Ingest
Ingesta de datos en el almacén de lago de datos mediante lotes o streaming:
- Databricks Lakeflow Connect ofrece conectores integrados para la ingesta de aplicaciones y bases de datos empresariales. La canalización de ingesta resultante se rige por Unity Catalog y funciona con computación sin servidor y canalizaciones.
- Los archivos entregados al almacenamiento en la nube se pueden cargar directamente mediante el cargador automático de Databricks.
- Para la ingesta por lotes de datos de aplicaciones empresariales en Delta Lake, el almacén de lago de Databricks se basa en herramientas de ingesta de asociados con adaptadores específicos para estos sistemas de registro.
- Los eventos de streaming se pueden ingerir directamente desde sistemas de streaming de eventos como Kafka mediante Databricks Structured Streaming. Los orígenes de streaming pueden ser sensores, IoT o procesos de captura de datos modificados .
Storage
- Los datos normalmente se almacenan en el sistema de almacenamiento en la nube, donde las canalizaciones de ETL usan la arquitectura medallion para almacenar datos de manera estructurada como archivos o tablas Delta o tablas de Apache Iceberg.
Transformación y consulta/proceso
Databricks Lakehouse usa sus motores Apache Spark y Photon para todas las transformaciones y consultas.
Pipelines es un marco declarativo para simplificar y optimizar canalizaciones de procesamiento de datos confiables, fáciles de mantener y probar.
Con tecnología de Apache Spark y Photon, databricks Data Intelligence Platform admite ambos tipos de cargas de trabajo: consultas SQL a través de almacenes de SQL y cargas de trabajo de SQL, Python y Scala a través de clústeres de áreas de trabajo.
En el caso de la ciencia de datos (modelado de ML e IA generativa), la plataforma Databricks AI y Machine Learning proporciona entornos de ejecución de ML especializados para AutoML y para codificar trabajos de ML. Todos los flujos de trabajo de ciencia de datos y MLOps son mejor compatibles con MLflow.
Serving
Para los casos de uso de almacenamiento de datos (DWH) y BI, Databricks Lakehouse proporciona Databricks SQL, el almacén de datos potenciado por SQL Warehouses y SQL Warehouses sin servidor.
Para el aprendizaje automático, Mosaic AI Model Serving es una funcionalidad de servicio de modelo escalable, en tiempo real y de nivel empresarial hospedada en el plano de control de Databricks. Mosaic AI Gateway es la solución de Databricks para gobernar y supervisar el acceso a los modelos de IA generativos admitidos y sus puntos de conexión de servicio de modelos asociados.
Bases de datos operativas:
- Lakebase es una base de datos de procesamiento de transacciones en línea (OLTP) basada en Postgres y totalmente integrada con databricks Data Intelligence Platform. Permite crear bases de datos OLTP en Databricks e integrar cargas de trabajo OLTP con Lakehouse.
- Los sistemas externos, como las bases de datos operativas, se pueden usar para almacenar y entregar productos de datos finales a las aplicaciones de usuario.
Collaboration:
Los asociados empresariales obtienen acceso seguro a los datos que necesitan a través de Delta Sharing.
Basado en Delta Sharing, Databricks Marketplace es un foro abierto para intercambiar productos de datos.
Clean Rooms son entornos seguros y de protección de privacidad en los que varios usuarios pueden trabajar juntos en datos empresariales confidenciales sin acceso directo a los datos de los demás.
Analysis
Las aplicaciones empresariales finales están en este carril de natación. Entre los ejemplos se incluyen clientes personalizados, como aplicaciones de inteligencia artificial conectadas a Mosaic AI Model Serving para la inferencia en tiempo real o las aplicaciones que acceden a los datos insertados desde lakehouse a una base de datos operativa.
En los casos de uso de BI, los analistas suelen usar herramientas de BI para acceder al almacenamiento de datos. Los desarrolladores de SQL también pueden usar el Editor de SQL de Databricks (no se muestra en el diagrama) para consultas y paneles.
La Plataforma de inteligencia de datos también ofrece paneles para crear visualizaciones de datos y compartir información.
Integrate
- La plataforma databricks se integra con proveedores de identidades estándar para la administración de usuarios y el inicio de sesión único (SSO).
Los servicios de inteligencia artificial externos, como OpenAI, LangChain o HuggingFace , se pueden usar directamente desde la plataforma de inteligencia de Databricks.
Los orquestadores externos pueden usar la API REST completa o conectores dedicados para herramientas de orquestación externas como Apache Airflow.
Unity Catalog se usa para toda la gobernanza de datos e inteligencia artificial en la plataforma de inteligencia de Databricks y puede integrar otras bases de datos en su gobernanza a través de Lakehouse Federation.
Además, el catálogo de Unity se puede integrar en otros catálogos empresariales, por ejemplo, Purview. Póngase en contacto con el proveedor del catálogo de empresa para obtener más información.
Funcionalidades comunes para todas las cargas de trabajo
Además, el "lakehouse" de Databricks incluye características de administración que soportan todas las cargas de trabajo.
Gobernanza de datos e inteligencia artificial
El sistema central de gobernanza de datos e inteligencia artificial en databricks Data Intelligence Platform es unity Catalog. El catálogo de Unity proporciona un único lugar para administrar las directivas de acceso a datos que se aplican en todas las áreas de trabajo y admite todos los recursos creados o usados en lakehouse, como tablas, volúmenes, características (almacén de características) y modelos (registro de modelos). El catálogo de Unity también se puede usar para capturar el linaje de datos en tiempo de ejecución en las consultas que se ejecutan en Databricks.
Databricks Data Quality Monitoring le permite supervisar la calidad de los datos de todas las tablas de su cuenta. Detecta anomalías en todas las tablas y proporciona un perfil de datos completo para cada tabla.
Para la observabilidad, las tablas del sistema son un almacén analítico hospedado en Databricks de los datos operativos de la cuenta. Las tablas del sistema se pueden usar para la observabilidad histórica en toda la cuenta.
Motor de inteligencia de datos
La plataforma de inteligencia de datos de Databricks permite a toda la organización usar datos e inteligencia artificial, combinando la inteligencia artificial generativa con las ventajas de un lago para comprender la semántica única de los datos. Consulte Características de asistencia de Databricks AI.
Databricks Assistant está disponible en cuadernos de Databricks, editor de SQL, editor de archivos y en otro lugar como asistente de inteligencia artificial con reconocimiento del contexto para los usuarios.
Automatización y orquestación
Las tareas de Lakeflow orquestan el procesamiento de datos, el aprendizaje automático y las canalizaciones de análisis en la plataforma de inteligencia de datos de Databricks. Las canalizaciones declarativas de Spark de Lakeflow permiten crear canalizaciones de ETL confiables y fáciles de mantener con sintaxis declarativa. La plataforma también admite CI/CD y MLOps.
Casos de uso de alto nivel para la Plataforma de inteligencia de datos en Azure
Ingesta integrada de aplicaciones SaaS y bases de datos con Lakeflow Connect
Descarga: Arquitectura de referencia de Lakeflow Connect para Azure Databricks.
Databricks Lakeflow Connect ofrece conectores integrados para la ingesta de aplicaciones y bases de datos empresariales. La pipeline de ingesta resultante se rige por Unity Catalog y cuenta con cómputo sin servidor y Lakeflow Spark Declarative Pipelines.
Lakeflow Connect aprovecha lecturas y escrituras incrementales eficientes para hacer que la ingesta de datos sea más rápida, escalable y rentable, mientras que los datos permanecen frescos para el consumo posterior.
Ingesta por lotes y ETL
Descarga: Arquitectura de referencia para ETL por lotes en Azure Databricks
Las herramientas de ingesta usan adaptadores específicos del origen para leer datos del origen y luego almacenarlos en el almacenamiento en la nube, desde donde Auto Loader puede leerlos, o llamar directamente a Databricks (por ejemplo, con herramientas de ingesta de socios integradas en Databricks Lakehouse). Para cargar los datos, el motor de procesamiento y ETL de Databricks ejecuta las consultas a través de canalizaciones. Organice trabajos de una o varias tareas con Lakeflow Jobs y adminístrelos usando Unity Catalog (control de acceso, auditoría, linaje, etc.). Para proporcionar acceso a tablas doradas específicas para sistemas operativos de baja latencia, exporte las tablas a una base de datos operativa, como RDBMS o almacén de clave-valor al final de la canalización ETL.
Streaming y captura de datos modificados (CDC)
Descarga: Arquitectura de streaming estructurado de Spark para Azure Databricks
El motor de ETL de Databricks usa Spark Structured Streaming para leer desde colas de eventos como Apache Kafka o Azure Event Hubs. Los pasos descendentes siguen el enfoque del caso de uso por lotes anterior.
La captura de datos de cambio en tiempo real (CDC) normalmente almacena los eventos extraídos en una cola de eventos. Desde allí, el caso de uso sigue el caso de uso de streaming.
Si la Captura de Cambios de Datos (CDC) se realiza por lotes, con los registros extraídos almacenados primero en la nube, Databricks Autoloader puede leerlos, y el caso de uso sigue un proceso ETL por lotes.
Aprendizaje automático e inteligencia artificial (tradicional)
Descarga: Arquitectura de referencia de Machine Learning e IA para Azure Databricks
Para el aprendizaje automático, la plataforma de inteligencia de datos de Databricks proporciona inteligencia artificial de Mosaico, que incluye bibliotecas de aprendizaje profundo y máquinas de última generación. Proporciona funcionalidades como el Almacén de características y el Registro de modelos (ambos integrados en el catálogo de Unity), las características de poco código con AutoML y la integración de MLflow en el ciclo de vida de la ciencia de datos.
Unity Catalog rige todos los recursos relacionados con la ciencia de datos (tablas, características y modelos) y los científicos de datos pueden usar trabajos de Lakeflow para organizar sus trabajos.
Para implementar modelos de forma escalable y de nivel empresarial, use las funcionalidades de MLOps para publicar los modelos en el servicio de modelos.
Aplicaciones del agente de IA (Gen AI)
Descarga: Arquitectura de referencia de aplicaciones de Gen AI para Azure Databricks
Para implementar modelos de una forma escalable y de nivel empresarial, use las funcionalidades de MLOps para publicar los modelos en el servicio de modelos.
Análisis de BI y SQL
Descarga: Arquitectura de referencia de ANÁLISIS de BI y SQL para Azure Databricks
En el caso de los casos de uso de BI, los analistas de negocios pueden usar paneles, el editor de SQL de Databricks o las herramientas de BI , como Tableau o Power BI. En todos los casos, el motor es Databricks SQL (sin servidor o sin servidor) y Unity Catalog proporciona detección, exploración y control de acceso de datos.
Aplicaciones empresariales
Descarga: Aplicaciones empresariales para Databricks para Azure Databricks
Databricks Apps permite a los desarrolladores compilar e implementar aplicaciones de inteligencia artificial y datos seguros directamente en la plataforma de Databricks, lo que elimina la necesidad de una infraestructura independiente. Las aplicaciones se hospedan en la plataforma sin servidor de Databricks e integran con los servicios de plataforma clave. Use Lakebase si la aplicación necesita datos OLTP que se sincronicen desde Lakehouse.
Federación de Lakehouse
Descarga: Arquitectura de referencia de federación de Lakehouse para Azure Databricks
La federación de Lakehouse permite integrar bases de datos SQL externas (como MySQL, Postgres, SQL Server o Azure Synapse) con Databricks.
Todas las cargas de trabajo (IA, DWH y BI) pueden beneficiarse de esto sin necesidad de realizar primero el proceso ETL para almacenar los datos en almacenamiento de objetos. El catálogo de origen externo se asigna al catálogo de Unity y se puede aplicar un control de acceso específico para el acceso a través de la plataforma de Databricks.
Federación del catálogo
Descarga: Arquitectura de referencia de federación de catálogo para Azure Databricks
La federación de catálogos permite integrar metastores externos de Hive (como MySQL, Postgres, SQL Server o Azure Synapse) con Databricks.
Todas las cargas de trabajo (IA, DWH y BI) pueden beneficiarse de esto sin necesidad de realizar primero el proceso ETL para almacenar los datos en almacenamiento de objetos. El catálogo de origen externo se agrega al catálogo de Unity, donde se aplica el control de acceso específico a través de la plataforma de Databricks.
Uso compartido de datos con herramientas de terceros
Delta Sharing proporciona el uso compartido de datos de nivel empresarial con terceros. Permite el acceso directo a los datos del almacén de objetos protegido por el catálogo de Unity. Esta funcionalidad también se usa en Databricks Marketplace, un foro abierto para intercambiar productos de datos.
Consumo de datos compartidos de Databricks
El protocolo Delta Sharing Databricks-to-Databricks permite a los usuarios compartir datos de forma segura con cualquier usuario de Databricks, independientemente de la cuenta o del host en la nube, siempre y cuando ese usuario tenga acceso a un área de trabajo habilitada para el catálogo de Unity.