Introducción

Completado

Azure Databricks es una plataforma de datos basada en la nube que reúne lo mejor de la ingeniería de datos, la ciencia de datos y el aprendizaje automático en un único área de trabajo unificada. Basado en Apache Spark, permite a las organizaciones procesar, analizar y visualizar fácilmente grandes cantidades de datos en tiempo real.

Diagrama que muestra información general de Azure Databricks.

Al conectarse a una amplia gama de orígenes de datos, desde proveedores de nube como Azure SQL Database, Amazon S3 y Google Cloud Storage, a sistemas empresariales como SAP y Oracle, Azure Databricks facilita la integración y transformación de datos desde cualquier lugar.

Una vez que se ingieren los datos, los equipos de ventas, marketing, operaciones, finanzas, RR. HH. y sostenibilidad pueden usar Databricks para análisis avanzados, aprendizaje automático, inteligencia empresarial e información controlada por inteligencia artificial.

En su núcleo, Azure Databricks ayuda a las organizaciones a:

  • Integración de datos de varios orígenes
  • Diseñar y transformar datos sin procesar en formatos utilizables
  • Almacenamiento y administración de datos de forma eficaz con gobernanza y seguridad
  • Aplicación de modelos de análisis, aprendizaje automático e inteligencia artificial en tiempo real
  • Impulsar mejores decisiones empresariales y resultados

Data Lakehouse

Un data lakehouse es un enfoque de gestión de datos que combina los puntos fuertes de los lagos de datos y de los almacenes de datos. Ofrece almacenamiento y procesamiento escalables, lo que permite a las organizaciones controlar diversas cargas de trabajo, como el aprendizaje automático y la inteligencia empresarial, sin depender de sistemas independientes y desconectados. Al centralizar la información, un almacén de lago de datos es compatible con una fuente única de la verdad, reduce los costos duplicados y garantiza que la información se mantenga actualizada.

Muchas arquitecturas de almacenamiento de datos en lago siguen un patrón de diseño en capas en el que la información se mejora, enriquece y refina gradualmente a medida que avanza por las distintas etapas de procesamiento. Este enfoque en capas, comúnmente denominado arquitectura medallion, organiza los datos en fases que se basan entre sí, lo que facilita la administración y el uso de forma eficaz.

Databricks Lakehouse usa dos tecnologías clave:

  • Delta Lake: una capa de almacenamiento optimizada que admite transacciones ACID y aplicación de esquemas.
  • Catálogo de Unity: una solución de gobernanza unificada y específica para los datos y la inteligencia artificial.