Compartir a través de


Ingeniería de datos con Databricks

Databricks proporciona Lakeflow, una solución de ingeniería de datos de un extremo a otro que permite a los ingenieros de datos, desarrolladores de software, desarrolladores de SQL, analistas y científicos de datos ofrecer datos de alta calidad para análisis de bajada, inteligencia artificial y aplicaciones operativas. Lakeflow es una solución unificada para la ingesta, transformación y orquestación de los datos, e incluye Lakeflow Connect, Lakeflow Spark Pipelines Declarativas y Tareas de Lakeflow.

Lakeflow Connect

Lakeflow Connect simplifica la ingesta de datos con conectores a aplicaciones empresariales, bases de datos, almacenamiento en la nube, buses de mensajes y archivos locales. Consulte Lakeflow Connect.

Característica Descripción
Conectores administrados Los conectores administrados proporcionan una interfaz de usuario sencilla y un servicio de ingesta basado en configuración con una sobrecarga operativa mínima, sin necesidad de usar las API de canalización subyacentes y la infraestructura.
Conectores estándar Los conectores estándar proporcionan la capacidad de acceder a los datos de una gama aún más amplia de fuentes de datos dentro de sus canalizaciones u otras consultas.

Canalizaciones declarativas de Spark (SDP) de Lakeflow

Lakeflow Spark Declarative Pipelines (Canalizaciones declarativas de Spark) o SDP es un marco declarativo que reduce la complejidad de crear y administrar canalizaciones de datos por lotes y streaming eficaces. Lakeflow SDP amplía y es interoperable con las canalizaciones declarativas de Apache Spark, mientras se ejecuta en el entorno de ejecución de Databricks optimizado para el rendimiento. SDP organiza automáticamente la ejecución de flujos, sumideros, tablas en streaming y vistas materializadas mediante su encapsulación y ejecución como una canalización. Vea las canalizaciones declarativas de Lakeflow Spark.

Característica Descripción
Flujos Los flujos procesan datos en tuberías. La API de flujos usa la misma API dataFrame que Apache Spark y Structured Streaming. Un flujo puede escribir en tablas y receptores de streaming, como un tema de Kafka, mediante la semántica de streaming, o bien puede escribir en una vista materializada mediante la semántica de lotes.
Tablas de streaming Una tabla de streaming es una tabla Delta con compatibilidad adicional para el procesamiento de datos incremental o de streaming. Actúa como destino para uno o varios flujos en canalizaciones.
Vistas materializadas Una vista materializada es una vista con resultados almacenados en caché para un acceso más rápido. Una vista materializada actúa como destino para las canalizaciones.
Receptores Las pipelines admiten receptores de datos externos como puntos de destino. Estos receptores pueden incluir servicios de streaming de eventos, como Apache Kafka o Azure Event Hubs, tablas externas administradas por unity Catalog o receptores personalizados definidos en Python.

Trabajos de Lakeflow

Los trabajos de Lakeflow proporcionan una orquestación confiable y una supervisión de producción para cualquier carga de trabajo de datos e inteligencia artificial. Un trabajo puede constar de una o varias tareas que ejecutan cuadernos, canalizaciones, conectores administrados, consultas SQL, aprendizaje automático e implementación e inferencia del modelo. Los trabajos también son compatibles con la lógica de flujo de control personalizada, como la bifurcación con instrucciones if / else y el bucle con instrucciones for each. Consulte Trabajos de Lakeflow.

Característica Descripción
Trabajos El principal recurso para la orquestación son los trabajos. Representan un proceso que desea realizar de forma programada.
Tareas Una unidad de trabajo específica dentro de un trabajo. Hay una variedad de tipos de tareas que proporcionan una variedad de opciones que se pueden realizar dentro de un trabajo.
Flujo de control en trabajos Las tareas de flujo de control permiten controlar si ejecutar otras tareas o el orden de las tareas que se van a ejecutar.

Databricks Runtime para Apache Spark

Databricks Runtime es un entorno de proceso confiable y optimizado para el rendimiento para ejecutar cargas de trabajo de Spark, incluido el procesamiento por lotes y el streaming. Databricks Runtime proporciona Photon, un motor de consulta vectorizado nativo de Databricks de alto rendimiento y varias optimizaciones de infraestructura, como el escalado automático. Puede ejecutar las cargas de trabajo de Spark y Structured Streaming en Databricks Runtime mediante la compilación de programas de Spark como cuadernos, JAR o wheels de Python. Consulte Databricks Runtime para Apache Spark.

Característica Descripción
Apache Spark en Databricks Spark se encuentra en el centro de la plataforma de inteligencia de datos de Databricks.
Structured Streaming Structured Streaming es el motor de procesamiento casi en tiempo real de Spark para los datos de streaming.

¿Qué ha ocurrido con Delta Live Tables (DLT)?

Si está familiarizado con Delta Live Tables (DLT), consulte ¿Qué ha ocurrido con Delta Live Tables (DLT)?.

Recursos adicionales