Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Databricks proporciona Lakeflow, una solución de ingeniería de datos de un extremo a otro que permite a los ingenieros de datos, desarrolladores de software, desarrolladores de SQL, analistas y científicos de datos ofrecer datos de alta calidad para análisis de bajada, inteligencia artificial y aplicaciones operativas. Lakeflow es una solución unificada para la ingesta, transformación y orquestación de los datos, e incluye Lakeflow Connect, Lakeflow Spark Pipelines Declarativas y Tareas de Lakeflow.
Lakeflow Connect
Lakeflow Connect simplifica la ingesta de datos con conectores a aplicaciones empresariales, bases de datos, almacenamiento en la nube, buses de mensajes y archivos locales. Consulte Lakeflow Connect.
| Característica | Descripción |
|---|---|
| Conectores administrados | Los conectores administrados proporcionan una interfaz de usuario sencilla y un servicio de ingesta basado en configuración con una sobrecarga operativa mínima, sin necesidad de usar las API de canalización subyacentes y la infraestructura. |
| Conectores estándar | Los conectores estándar proporcionan la capacidad de acceder a los datos de una gama aún más amplia de fuentes de datos dentro de sus canalizaciones u otras consultas. |
Canalizaciones declarativas de Spark (SDP) de Lakeflow
Lakeflow Spark Declarative Pipelines (Canalizaciones declarativas de Spark) o SDP es un marco declarativo que reduce la complejidad de crear y administrar canalizaciones de datos por lotes y streaming eficaces. Lakeflow SDP amplía y es interoperable con las canalizaciones declarativas de Apache Spark, mientras se ejecuta en el entorno de ejecución de Databricks optimizado para el rendimiento. SDP organiza automáticamente la ejecución de flujos, sumideros, tablas en streaming y vistas materializadas mediante su encapsulación y ejecución como una canalización. Vea las canalizaciones declarativas de Lakeflow Spark.
| Característica | Descripción |
|---|---|
| Flujos | Los flujos procesan datos en tuberías. La API de flujos usa la misma API dataFrame que Apache Spark y Structured Streaming. Un flujo puede escribir en tablas y receptores de streaming, como un tema de Kafka, mediante la semántica de streaming, o bien puede escribir en una vista materializada mediante la semántica de lotes. |
| Tablas de streaming | Una tabla de streaming es una tabla Delta con compatibilidad adicional para el procesamiento de datos incremental o de streaming. Actúa como destino para uno o varios flujos en canalizaciones. |
| Vistas materializadas | Una vista materializada es una vista con resultados almacenados en caché para un acceso más rápido. Una vista materializada actúa como destino para las canalizaciones. |
| Receptores | Las pipelines admiten receptores de datos externos como puntos de destino. Estos receptores pueden incluir servicios de streaming de eventos, como Apache Kafka o Azure Event Hubs, tablas externas administradas por unity Catalog o receptores personalizados definidos en Python. |
Trabajos de Lakeflow
Los trabajos de Lakeflow proporcionan una orquestación confiable y una supervisión de producción para cualquier carga de trabajo de datos e inteligencia artificial. Un trabajo puede constar de una o varias tareas que ejecutan cuadernos, canalizaciones, conectores administrados, consultas SQL, aprendizaje automático e implementación e inferencia del modelo. Los trabajos también son compatibles con la lógica de flujo de control personalizada, como la bifurcación con instrucciones if / else y el bucle con instrucciones for each. Consulte Trabajos de Lakeflow.
| Característica | Descripción |
|---|---|
| Trabajos | El principal recurso para la orquestación son los trabajos. Representan un proceso que desea realizar de forma programada. |
| Tareas | Una unidad de trabajo específica dentro de un trabajo. Hay una variedad de tipos de tareas que proporcionan una variedad de opciones que se pueden realizar dentro de un trabajo. |
| Flujo de control en trabajos | Las tareas de flujo de control permiten controlar si ejecutar otras tareas o el orden de las tareas que se van a ejecutar. |
Databricks Runtime para Apache Spark
Databricks Runtime es un entorno de proceso confiable y optimizado para el rendimiento para ejecutar cargas de trabajo de Spark, incluido el procesamiento por lotes y el streaming. Databricks Runtime proporciona Photon, un motor de consulta vectorizado nativo de Databricks de alto rendimiento y varias optimizaciones de infraestructura, como el escalado automático. Puede ejecutar las cargas de trabajo de Spark y Structured Streaming en Databricks Runtime mediante la compilación de programas de Spark como cuadernos, JAR o wheels de Python. Consulte Databricks Runtime para Apache Spark.
| Característica | Descripción |
|---|---|
| Apache Spark en Databricks | Spark se encuentra en el centro de la plataforma de inteligencia de datos de Databricks. |
| Structured Streaming | Structured Streaming es el motor de procesamiento casi en tiempo real de Spark para los datos de streaming. |
¿Qué ha ocurrido con Delta Live Tables (DLT)?
Si está familiarizado con Delta Live Tables (DLT), consulte ¿Qué ha ocurrido con Delta Live Tables (DLT)?.
Recursos adicionales
- Los conceptos de ingeniería de datos describen los conceptos de ingeniería de datos en Azure Databricks.
- Delta Lake es la capa de almacenamiento optimizada que proporciona la base para las tablas de un almacén de lago de datos en Azure Databricks.
- Los procedimientos recomendados de ingeniería de datos le enseñan sobre los procedimientos recomendados para la ingeniería de datos en Azure Databricks.
- Los cuadernos de datos de Databricks son una herramienta popular para la colaboración y el desarrollo.
- Databricks SQL describe el uso de consultas SQL y herramientas de BI en Azure Databricks.
- Databricks Mosaic AI describe la arquitectura de soluciones de aprendizaje automático.